来自 http://blog.sina.com.cn/s/blog_5f04938801016unj.html
最常用的描述统计量:
(1)样本数量:称样本大小,在统计书及SAS输出结果中以n表示
(2)平均值
(3)标准差:标准差是对分数变异的测量,如果分数服从钟形(正太)分布,68%的分数在平均数上线一个标准差之内,95%的分数在两个标准差之内。
以下面的数据集为例来了解描述统计的相关概念:
假设我们想得到样本大小、平均值、标准差、标准误、样本均值的95%置信区间,并保留两位小数:
读取并进行描述统计的sas程序如下:
data htwt;
input subject gender$ height weight;
datalines;
1
2
3
4
5
6
7
8
;
proc means data=htwt n mean std stderr clm maxdec=2;
var height weight;
run;
结果如下:
标准差:各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。
标准误:即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。
平均数的标准误用来表示平均数的“置信区间”,当样本来自于某一个总理样本时,该值就非常有意义。例如本例如果是从某高校抽取的样本,我们可以用样本平均身高66.97作为该校学生的平均身高的估计值,而标准误告诉我们这个估计值离真值有多远。如果总体人群大致满足正太分布,样本平均数则有68%的机会落在真值的一个标准误(1.51)之间,有95%落在两个标准误(3.02)之内。
使用CLM,则给出了样本平均数95%的置信区间,也就是说,有95%的把握,区间63.27到70.67包含真值。
proc means 默认统计量有N 平均数 最大值 最小值和标准差,如果在此基础上想增加,那么proc means 值呈现所写出的统计量,如果既想要默认值,又加了新的统计量,则要将全部统计量都写成选项。
PROC MEANS 常用选项如下: