描述统计 PROC MEANS

来自 http://blog.sina.com.cn/s/blog_5f04938801016unj.html

最常用的描述统计量：

（1）样本数量：称样本大小，在统计书及SAS输出结果中以n表示

（2）平均值

（3）标准差：标准差是对分数变异的测量，如果分数服从钟形（正太）分布，68%的分数在平均数上线一个标准差之内，95%的分数在两个标准差之内。

以下面的数据集为例来了解描述统计的相关概念：

假设我们想得到样本大小、平均值、标准差、标准误、样本均值的95%置信区间，并保留两位小数：

读取并进行描述统计的sas程序如下：

data htwt;
input subject gender$ height weight;
datalines;
1 M 68.5 155
2 F 61.2 99
3 F 63.0 115
4 M 70.0 205
5 M 68.6 170
6 F 65.1 125
7 M 72.4 220
8 M . 188
;
proc means data=htwt n mean std stderr clm maxdec=2;
var height weight;
run;

结果如下：

方差：各个数据与平均数之差的平方的平均数

标准差：各数据偏离平均数的距离的平均数，它是离均差平方和平均后的方根，用σ表示。标准差是方差的算术平方根。

标准误：即样本均数的标准差，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度，反映的是样本均数之间的变异。标准误不是标准差，是多个样本平均数的标准差。

平均数的标准误用来表示平均数的“置信区间”，当样本来自于某一个总理样本时，该值就非常有意义。例如本例如果是从某高校抽取的样本，我们可以用样本平均身高66.97作为该校学生的平均身高的估计值，而标准误告诉我们这个估计值离真值有多远。如果总体人群大致满足正太分布，样本平均数则有68%的机会落在真值的一个标准误（1.51）之间，有95%落在两个标准误（3.02）之内。

使用CLM,则给出了样本平均数95%的置信区间，也就是说，有95%的把握，区间63.27到70.67包含真值。

proc means 默认统计量有N 平均数最大值最小值和标准差，如果在此基础上想增加，那么proc means 值呈现所写出的统计量，如果既想要默认值，又加了新的统计量，则要将全部统计量都写成选项。

PROC MEANS 常用选项如下：

发表评论取消回复

推荐访问

发表评论 取消回复

发表评论取消回复