1. 首页
  2. 自学中心
  3. 软件
  4. SAS

描述统计 PROC MEANS

来自 http://blog.sina.com.cn/s/blog_5f04938801016unj.html

最常用的描述统计量:

(1)样本数量:称样本大小,在统计书及SAS输出结果中以n表示

(2)平均值

(3)标准差:标准差是对分数变异的测量,如果分数服从钟形(正太)分布,68%的分数在平均数上线一个标准差之内,95%的分数在两个标准差之内。

以下面的数据集为例来了解描述统计的相关概念:

1478440938-2365-5f049388gc6f8b01daee9amp690

假设我们想得到样本大小、平均值、标准差、标准误、样本均值的95%置信区间,并保留两位小数:

读取并进行描述统计的sas程序如下:

data htwt;
input subject gender$ height weight;
datalines;
68.5 155
61.2 99
63.0 115
70.0 205
68.6 170
65.1 125
72.4 220
  188
;
proc means data=htwt n mean std stderr clm maxdec=2;
var height weight;
run;

结果如下:

描述统计 PROC MEANS
方差:各个数据与平均数之差的平方的平均数

标准差:各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。

标准误:即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。

平均数的标准误用来表示平均数的“置信区间”,当样本来自于某一个总理样本时,该值就非常有意义。例如本例如果是从某高校抽取的样本,我们可以用样本平均身高66.97作为该校学生的平均身高的估计值,而标准误告诉我们这个估计值离真值有多远。如果总体人群大致满足正太分布,样本平均数则有68%的机会落在真值的一个标准误(1.51)之间,有95%落在两个标准误(3.02)之内。

使用CLM,则给出了样本平均数95%的置信区间,也就是说,有95%的把握,区间63.27到70.67包含真值。

proc means 默认统计量有N 平均数 最大值 最小值和标准差,如果在此基础上想增加,那么proc means 值呈现所写出的统计量,如果既想要默认值,又加了新的统计量,则要将全部统计量都写成选项。

PROC MEANS 常用选项如下:

1478440941-4288-5f049388g7a4c28b39e56amp690

原创文章,作者:xsmile,如若转载,请注明出处:http://www.17bigdata.com/%e6%8f%8f%e8%bf%b0%e7%bb%9f%e8%ae%a1-proc-means/

联系我们

在线咨询:点击这里给我发消息

邮件:23683716@qq.com

跳至工具栏