• 登录
Skip to content

一起大数据-技术文章心得

一起大数据网由数据爱好者发起并维护,专注数据分析、挖掘、大数据相关领域的技术分享、交流。不定期组织爱好者聚会,期待通过跨行业的交流和碰撞,更好的推进各领域数据的价值落地。

Menu
  • 首页
  • 大数据案例
  • 数据&电子书
  • 视频
    • Excel视频
    • VBA视频
    • Mysql视频
    • 统计学视频
    • SPSS视频
    • R视频
    • SAS视频
    • Python视频
    • 数据挖掘视频
    • 龙星计划-数据挖掘
    • 大数据视频
    • Machine Learning with Python
  • 理论
    • 统计学
    • 数据分析
    • 机器学习
    • 大数据
  • 软件
    • Excel
    • Modeler
    • Python
    • R
    • SAS
    • SPSS
    • SQL
    • PostgreSQL
    • KNIME
  • 技术教程
    • SQL教程
    • SPSS简明教程
    • SAS教程
    • The Little SAS Book
    • SAS EG教程
    • R语言教程
    • Python3教程
    • IT 技术速查手册
    • Data Mining With Python and R
    • SAS Enterprise Miner
  • 问答社区
  • 我要提问
Menu
SAS回归分析

SAS回归分析

Posted on 2017年4月12日

from http://blog.163.com/zzz216@yeah/blog/static/16255468420121665447465/

1.用SAS/INSIGHT进行曲线拟合

   拟合回归直线,“analyse-fit”,选择相应的自变量和因变量,既可以自动拟合出一条回归直线。

在拟合回归直线之后,还可以拟合多项式曲线,只需选择curves-polynomial,然后输入阶次。以及样条曲线、核估计法、局部多项式估计(Loess)等

2  用SAS/INSIGHT进行线性回归分析

上面我们已经看到,用菜单“Analyze – Fit (Y X)”就可以拟合一条回归直线,这是对回归方程的估计结果。这样的线性回归可以推广到一个因变量、多个自变量的情况。

用Tables菜单可以加入一些其它的统计量,如做共线诊(Colinearity Diagnostics)的条件数(Conditional Index)。用Graphs菜单可以加入残差的正态概率图(Residual Normal QQ)和偏杠杆图(Partial Leverage)。

在Vars菜单中可以指定一些变量,这些变量可以加入到数据窗口中。数据窗口的内容保存在内存中,不自动改写磁盘中的数据集,所以要保存数据窗口的修改结果的话需要用“File -Save – Data”命令指定一个用来保存的数据集名。

 

  1. 用SAS/INSIGHT拟合广义线性模型

4.用REG过程进行回归分析

SAS/STAT中提供了几个回归分析过程,包括REG(回归)、RSREG(二次响应面回归1、ORTHOREG(病态数据回归)、NLIN(非线性回归)、TRANSREG(变换回归)、CALIS(线性结构方程和路径分析)、GLM(一般线性模型)、GENMOD(广义线性模型),等等。

 

PROC REG DATA=输入数据集选项;

VAR 可参与建模的变量列表;

MODEL 因变量=自变量表/选项;

PRINT 输出结果;

PLOT 诊断图形;

RUN;

REG过程是交互式过程,在使用了RUN语句提交了若干个过程步语句后可以继续写其它的REG过程步语句,提交运行,直到提交QUIT语句或开始其它过程步或数据步才终止。

事实上,REG提供了自动选择最优自变量子集的选项。在MODEL语句中加上“SELECTION=选择方法”的选项就可以自动挑选自变量,选择方法有NONE(全用,这是缺省),FORWARD(逐步引入法),BACKWARD(逐步剔除法),STEPWISE(逐步筛选法),MAXR(最大R2增量法),MINR(最小R2增量法),RSQUARE(R2选择法),ADJRSQ(修正R2选择法),CP(Mallows的Cp统计量法)。

例:

proc reg data=my.stu;

var num math chinese;

model chinese=math num/selection=stepwise;

run;

REG过程给出的缺省结果比较少。用PRINT语句和PLOT语句可以显示额外的结果。为了显示模型的预测值(拟合值)和95%预测界限,使用语句:

print cli;

run;

 

各列分别为观测序号(Obs),因变量的值(Dep Var),预测值(Predicted Value),预测值的期望值的标准误差(Std Error Mean Predict),预测值的95%置信区间(95% CL Predict).残差(Residual,为因变量值减预测值)。在表后又给出了残差的总和(Sum of Residuals),残差平方和(Sum of Squared Residuals),预测残差的平方和(Predicted Resid SS (Press))。所谓预测残差,是在计算第i号观测的残差时从实际值中减去的预报值是用扣除第i号观测后的样本得到的模型产生的预报值,而不是我们一般所用的预测值(实际是拟合值)。第i号样本的预测残差还可以用公式PRESSIDi=RESIDi/(1-hi)来计算,其中RESIDi是第i个残差,hi为帽子矩阵H的第i个主对角线元素。

用print cli列出的是预测值的置信区间,还可以列出模型均值的置信区间,使用

print clm;

run;

对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如,

plot weight*height/conf95;

run;

 

5.用Analyst进行回归分析

我们可以用Analyst的图形界面调用回归分析功能。“Statistics – Regression”菜单提供了三种回归:一元回归、线性回归和Logistic回归。一元回归可以是通常的一元线性回归,也可以拟合二次或三次多项式。线性回归可以完成REG过程的大部分功能。

选了“Statistics—Regression—Linear”之后要指定因变量和自变量。这个对话框的Model按钮可以指定模型选择方法及具体选择方法的细节。Statisics按钮可以要求输出与模型拟合优度和模型诊断有关的统计量。Predictions可以要求计算对数据集中各观测的预测值、残差值、预测界限,也可以指定一个包含模型自变量的数据集要求对其进行预测。Plots可以要求画各种回归诊断图形,如残差图、杠杆图等。Save Data可以把指定的结果保存到数据集中。

 

附测试代码及结果(图)

proc reg data=sashelp.class;
var weight Height;
model weight=Height;
run;

 

plot weight*height/conf95;
run;

 

 

 

恭喜你,又看完一篇文章,扫码领个红包吧!图片

发表评论 取消回复

要发表评论,您必须先登录。

推荐访问

欢迎加入我们的付费交流社群,增长见识,互帮互助! 自2023-05-01起正式运营。
图片

数据分析交流:数据分析交流
Excel学习: Excel学习交流
Python交流:一起学习Python(数据分
SQL交流:一起学习SQL(数据分析
微博:一起大数据

最新提问

  • 统计方面的3个Python包
  • 更新R及Rstudio
  • TFP CausalImpact:一个Python包,用于估计设计干预对时间序列的因果效应
  • 根据公式的结构,写出计算的表达式,并结算结果
  • excel中提取超级链接公式中的链接地址
  • 用python解析公式并进行可视化
  • Python设置镜像源默认为清华的方法
  • VAR、VMA、VARMA 和 ARIMA
  • Python 的表达式解析库来解析公式
  • PandasAI:一个Python库,将生成式AI能力集成到Pandas中,允许进行高级数据分析任务,例如数据合成和增强

文章标签

AMOS CBC Excel GBDT KNN Modeler Mysql pandas PostgreSQL python python数据可视化 R SAS sklearn SPSS SQL SVM Tableau TensorFlow VBA 主成分分析 关联规则 决策树 协同过滤 可视化 因子分析 大数据 大数据分析 推荐系统 数据分析 数据可视化 数据挖掘 数据透视表 文本挖掘 时间序列 机器学习 深度学习 神经网络 结构方程 统计学 联合分析 聚类 聚类分析 逻辑回归 随机森林
©2023 一起大数据-技术文章心得 | Design: Newspaperly WordPress Theme