楼主: spssau
4066 3

[学习资料] 线性回归分析步骤总结 [推广有奖]

  • 0关注
  • 34粉丝

教授

22%

还不是VIP/贵宾

-

威望
0
论坛币
165 个
通用积分
1001.5595
学术水平
20 点
热心指数
22 点
信用等级
20 点
经验
16842 点
帖子
535
精华
0
在线时间
636 小时
注册时间
2018-1-14
最后登录
2024-4-26

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

一、前期准备

1.研究目的

线性回归分析研究影响关系情况,回归分析实质上就是研究X(自变量)对Y(因变量,定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;自变量为2个及以上时,称为多元线性回归。线性回归广泛的应用于自然科学、社会科学等各个领域中。例如:研究吸烟、肥胖、运动等因素是否影响高血压发病率;土壤、水分、光照是否影响植物生长等。

2.数据类型

线性回归要求因变量Y(被解释变量)一定是定量数据。如果因变量Y为定类数据,可以用“进阶方法”中的“logit回归”。

3.分析要求

(1)一般对于分析项的自变量个数没有要求,但是一般建议不要一次性放入太多,过多容易引起多重共线性,如果需要对哑变量进行处理,需要在SPSSAU“数据处理”中的“生成变量”。

(2)正态性检验

SPSSAU提供多种正态性检验的方法,例如:“通用方法”中的“正态性检验”;“可视化”中的“直方图”; “可视化”中的“P-P/Q-Q图"。

理论上要求线性回归中的因变量要满足“正态性”,但是若数据为问卷数据,建议可跳过正态性检验这一步。原因在于问卷数据属于等级数据,很难保证正态性,且数据本身变化幅度就不大,即使对数处理效果也不明显。

(3)线性趋势

线性回归模型要求自变量和因变量是呈线性关系的,可以通过SPSSAU中“可视化”中的“散点图”进行查看。如果不成线线性可以使用SPSSAU中的曲线回归

补充说明:相关分析和回归分析

一般来说,回归分析之前需要做相关分析,原因在于相关分析可以先了解是否有关系,回归分析是研究有没有影响关系,有相关关系但并不一定有回归影响关系。

二、SPSSAU上传数据

1.上传数据

登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。

2.拖拽分析项

在“通用方法”模块中选择“线性回归”方法,将Y定量数据放于上方分析框内,X自变量放于下方分析框内,点击“开始分析”即可。

补充说明:如果想一次拖拽多个分析项,则可以使用ctrl键不连续多选,shift键连续多选;左右拖拽。

3.选择参数

勾选后可以将残差和预测值保存起来,可用于进—步分析使用。

三、SPSSAU分析

背景:分析员工当前工资影响因素(数据已满足线性回归分析要求参考来源:SPSS统计分析第5版)。

1.线性回归分析结果

从上表可以看出,模型公式为:当前工资=-338.130 + 1.750起始工资 + 710.927受教育程度(年)-10.009过去经验(月)-77.206年龄,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因。

对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系,另外,针对模型的多重共线性进行检验发现,模型中VIF值全部均小于5,意味着不存在着共线性问题;并且D-W值在数字2附近,因而说明模型不存在自相关性,样本数据之间并没有关联关系,模型较好。

具体分析:

(1)起始工资的回归系数值为1.750(t=29.259,p=0.000<0.01),意味着起始工资会对当前工资产生显著的正向影响关系。

(2)受教育程度(年)的回归系数值为710.927(t=4.190,p=0.000<0.01),意味着受教育程度(年)会对当前工资产生显著的正向影响关系。

(3)过去经验(月)的回归系数值为-10.009(t=-1.762,p=0.079>0.05),意味着过去经验(月)并不会对当前工资产生影响关系。

(4)年龄的回归系数值为-77.206(t=-1.535,p=0.126>0.05),意味着年龄并不会对当前工资产生影响关系。

补充说明如下:

(1)如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。

(2)D-W值常用于检验序列一阶自相关,一般不用考虑。

2.模型预测

SPSSAU提供模型预测,输入自变量X后就会得到相应的因变量Y,例如:假设某员工“起始工资”为3000,“受教育程度”10年,过去经验为12个月,年龄为25,则通过模型预测出当前工资约为9971元(数据结果仅供案例分析)。

3.模型结果图

可以直观的看到自变量与因变量的之间的关系(基于回归系数基础上)。

4.模型汇总

从上表可知,将起始工资,受教育程度(年),过去经验(月),年龄作为自变量,而将当前工资作为因变量进行线性回归分析,从上表可以看出,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因。

5.ANOVA表格分析

对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系。

6.回归系数分析

总结分析可知:起始工资, 受教育程度(年)会对当前工资产生显著的正向影响关系。但是过去经验(月), 年龄并不会对当前工资产生影响关系。

PS:此外SPSSAU还提供了coefPlot


coefPlot展示具体的回归系数值和对应的置信区间,可直观查看数据的显著性情况,如果说置信区间包括数字0则说明该项不显著,如果置信区间不包括数字0则说明该项呈现出显著性。

四、常见问题说明

  1. 多个问卷量表题如何表示一个维度?

比如有两个题“我愿意向朋友推荐SPSSAU”,“我有需要会再来使用SPSSAU”,此两个题是“忠诚度”的体现。但现在需要“忠诚度”这个整体,而不是具体两个标题,

具体操作如下图:

2.多重共线性问题?

VIF值用于检测共线性问题,一般VIF值小于10即说明没有共线性(严格的标准是5),有时候会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,因此二选一即可,一般描述VIF值。

如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。

3.控制变量如何放置?

控制变量指可能干扰模型的项,比如年龄,学历等基础信息。从软件角度来看,并没有“控制变量”这样的名词。“控制变量”就是自变量,所以直接放入“自变量X”框中即可。

4.线性回归有效样本量不足,需要多少样本量?

有效样本不足是指分析时,可以进行分析的样本量低于方法需要的样本量。解决方法是加大样本量。一般来说,至少要求样本量起码是变量数的5-10倍,结果更具备参考意义。

5.回归结果看标准化还是非标准化?

标准化回归系数是消除了量纲影响后的回归系数,可以用来比较各个自变量的“重要性大小”。如果目的在于预测模型,一般使用非标准化回归系数。

五、总结

线性回归分析步骤总结如下:

第一步:首先对模型情况进行分析包括模型拟合情况(比如R ²为0.3,则说明所有X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。

第二步:分析X的显著性如果显著(p 值判断),则说明具有影响关系,反之无影响关系。

第三步:判断X对Y的影响关系方向回归系数B值大于0说明正向影响,反之负向影响。

第四步:其它比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:线性回归分析 线性回归 回归分析 SPSS统计分析 一元线性回归

www.spssau.com
顶一下

使用道具

顶一下

使用道具

板凳
三江鸿 发表于 2022-5-22 00:20:50 来自手机 |只看作者 |坛友微信交流群
感谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 23:08