【数据分析第一弹】方差分析(ANOVA)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 数据>>

数据分析

>>

【数据分析第一弹】方差分析(ANOVA)

【数据分析第一弹】方差分析(ANOVA)

发布:宇文鸿傲 | 分类:数据分析

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

获取电子版《CDA一级教材》

完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。

完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。

什么是方差分析?方差分析是基于平方和分解的一种统计方法,其目的在与推断两组或多组资料的均值是否相等,检验两个或多个均值的差异是否在统计意义上显著。(1)单因素方差分析(One-wayANOVA)平方和分解:总平方和 ...
扫码加入统计交流群


什么是方差分析?

方差分析是基于平方和分解的一种统计方法,其目的在与推断两组或多组资料的均值是否相等,检验两个或多个均值的差异是否在统计意义上显著。

(1)单因素方差分析(One-way ANOVA)

平方和分解:

总平方和(SST)=组内平方和(SSE)+组间平方和(SSB) (均是离均差平方和)

自由度n-1 = n-g + g-1

离均差平方和自能反应变异的绝对大小,变异程度除与离均差平方和的大小有关外,还与其自由度有关。引入均方差(MS)来反映变异程度:


组内均方差MSE=SSE/(n-g)

组间均方差MSB=SSB/(g-1)

构造F统计量: F=MSB/MSE~F(g-1,n-g)

H0:不存在处理效应

H1:存在处理效应

即:

H0:mu1=mu2=…=mug

H1:mu1、mu2、…、mug不全部相等

若H0成立则组内变异与组间变异都只反应随机误差大小,MSE与MSB相当,F接近1。

若H0不成立,即存在处理效应,则组内变异仍只反映随机误差的大小,但组间变异不仅反映随机误差大小还有处理效应,此时组内均方差MSB>组内均方差MSE。因此若F远大于1,即MSB远大于MSE即认为存在处理效应,H0不成立。

应用条件:(1)个观测值相互独立(这一条一般跟实验设计有关,数据处理时不做检验,只要实验设计得当,这一条一般认为满足)

(2)服从正态分布

(3)方差齐性

Example1:

为研究煤矿粉尘作业环境对尘肺的影响,将18只大鼠随机分到A、B、C 3个组,每组6只,分别在地面办公楼、煤炭仓库和矿井下染尘,12周后测量大鼠全肺湿重(g),数据如下表,问不同环境下大鼠全肺湿重有无差别?



Rcode:

####(1)one-way ANOVA

#创建数据

XA=c(4.2,3.3,3.7,4.3,4.1,3.3)

XB=c(4.5,4.4,3.5,4.2,4.5,4.2)

XC=c(5.6,3.6,4.5,5.1,4.9,4.7)

X=c(XA,XB,XC)

Treat=gl(3,6,label=c("A","B","C"))

#正态性检验

qqnorm(X)

qqline(X)

library(fBasics)

normalTest(X)

jarqueberaTest(X)

#方差齐性检验

bartlett.test(X~Treat)

#先画个箱线图看看各组均值是否大致在一个水平上

plot(X~Treat)

#方差分析

fit=aov(X~Treat)

summary(fit)

####模型诊断

layout(matrix(c(1,2,3,4),2,2)) # optional layout

plot(fit)



两种正态性检验的结果,p值均大于0.1,所以不能否定数据服从正态分布


Bartlett检验结果,p值大于0.1,不能否定各组数据方差相等。

箱线图显示各组均值存在较明显差异,有可能存在处理效应


ANOVA结果显示,P值小于0.05,,所以在alpha=0.05的显著性水平上,我们认为H0不成立,即有95%把握认为存在处理效应,不同环境下大鼠全肺湿重有差别。


模型诊断图:上左和上右表示残差的波动程度基本不随观测值而变化,下左看残差是否服从正态分布,下右各个因子水平上残差波动程度相当;上左、上右,下右是对方差齐性的诊断

,下左是对正态性的诊断。


(2)two-way ANOVA(双因素方差分析)

<1>不可重复(无交互效应)


平方和分解:

总离差平方和(SST)=随机误差平方和(SSE)+行因素误差平方和(SSR)+列因素误差平方和(SSC)

自由度关系:

kr-1= (k-1)(r-1) + k-1 + r-1

MSE=SSE/(k-1)(r-1) MSR=SSR/(k-1) MSC=SSC/(r-1)

行因素检验统计量: F=MSR/MSE~F(k-1,(k-1)(r-1))

列因素检验统计量: F=MSC/MSE~F(r-1,(k-1)(r-1))

Example2

研究A、B、C三种营养素对小白鼠体重增加的影响,已知窝别为影响因素。拟用6窝小白鼠,每窝3只,随机地安排喂养A、B、C三种营养素之一种,8周后观察小白鼠体重增加情况,数据如下表。问:(1)不同营养素之间小白鼠的体重增加是否不同?(2)不同窝别之间小白鼠的体重增加是否不同?

Rcode:

##############创建数据集

XA=c(64,53,71,41,50,42)

XB=c(65,54,68,46,58,40)

XC=c(73,59,79,38,65,46)

X=c(XA,XB,XC)

nut=gl(3,6,label=c("A","B","C"))

loc=gl(6,1,length=18)

#############正态性检验及方差齐性检验#################

normalTest(X)

##############画箱线图初步分析营养液和窝点两因素各自的效应

par(mfrow = c(1, 2))

plot(X~nut+loc)

#############ANOVA

fit2=aov(X~nut+loc)

summary(fit2)

##########ANOVA模型诊断图

par(mfrow=c(2,2))

plot(fit2)

P>0.1,正态性检验通过


行因素列因素方差齐性检验p值均大于0.1,方差齐性检验通过。


箱线图结果表明行因素列因素均对X产生影响(由图可知均值不在一个level上)

Anova结果显示行因素(loc)列因素(nut)F检验P值均小于0.05,故认为行因素和列因素对X均有显著影响。



==========================================================

关于我们:

创作团队:数据加工厂

淘宝店地址:http://shop114096406.taobao.com/?spm=a230r.7195193.1997079397.40.asBLlF

或者在淘宝首页搜店铺“数据加工厂”,我们的logo如下:


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3243158-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
数据分析师 人大经济论坛 大学 专业 手机版
联系客服
值班时间:工作日(9:00--18:00)