楼主: 时光永痕
968 0

[数据挖掘新闻] 统计测试-何时使用哪个? [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

39%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
统计测试-何时使用哪个?
对于非统计背景的人来说,统计方面最令人困惑的方面始终是基本的统计检验,以及何时使用。这篇博客文章试图指出最常见测试之间的差异,在这些测试中使用空值假设以及概述应使用特定测试的条件。
零假设和检验
在尝试不同测试之间的差异之前,我们需要对什么是虚无假设形成清晰的理解。零假设表明在一组给定的观测值中不存在显着差异。为了这些测试的目的
空:给定两个样本均值相等
备选:给定两个样本均值不相等
为了拒绝零假设,需要计算检验统计量。然后将该检验统计量与临界值进行比较,如果发现该统计量大于临界值,则拒绝该假设。“在理论基础,假设测试基于关键区域的概念:如果检验统计量落在临界区域的零假设被拒绝。临界值是临界区域的边界。如果检验是单面的(例如χ2检验或单面t检验),则将只有一个临界值,而在其他情况下(如双面t检验),则将有两个临界值。 [1]
临界值
临界值是测试统计量表上的一个(或多个)点,超出该点我们将拒绝原假设,并且从测试的显着性水平α中得出。临界值可以告诉我们,两个样本均值属于同一分布的概率是多少。临界值越高,意味着两个样本属于同一分布的概率越低。两尾检验的一般临界值为1.96,这是基于以下事实:正态分布的面积的95%在平均值的1.96标准偏差之内。
临界值可以通过以下方式进行假设检验
1.计算测试统计量
2.根据显着性水平alpha计算临界值
3.将测试统计量与临界值进行比较。
如果检验统计量低于临界值,则接受假设或拒绝假设。要详细了解如何计算临界值,请检查
在继续进行不同的统计检验之前,必须了解样本与总体之间的差异。
在统计中,“人口”是指可以进行的观察的总数。例如,如果我们要计算地球上人类的平均身高,则“人口”将是“地球上实际存在的总人口”。
甲样品,在另一方面,是一组收集/数据从一个预定义的过程中选择的。对于上面的示例,这是一小群人,它们是从地球某些地方随机选择的。
为了通过验证假设从样本中得出推论,样本必须是随机的。
例如,在上面的示例中,如果我们从地球上所有地区(亚洲,美洲,欧洲,非洲等)中随机选择人员,则我们的估算值将接近实际估算值,并且可以作为样本均值,而如果我们进行选择,例如仅从美国进行选择,那么我们的平均身高估算值将不准确,而只能代表特定地区(美国)的数据。这样的样本被称为有偏样本,而不是“人口”的代表。
在统计中要理解的另一个重要方面是“分布”。当“人口”无限大时,不可能通过计算整个总体的平均值或检验参数来验证任何假设。在这种情况下,假定人口是某种类型的分布。
最常见的分布形式是二项式,泊松和离散。但是,还有许多其他类型在下面详细提到
统计分布
离散值或数据是否连续;一种新药物是否获得FDA批准是一个… people.stern.nyu.edu
确定分布类型对于确定关键值和选择检验以验证任何假设是必要的
现在,当我们了解了总体,样本和分布时,我们可以继续了解不同类型的测试及其使用的分布类型。
p值,临界值和检验统计量之间的关系
我们知道临界值是一个点,超出这个点我们将拒绝原假设。另一方面,P值定义为相应统计量(Z,T或chi)右边的概率。使用p值的好处是它可以计算概率估计值,我们可以通过将此概率与显着性水平直接比较来在任何所需的显着性水平上进行测试。
例如,假设特定实验的Z值为1.67,大于5%的临界值1.64。现在,要检查1%的不同显着性水平,需要计算一个新的临界值。
但是,如果我们计算1.67的p值,则该值为0.047。自0.047 <0.05以来,我们可以使用该p值在5%显着性水平上拒绝该假设。但是,当显着性水平为1%时,由于0.047> 0.01,该假设将被接受。这里要注意的重要一点是,不需要重复计算。
Z检验
在z检验中,假定样本为正态分布。使用总体参数(例如“人口平均值”和“人口标准偏差”)计算z得分,并用于验证提取的样本属于同一总体的假设。
空:样本均值与总体均值相同
备选:样本均值与总体均值不同
用于此假设检验的统计量称为z统计量,其得分计算如下:
z =(x-μ)/(σ/√n),其中
x =样本均值
μ=总体平均值
σ/√n=人口标准偏差
如果检验统计量低于临界值,则接受假设或否定假设
T检验
t检验用于比较两个给定样本的平均值。像z检验一样,t检验也假定样本的正态分布。当总体参数(均值和标准差)未知时,使用t检验。
T检验共有三种版本
1.独立样本t检验,比较两组的平均值
2.配对样本t检验,用于比较同一组在不同时间的平均值
3.一项样本t检验,用于根据已知平均值测试单个组的平均值。
此假设检验的统计量称为t统计量,其得分计算如下:
t =(x1-x2)/(σ/√n1+σ/√n2),其中
x1 =样本1的平均值
x2 =样本2的平均值
n1 =样本1的大小
n2 =样本2的大小
t检验有多种变体,此处将详细说明
T检验(学生的T检验):定义和示例
内容:t检验(也称为学生的T检验)比较两个平均值(均值),并告诉您它们是否不同…… www.statisticshowto.com
方差分析
方差分析(ANOVA)也称为方差分析,用于通过一次测试比较多个(三个或更多)样本。ANOVA有2种主要口味
1.单向方差分析:用于比较单个自变量的三个或更多样本/组之间的差异。
2. MANOVA:MANOVA允许我们测试一个或多个自变量对两个或多个因变量的影响。此外,MANOVA还可以在给定独立变量组的情况下检测因变量之间的相互关系差异。
在ANOVA中测试的假设是
空:所有样本对均相同,即所有样本均值均相等
交替:至少一对样本有显着差异
在这种情况下,用于衡量重要性的统计信息称为F统计信息。使用以下公式计算F值
F =(((SSE1-SSE2)/ m)/ SSE2 / nk,其中
SSE =残差平方和
m =限制数量
k =自变量数
有多种工具可用,例如SPSS,R包,Excel等,可以对给定的样本执行ANOVA。
卡方检验
卡方检验用于比较分类变量。卡方检验有两种类型
1.拟合优度检验,它确定样本是否与总体匹配。
2.使用两个自变量的卡方拟合检验来比较列联表中的两个变量,以检查数据是否适合。
一种。卡方值较小意味着数据适合
b。卡方值高意味着数据不合适。
卡方检验的假设是
空:变量A和变量B是独立的
备选:变量A和变量B不是独立的。
在这种情况下,用于衡量重要性的统计量称为卡方统计量。用于计算统计量的公式为
Χ2=Σ[(Or,c-Er,c)2 / Er,c]其中
或者,c =在变量A的水平r和变量B的水平c处观察到的频率计数
Er,c =变量A的水平r和变量B的水平c的预期频率计数
注意:从以上示例可以看出,在所有检验中,统计信息都与临界值进行比较,以接受或拒绝假设。但是,统计量和计算方法的不同取决于变量的类型,要分析的样本数量以及总体参数是否已知。因此,根据这样的因素,选择合适的检验和无效假设。
这是我注意到的最重要的一点,这是我努力学习这些测试并发现它有助于我理解这些基本统计概念。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Statistics statistic Statist MANOVA 拟合优度检验

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-30 08:53