数据分析充满了陷阱,包括样本量太小。
偏见可能会蔓延到最善意的研究中,
避免偏差和选择最佳统计测试的提示。
所以你已经形成了你的突破性假设,创建了一个防弹测试程序,并热切地等待结果出来。令你惊讶的是,你所确定的宏伟效果并不存在。什么地方出了错?你的假设是这样表述的吗?统计计算或数据收集方式有误?虽然许多错误很容易蔓延到研究中,但最可能的怀疑之一就是您的研究参与者太少而无法显示效果。其他常见的陷阱包括滥用适当的统计测试,或者一开始就使用了错误的测试。让我们不要忘记偏见:如果您确定您的结果中没有任何偏见,那么您可能错了(并且可能想再次检查!)。
样本量太小
为 SealedEnvelope.com 撰稿的 Tom Brady 写道:“许多研究都太小而无法检测到甚至很大的影响”[1]。
为确保您精心策划(且可能非常昂贵)的研究有很好的展示效果的机会,您必须选择正确的样本量。样本量太大,您很快就会用完现金。样本太小,在你运行那个光荣的卡方检验之前你注定要失败 [无术语]。所以问题变成了……“理想”的样本量是多少?不幸的是,没有一个明确的答案。找到正确的数字更像是一门艺术而不是一门科学。一些帮助您入门的一般提示 [2]:
进行人口普查 [无期限] 。也就是说,如果可能,请询问您所在人群中的每个人。如果您有 1,000 个或更少的潜在数据点,则效果很好。
使用来自类似研究的样本量。 重新发明轮子很难,但您可能不必这样做。很有可能,有人在某处进行了类似的研究。搜索文献(谷歌学术可能是一个不错的起点),看看你是否能找到另一项研究。如果您的研究相当通用,您还可以从已发布的表格或在线样本量计算器中确定最佳样本。
使用像Cochran's Sample Size Formula [no term] 这样的公式。这些并不总是那么容易,因为您通常需要对您期望找到的内容有所了解。例如,Cochran 要求您猜测具有您感兴趣的属性的人口比例。
偏见
偏差 [无术语] 是您的结果高估或低估感兴趣的总体参数的地方。完全避免每一种偏见几乎是不可能的。从计划到出版,它可以通过多种方式渗透到研究的每个阶段 [3]。但是,您可以采取措施通过仔细设计和实施您的研究来避免它。避免偏见的一些一般技巧:
始终对您的样本使用随机选择方法(例如SRS),[无术语]
如果适用,使用盲法,
控制混杂变量 [无术语]。混杂变量是分析中不需要的额外变量。例如,如果您正在研究活动水平对体重增加的影响,那么年龄就是一个混杂变量(例如,与中年人相比,青少年体重增加的可能性较小)。
研究不同类型的偏见,以帮助您识别问题领域。
确保您使用的任何来源都是客观的。例如,不要提及由烟草制造商支付的肺癌研究。
使用适当的测试
“go to”测试(例如卡方检验、 t 检验)[无术语] 得到了很好的理解和广泛实施。不要试图进行更晦涩的测试,除非您可以证明您的选择并提供来自文献的客观参考。在某些情况下,您可能想要运行不寻常的测试。例如,Vincent Granville 写道 [4] “我主要在 实验数学的背景下使用这些测试, [其中] 统计测试的理论答案有时是已知的,这使其成为评估这些测试的功效并确定使它们有效的最小样本量的绝佳基准工具。” 例如,您可以将数据分成两个相等的集合 {X, Y},然后测试 (X + Y) / SQRT(2) 是否与 Z 具有相同的分布,而不是卡方检验正态性。根据对格兰维尔来说,只要您没有无限的理论方差,这就是有效的。
关于选择测试时应该做什么的一些一般提示:
考虑您拥有的变量类型。例如,确保考虑有序变量并注意您的“独立样本”不是配对或依赖的。
不要在分析中对连续变量进行二分法,
除非您已验证残差或结果是正态分布的,否则请勿使用参数方法,
如果可能的话,使用双尾测试而不是单尾测试,
除非您非常熟悉它们的陷阱,否则请避免使用 p 值。例如,较小的 p 值并不总是比较大的 p 值“更好”[5]。请改用置信区间。
如果你有统计知识来评估和分析那些理论答案,那么晦涩的测试可以打破单调。但如果统计不是你的强项,那么你可能应该坚持通常的嫌疑人。不知道从哪里开始?
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选


雷达卡




京公网安备 11010802022788号







