了解简单统计学_加里·史密斯-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

了解简单统计学_加里·史密斯

了解简单统计学_加里·史密斯

发布:堂堂Sugar | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

简单统计学_加里·史密斯如何有理有据地胡说八道?如何让数据按照自己编造的理论舞蹈?简单统计学这本书介绍了两类统计陷阱,一种是对数据进行化妆,使用不代表真实情况的样本来推理信息,另一种是实验者自身因素干预 ...
扫码加入金融交流群


简单统计学_加里·史密斯
如何有理有据地胡说八道?如何让数据按照自己编造的理论舞蹈?简单统计学这本书介绍了两类统计陷阱,一种是对数据进行化妆,使用不代表真实情况的样本来推理信息,另一种是实验者自身因素干预统计结论。读完这本书就可以初步了解,为什么工业界对于学术论文数据与实验结论不屑一顾,为什么有人用极其局限的信息就可以得出新奇的结论,为什么学者辛苦研究与搜集资料的努力仅仅验证了典型谬误。了解统计中的各类陷阱,见识用数据说谎的本事,让我帮你扔掉书架上的畅销书。
作者简介
加里·史密斯,耶鲁大学博士,曾在耶鲁大学任教7年,其间两度获得教学奖,他的课程因结合日常生活中的常见实例、深入浅出地分析数据而火爆异常。
刘清山,清华大学毕业,译有《横向领导力》《女士品茶》《那些你以为地球人都知道的事情:科技篇》等作品。
内容简介
允许堕胎可以降低犯罪率;
卓越公司有共同的特质;
早晨喝一整壶咖啡可以延年益寿,每天喝两杯咖啡会增加患癌的风险;
上述结论都是专业人士甚至是著名学者精心研究所得。如果你相信它们,你也应该信任章鱼保罗对世界杯的预测。
现代人被数据所包围,无论是学习、工作,还是日常生活,都习惯了用数据说话,可怕的是,骗子也学会了用数据说话。若要清醒思考,你需要学点统计学。
《简单统计学》脱胎于耶鲁大学热门统计学课程,加里·史密斯教授在书中巧妙地揭示了生活中的各种数据骗局,并用简单的统计学原理揭穿了其中的把戏,行文轻松幽默而又逻辑缜密,堪称一堂别开生面的统计课。
翻开本书,轻松掌握统计学背后的科学机制,掌握从数据中获取真知的技巧,全面升级你的认知。
“只有显著结论能发表”:制造显著性
由于杂志编辑认为不具有统计显著性的结果没有发表价值,统计显著性在学术界被疯狂崇拜,这引发了两种获得统计显著性的拙劣手段。一种是用手头的数据去检验多种理论而只发表具有统计显著性的结果,这只证明了研究人员实验的耐心,而没有科学价值;第二种是利用算例编造理论,即通过几百次各种类型的测试在算例中发现某种模式,然后编造可以解释这种模式的理论,最后由算例中的数据证实。
由于检验论文理论的工作需要获得新数据且常不能发表,研究人员一般不会去验证他人的理论,因此科研工作中充斥着类似的具备统计显著性的论文。
第一类陷阱 数据挖掘
01“事后诸葛亮”:数据导出理论
如果你现对着墙射几箭,然后再围绕着箭孔画上箭靶,那么你总能取得不错的成绩。即使数据是完全随机的,有时也会在某处呈现出集聚效应,让你可以编造一个解释集聚的毫无理论支撑的假说。
研究人员在获知数据之后再推测数据符合的规律是毫无意义的,因为如果某个小概率事件已经发生,那么概率也就不再是小概率事件。“费曼谬误”是个很好的例子,“1,3,5,7,11,19”在你已经知道是本期彩票号码的情况下,中奖概率就变成了1。类似于转基因食品导致疾病、变电站致癌等等理论,也是数据集聚导出荒谬理论的典型例子。
02自选择偏差
如果你在A航空公司的航班上调查“会考虑选择搭乘A公司航班”的旅客比例,你会发现热爱A公司的顾客比例可能超过了50%,可A公司在市场中占比甚至不足10%。这是因为调查样本局限在“随机选取”的A公司航班的旅客群体之中。
当研究人员认为自己做了随机抽样,却忽视了人自身的选择时,就带来了自选择偏差。人会自己做出选择,而他们的选择体现了自身特性。因此在不进行实验而仅仅依靠观测数据抽样时,我们很难保证样本群体是完全随机的。做出了不同选择的人群存在系统性差异,而这些差异往往与实验的因素存在相关影响。
03“90%员工对公司满意”:幸存者偏差
宣传“公司员工对公司满意程度”这项指标是愚蠢的,因为即使公司离职率居高不下,该项指标也总是颇高。离职的员工可能是出于不满才会不在此处工作,而调查满意度时却丢失了这样一部分数据,这使得在求取数据均值时存在严重问题。事实上离职的员工满意度应当设为0来考虑,换句话说,高离职率就意味着员工对公司不满意。
选定样本后调查其历史的研究被称为“回溯性研究”,该类研究都存在幸存者偏差问题。统计返航战机受伤部位时会忽视被击落的飞机,调查百岁老人养生秘方时会忽略掉早年因该不良习惯早夭的人群,归纳近50年成功公司的秘诀时选定今年还存活的公司等等。由于你使用了在如今才知道的信息,那么你必定会得到错误的统计结论。统计实验中正确的做法是,假定你回到50年前,完全依赖50年前的信息,按照你的某种假定标准选出杰出公司,再用近50年的信息验证它。结局是你会发现,今天成功的公司都依赖着运气。
04“分得足够细,总能支持结论”
在做实验时本应仅有我们关心的因素在变化,其他条件均保持稳定,但是由于复杂的现实环境和实验本身是观测性的,总有一些条件无法被剥离,这些与我们关心的因素无关的因素被称为“混杂因素”。辛普森悖论指出,当一种包含多种因素的实验数据,被按照某种分类条件进行细分时,其整体所导出的统计结论出现反转的现象。
举个例子来解释。某学校整体来看女性录取率偏低,调查各系后却发现90%的院系女性录取率都远高于男性。研究人员发现存在一个系男女录取率都低于极低,但是申请该学校的女生中50%都申请该系,拉低了女性在该校的录取比例。可以看出此处不同系的录取率是起作用的混杂因素,女性更偏向申请录取率低的系,这拉低了女性录取率。
05“后视镜里看不到未来”
历史数据仅仅在存在可靠理论支撑其与未来关联时,才可以成为统计学样本。这意味着依靠数据过去的趋势分析未来,那么趋势一定要存在意义,仅仅有数据是不可能预测未来的,就像在汽车的后视镜里寻找远方的路一般。
我在做股票价格趋势预测时,学习了很多股票技术分析的方法(通道、支撑、阻力),但是像波浪理论等趋势分析都是劳而无功的垃圾理论。在对样本的起始年月进行敏感性分析时发现,当你改变数据时间范围时,技术分析的结论完全不同。量化分析与机器学习的方法也不能可靠地预测股市走向,因为它们对股价样本的时间窗口存在高度敏感性,改变训练算法的起止时间,结果剧烈波动。技术分析试图衡量投资者的“动物精神”,而随机性无法由历史来衡量。
第二类陷阱 实验者作弊
01“科研是重复性劳动”:选择性报告
在统计显著性的指挥棒下,科学研究变成了裁剪数据与修饰结果的游戏。当针对一组数据检验数百种理论,那么即使是毫无价值的理论也能产生统计显著性。研究人员只发布具统计显著性的理论,声称理论得到了数据验证,而数据不能验证的主流理论却被抛到一边,公众们却从不知晓。
每年有数以百计毫无价值的药物上市,可他们在之前设计良好的实验中呈现出统计显著性。制药商喜欢对更多的新药针对更多的用途进行检验,从而增加药品上市的可能,然而他们最不喜欢的是针对某种新药及其适应症重新进行一次验证实验。
02“人口与饮酒同步上升”:肤浅相关
一次统计调查发现美国的啤酒销售量与已婚人口数相关性达到0.99,那么基于如此强烈的相关关系,饮用啤酒是否就能带来婚姻,或者是说结婚会导致饮酒呢?答案是这两者都是荒谬的结果。
这两个因素都与时间和人口总数有关。随着时间的增长,美国人口数上升,因此已婚人口与饮酒人数也随之增加了。统计魔术师的手段在于转移了人们的注意力,尽管在实验结果上高度相关的两种因素,如果不能找到合理的解释,这种相关很可能只是巧合,不一定存在任何关系。
03“修剪数据”
有经济学家发表研究称“国家的负债率过高会带来经济衰退”,并且给出了几次经济危机与该国负债率的例子。不过后来统计学家发现,有几个不符合该理论的国家在统计时被当作异常值剔除了,同时某些国家一年的经济数据也被拿来与其他国家的平均值同等对待,这种处理使得统计结果符合经济学家的预言。
这种把戏包括:以异常值的名义删减数据、用某个时刻的值代替平均值、用平均值代替缺失值、使用特定时间的数据、忽略缺失样本,以及进行错误的数据转换。研究中出现类似的数据处理方式时,实验的统计结果不再有意义,因为统计结论仅仅表现数据被扭曲的方向。
04“万物归于中庸?”:均值回归
总有人说“不可以表扬优异的表现,因为表扬后下次表现会下降”,这是“胜利者诅咒”的一个典型现象。事实上我们低估了好运气在“优异的表现”之中的作用,而当下次没有那么好运时,选手的水平回归正常表现,却被认为是“表扬起了负面作用”。
著名教授苦心研究十年,调查了众多公司后发现,十年前的最优秀公司表现正在下降,而最落后的公司表现正在变好。他称之为公司出现“平庸化”的倾向。调查结论发表后他的名声毁于一旦,统计学家斥责他缺乏“均值回归”的常识,结论也成为了笑话。尽管不同公司的企业竞争力有差距,但是最好的公司一定获得了难得的好运,而最坏的公司也承受了极为糟糕的厄运。随着时间的推移,好运与厄运都不会持久,公司的表现回归其合理水平。在研究员看来,居然被定论为“平庸化”的趋势。胜利与失败的原因之中,随机性被大大低估了。新加入证券指数的公司未来10年的表现往往不如被踢出指数的公司,这是均值回归的另一个例子。
05“缺乏理论的数据”:编造模式
无所事事也要比做愚蠢的事情要好。长期资本管理公司成立于1994年,它从历史数据中发现全球利率同步变化,同时从历史数据中分析到几种资产价格趋势是不相关的,并按照这种思路进行分散风险的套利投资,最终破产于1998年金融危机。事实上,利率的同步变化是由于投资者的主动选择,这迫使各国债券保持利率一致,而现实上各国是不同的,当面临风险时各国反应完全不同,这导致了利差的出现。另外,当俄罗斯债务违约后,历史上从未体现相关性的资产突然呈现出高度相关性,全部领域的资产风险同步上升,推土机碾过了拾硬币的人。
统计关系是靠不住的,投资也不应该压在历史模式却缺乏合理理论支撑的关系之上。当某种统计关系缺乏理论支撑的,那么这种关系很可能是不可靠的。
06“缺乏数据的理论”:空想理论
“系统动力学”是一名电气工程师发明的,他从工程领域转到管理领域后,发明了一些模型来帮助理解与预测系统的演化。然而,如同马尔萨斯的人口论一般,这两种理论都明显不正确,也没有在现实世界的应用价值。模型的推理与建立存在着合理性,但问题是禁不住历史数据检验。
要被一项研究说服,那么理论与数据缺一不可,既要通过常识推理的验证,也需要通过未经处理的新数据的检测。
来自微信公众号:五个橘核
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-6687088-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版