现在我们知道,数据足够多的话,人们可以找到任何自己想要的重要规律,只要他不在乎这些规律的严格性和自洽性。那么在数据足够少的情况下又会如何?
如果数据足够少,有些规律会自己跳出来,你甚至不相信都不行。例如“巴西队的礼物”:只要巴西夺冠,下一届的冠军就将是主办大赛的东道主,除非巴西队自己将礼物收回。这一定律在2006年被破解。“1982轴心定律”世界杯夺冠球队以1982年世界杯为中心呈对称分布,这个定律在2006年被破解。还有一些未破解的定律:凡是获得联合会杯或美洲杯,就别想在下一届世界杯夺冠。中国队也有自己的定律:“王治郅定律”只要王治郅参加季后赛,八一队必然得总冠军(已破解),“0:2”落后无人翻盘定律“(尚未破解)。
如果仔细研究这些定律,会发现不易破解的定律其实都有一定的道理,王治郅和八一队都很强,0:2落后的确很难翻盘,而获得世界杯冠军是个非常不容易的事情,更别说同时获得联合会杯、美洲杯和世界杯。但不容易不等于不会发生,他们终究会被破解。哪些看似没有道理的神奇定律(正因为没道理,所以显得神奇),则大多数已经破解。之所以神奇,是因为纯属巧合。世界杯总共才进行了80多年,20多届。只要数据足够少,我们总能发现一些没有破解的规律。
如果数据少,随机现象可以看上去很不随机,甚至非常整齐,感觉好像真有规律一样。V2导弹轰炸伦敦的落点分布,被误认为V2有极高的精度,误导盟军战略部署,直到数学家解决这个问题。问题的关键是,随机分布不等于均匀分布。要想均匀分布,必须要样本总数非常大的时候才有效。一旦不均匀,人们就认为其中必有缘故(阴谋论起源),而事实却是这可能只是偶然事件。如果统计数据很少,就很容易出现特别不均匀的情况。这个现象被诺奖得主丹尼尔·卡尼曼戏称为“小数定律”。卡尼曼说,如果我们不理解小数定律,就不能真正理解大数定律。
大数定律是我们从统计数字中推测真相的理论基础。大数定律说如果统计样本足够大,那么事物出现的频率就能无限接近他的理论概率——也就是他的“本性”。而小数定律说如果样本不够大,那么他就表现为各种极端情况,而这些情况可以跟他的本性一点关系都没有。一个只有二十人的乡村中学某年突然有两人考上清华,跟一个有两千人的中学每年都有两百人考上清华,完全没有可比性。如果统计样本不够大,就什么也说明不了。
正因为如此,我们不能只凭自己的经验,哪怕加上家人和朋友的经验,去对事物做出判断。我们的经验非常有限。别看个例,看大规模统计。如果看不到,就别自我陶醉。


雷达卡



京公网安备 11010802022788号







