不放回抽样的随机公平分配
于德浩
2019.7.18
在《概率论与数理统计》的教科书中,有这样一道例题。袋中有a个白球和b个红球,有k个人依次去取出一只球,问,第i个人取到白球的概率是多少?
这个题的答案是,如果是放回抽样,显然概率是a/(a+b)。这就对应现实中买福利彩票的案例,任何一个人,不论购买先后,不论猜什么数字组合,中奖概率都是一样的。
对于放回抽样,概率计算的最终结果也是a/(a+b)。这个数学过程比较复杂,a*A(k-1,a+b-1)/A(k,a+b)= a/(a+b)。比方说,2个白球和10个红球,任何一个人取出白球的概率都是,2*(11*10*……*1)/(12*11*10*……*1)=2/12。这对应的现实案例,就是古老的抓阄分配规则。
抓阄分配似乎有一个悖论。比方说,第一个人去抓阄,他的概率显然是2/12,因为袋里有2个白球和10个红球。如果,第一个人没取到白球,那么第二个人的概率就应该是2/11,比第一人的概率要高一点点。如果,第一个人碰巧取到白球,那么第二个人的取白球成功概率就应该是1/11,概率要低大约一半。这与例题的答案2/12,明显不一样啊?
第一个抓阄的人,其成功取到白球的概率是2/12,失败的概率是10/12。理智的讲,他不应该参与这个游戏,或者说,似乎抓阄顺序越靠后,应该越有利。比如,第一个人没摸到,概率就增加为2/11;前面5个人都没中,第6个人的成功概率就是2/7;若前面9个人都没中,第10个人成功的概率就是2/3,这才大于失败的概率。难道说,第十个抓阄的人比第一个人更有利?
好像这也违背常识。因为,如果前面9个人已经把2个白球都取走了,最后面的三个人成功的概率就是0了。
其实,第一个人与最后一个人成功的概率是一样的。第一个人实际是把所有的球分为两堆;自己拿一个是一堆,剩余11个球是另外一堆。最后一个人也是被分为两堆,前面人拿走11个球是一堆,剩下一个给自己是另外一堆。所以,分类的概率是1/12,而得到白球的期望值就是(1/12)*2=2/12=1/6。这样可以看成是另外一种解题方法。 第二个人取白球的概率,实际是进行了两次分类。先是自己的一堆2/12;然后被第一个人先拿走一半。于是最后的概率就是(2/12)*2*(1/2)=2/12。 同理,第六个人取白球的概率就是(6/12)*2*(1/6)=2/12。这就与例题答案a/(a+b)一致了。
另外一个思路就是,放回抽样与不放回抽样,物理本质是相同的。如果前面抓阄的人都对结果保密;只有大家全部抓阄分配完,才最终一起揭晓。那么,无论是第i个人看来,所有的球被分成两堆,一堆是别人的球,一堆是剩余可选的球。显然,由于是混合均匀再分堆的,无论哪一堆,出白球的概率都是一样的,都是a/(a+b)。所有,当他从剩余堆里,选出一个球,概率还是a/(a+b)。
再进一步,即使第i个人知道前面的结果,由于他物理上不能再去选别人的球,他只能选剩余的球,这既然是相同的操作,就应该对应相同的概率a/(a+b)。
表面上看,若前面6个人都没选中白球,第七个人的成功概率就大幅增加为2/6;这可是由他放弃前面可选机会换来的。现实的讲,如果前面已经有1个白球被别人先取走了,他成功的概率就是1/6,与初始的概率2/12是一样的。
在股票牛市中,平均每个月预期上涨+4%,前面5个月基本没涨,第6个月突然大涨+20%。有的人很幸运,刚好在第6个月买入,也就是一个月大赚+20%;而有的人是持股半年涨+24%。正确的做法应该是长期持股,直到判断牛市结束为止。就是说,既然预期平均每月上涨+4%,无论前面几个月涨幅太小还是太大,你都不应该随意认为下个月“会下跌或大涨”。就如同,不管前面掷硬币连续出现正面3次还是反面4次,下一次出正面的概率仍是1/2,不会变大也不会变小。
如果我们预计未来1年是牛市,应该有10个月上涨,2个月下跌,这个作为基础信息。显然,股价月度回调的基础概率是1/6,如果没有其他可靠信息的话,我们一般应该认为“后面每个月都是上涨的”。我们不应该因为某个利空消息或者上个月涨得太快了,就去随意判断下个月会下跌回调,这往往会因小失大。
去抓小概率事件往往是徒劳的。其实,就算我们避不开下跌回调,我们最后的总收益也是相当不错的。举例来说,当股价从10元上涨到15元,我们逢高卖出;结果,股价是上涨到19元才回调至16元,然后又上涨至最高30元。如果,当初我们一直等14元以下,那么就是刚赚一点就离场了;如果,在18元再上车,显然比持股不动要收益少。


雷达卡



京公网安备 11010802022788号







