|
我的证明的思路是:
首先,A集合中每个元素设为a(1), a(2), ..., a(i), ..., a(N),任一a(i)没有被抽中进入B集合的概率是:(1-1/N)^N,当N足够大时,此概率就趋近于exp(-1)=0.367879..., 也是说任一a(i)被抽中进入B的概率=1-0.367879=63.2121% (就是你所说的“只是说明每个观测进入数据集B的概率为63%”,但是,不只是这个结论,继续往下看)
第二,构造一组独立同分布(贝努利分布)的随机变量x(1), ...x(i),..., x(N)。而每个x(i)的定义是:若a(i)被抽中进入B集合,则x(i)=1;否则x(i)=0。由于a(i)被抽中进入B的概率是63.2121%,即,每个x(i)~Bernoulli(63.2121%)。
再构造一随机变量S,令S=x(1)+x(2)+...+x(N),不难发现,S正好就是B集合中包含多少个A中元素的数量(因为被抽中进入B集合的A中元素,不管被抽中多少次,在S中仅计入一个1,没被抽中进入B集合的A中元素,在S中计入一个0,那么S正好就是B集合中包含多少个A中元素的数量)。由于S是N个独立同分布的贝努利分布变量之和,就是符合了二项分布,即 S~Binomial(N, 63.2121%)。所以,S的期望(即B集合中包含多少个A中元素的数量的平均值)=N×63.2121%
我水平有限,欢迎批评指正。
|