在统计分类分析里面,随机抽取样本后,有时要进行总体和样本的结构比较?这怎么弄?是不是只要比较样本中各类别数据占样本数的比例与各类别占总体的比例,分别对应相等,就认为样本可以代表总体信息?
如论文《移动电话客户流失数据挖掘》朱世武(2005)中提到“为了减少数据分析的数据量 ,提高分析的效率 ,我们采用随机抽样方法 ,从步骤二中抽取5 %的样本来作分析 ,共有 2892 笔样本。当然 ,在做分析前 ,还必须比较样本是否能够代表母体的特征 ,我们利用性别、 年龄、 教育程度、 职业以及户籍来比较母体与样本的结构是否有差异 ,以确定样本抽样的无误。结果(数据略)显示结构比例在统计意义上无差别。因而可以利用抽样的数据来代表母体数据进行分析。”
他具体是怎么弄的呀??非常感谢!!!!!!!




雷达卡


京公网安备 11010802022788号







