楼主: 思思1234
71 0

[其他] 数据分析笔记04:抽样方法与抽样分布 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-1-25
最后登录
2018-1-25

楼主
思思1234 发表于 2025-11-15 17:48:04 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据分析笔记04:抽样方法与抽样分布

总体分类

在进行抽样之前,需要了解总体的分类方式。

有限总体

定义:总体范围明确,总体单位数量有限。

典型实例:

  • 区域研究:北京市海淀区所有7岁男孩的身高。
  • 人口普查:全国14.44亿人口数据。
  • 产品批次:某一批次生产的灯泡使用寿命。
  • 公司人员:全班学生的身高数据。

无限总体

定义:总体范围不明确,总体单位数目无限。

典型实例:

  • 工厂产品:某工厂生产的所有灯泡(过去、现在、未来)。
  • 银行服务:某网点所有办理业务的客户。
  • 网店经营:未来10日内进店消费的所有顾客。

简单随机抽样

基本概念:

简单随机样本:样本中的每一个个体都以相等的概率从总体中被抽出。

有限总体抽样

从容量为N的有限总体中抽取容量为n的样本,可分为两种方式。

有放回与无放回抽样

经典例子:5个小球(4红1白)。

  • 有放回抽样:第一次抽取红球概率:4/5。将球放回后,第二次抽取红球概率:仍为4/5。特点:每次抽取概率不变。
  • 无放回抽样:第一次抽取红球概率:4/5。第二次抽取红球概率:3/4。特点:每次抽取概率会发生变化。

无限总体抽样

满足条件:

  • 同一总体:样本中每个个体都来自同一总体。
  • 独立性:每个个体的抽取都是相互独立的。

实例:餐厅满意度调查。

  • 总体:未来10日内进店消费的所有顾客。
  • 样本:前100名顾客。
  • 特点:顾客之间相互无关联,满足独立性。

Excel实现方法

方法一:RANDBETWEEN函数

操作步骤:

  1. 使用=RANDBETWEEN(1,2500)生成随机编号。
  2. 拉取所需样本数量。
  3. 复制→选择性粘贴→数值(固定随机数)。
  4. 使用VLOOKUP函数匹配对应数据。

VLOOKUP公式:

=VLOOKUP(查找值, 数据范围, 列号, 0)

方法二:数据分析工具

启用步骤:

  1. 文件→选项→加载项。
  2. 勾选“分析工具库”→转到→确定。

数据选项卡→数据分析→抽样

抽样设定:

  • 输入范围:选择数据范围。
  • 抽样方法:随机。
  • 样本数:输入所需数量。
  • 输出区域:选择结果位置。

分层抽样

分层抽样原理:

核心思想:将总体分成不同层组,每个个体属于并且仅属于其中某一层组。

分层原则

核心要求:相同性质的个体放在同一层级。

年龄层次划分实例:

层级 年龄范围 特征
少年组 10-20岁 年龄相近,消费习惯相似
青年组 21-35岁 购买能力强,新潮偏好
中年组 36-60岁 稳定收入,理性消费
老年组 60岁以上 节约倾向,质量导向

部门层次划分实例:

  • 市场部:对市场趋势敏感。
  • 行政部:注重流程和效率。
  • 财务部:关注成本和收益。
  • 技术部:重视创新和效能。

抽样方式

等比例抽样:

公式:层级i的抽样数 = (层级i的人数 / 总人数) × 总抽样数。

等量抽样:

方法:每个层级抽取相同数量的样本。

整群抽样

整群抽样原理:

核心思想:将总体分成若干群组,每个群组都具有对总体的代表性。

与分层抽样的区别:

比较项目 分层抽样 整群抽样
群组内部 相同性质个体 包含所有总体特征
抽样方式 每层都抽取 随机选择整个群
代表性 层内独特性 群内全面性

实例说明:

情景:100个人,10-60岁各年龄段都有。

  • 第1群:包含10-60岁所有年龄段的人。
  • 第2群:包含10-60岁所有年龄段的人。
  • 第3群:包含10-60岁所有年龄段的人。
  • 第4群:包含10-60岁所有年龄段的人。

抽样方法:随机选择其中一个群作为样本。

系统抽样

系统抽样原理:

核心步骤:

  1. 随机排列编码所有个体。
  2. 将总体分成k个等长区间。
  3. 从第一区间随机选择起始点。
  4. 按固定间隔选取后续样本。

计算公式:

k = \frac{N}{n}

实例说明:

情景:从100人中抽取5人。

操作步骤:

  1. 间隔计算:k = 100/5 = 20。
  2. 区间划分:[1-20], [21-40], [41-60], [61-80], [81-100]。
  3. 第一区间随机选择:假设选中3。
  4. 按间隔选择:3, 23, 43, 63, 83。

优势:操作简单,样本分布均匀。

点估计

点估计定义:

点估计:用样本统计量来估计总体参数的方法。

常见对应关系:

总体参数 样本统计量 符号表示
总体平均数 样本平均数 \( \mu \leftarrow \bar{X} \)
总体标准差 样本标准差 \( \sigma \leftarrow s \)
总体比例 样本比例 \( p \leftarrow \hat{p} \)

点估计的优势:

  • 操作简单。
  • 能够提供直接的参数估计值。

背景信息

EAI公司背景:

EAI公司是一家大型企业,拥有数千名员工。为了更好地了解员工的满意度和工作情况,EAI公司决定进行一项调查研究。

目的:

  • 评估员工对公司的整体满意度。
  • 识别影响员工满意度的关键因素。
  • 提出改进措施以提高员工的工作效率和幸福感。

样本大小:每次抽取30人。

抽样次数:500次。

总体平均薪资:51800美元。

总体标准差:4000美元。

抽样分布特征:

分布形态:接近正态分布。

中心位置:大约在51800美元附近。

绝大多数样本平均数集中在中心周围。

抽样分布的数学特征

数学期望

基本公式:

\( E(\bar{X}) = \mu \)

重要结论:样本平均数的数学期望等于总体平均数。

标准误差

标准误差是所有点估计的标准差,用于衡量估计的精确性。

有限总体

\( \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \times \sqrt{\frac{N-n}{N-1}} \)

简化条件:当n/N ≤ 0.05时,可使用简化公式。

无限总体

\( \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \)

实例计算

EAI公司标准误差计算:

n/N = 30/2500 = 1.2%。

由于1.2% < 5%,可用简化公式。

\( \sigma_{\bar{X}} = 4000 / \sqrt{30} = 730.3美元。 \)

抽样分布的形态

总体服从正态分布

结论:当总体服从正态分布时,无论样本大小多少,\(\bar{X}\)的抽样分布都服从正态分布。

中心极限定理

适用条件:总体不服从正态分布。

核心结论:当样本大小足够大时,无论总体服从什么分布,\(\bar{X}\)的抽样分布都接近正态分布。

样本大小指引

总体分布状态 建议样本大小
一般情况 n ≥ 30
严重偏态 n ≥ 50
正态分布 任意大小

中心极限定理图示

不同总体分布在不同样本大小下的变化:

样本大小 均匀分布 双峰分布 指数分布
n = 2 不对称 不对称 严重右偏
n = 5 轻微不对称 开始对称 右偏减少
n = 30 接近正态 接近正态 接近正态

重要结论:当n=30时,不管总体分布如何,抽样分布都接近正态分布。

抽样分布的应用

概率计算实例

问题设定:EAI人事部认为样本平均数在51800±500美元范围内才是合理估计。

问题:随机抽取30名管理人员,样本平均数落在可接受范围的概率是多少?

解题步骤

步骤1:标准化转换

可接受范围:[51300, 52300]。

标准化计算:

\( Z_1 = \frac{51300 - 51800}{730.3} = -0.68 \)

\( Z_2 = \frac{52300 - 51800}{730.3} = 0.68 \)

步骤2:概率计算

Excel函数计算:

\( P(Z \leq 0.68) = \text{NORM.S.DIST(0.68, TRUE)} = 0.7523 \)

\( P(Z \leq -0.68) = \text{NORM.S.DIST(-0.68, TRUE)} = 0.2468 \)

区间概率:

\( P(-0.68 \leq Z \leq 0.68) = 0.7523 - 0.2468 = 0.5064 \)

结果解释

结论:30名EAI管理人员组成的简单随机样本,能以50.64%的可靠性保证样本平均数落在51800±500美元范围内。

样本大小与抽样分布的关系

样本大小的影响

核心原理:样本大小越大,标准误差越小,估计越精确。

对比分析

EAI实例比较:

样本大小 标准误差 分布特征
n = 30 730.3美元 较宽的分布
n = 100 400美元 更集中的分布

标准误差公式验证:

\( \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \)

n增大 → \(\sqrt{n}\)增大 → \(\sigma_{\bar{X}}\)减小。

实际意义:

样本大小增加 → 估计更准确。

但成本也相应增加。

需要在准确性和成本之间取得平衡。

点估计的性质

如何判断一个点估计的好坏?需要检查三个重要属性。

  1. 无偏性(Unbiasedness)
  2. 定义:样本统计量的数学期望等于所估计的总体参数。

    数学表达:

    \( E(\text{样本统计量}) = \text{总体参数} \)

例:E(\bar{X}) = μ。

无偏与有偏估计

无偏估计:

抽样分布的中心 = 总体参数。

估算没有系统性偏差。

长期平均精确。

有偏估计:

抽样分布的中心 ≠ 总体参数。

存在系统性误差。

结果倾向于高估或低估。

有效性(Efficiency)

定义:在所有无偏估计中,标准偏差最小的估计最为有效。

比较标准:设有两个无偏估计量T_1和T_2,如果Var(T_1) < Var(T_2),则T_1比T_2更有效。

实际意义:

  • 有效性高 → 估计更为稳定。
  • 在相同样本量下,结果更加可靠。
  • 有助于提升统计推断的效率。

一致性(Consistency)

定义:随着样本大小增加,点估计值逐渐接近总体参数。

数学表达:

\lim_{n \to \infty} P(|\text{样本统计量} - \text{总体参数}| < \epsilon) = 1

实际意义:

  • 样本越大,估计越可靠。
  • 大样本下的理论保障。
  • 指导实际抽样设计。

综合评价标准

理想点估计:同时满足三个属性。

  • 无偏性:确保长期准确性。
  • 有效性:提供最佳精度。
  • 一致性:保证大样本性能。

常见权衡:

  • 无偏性 vs 有效性:有时需要取舍。
  • 理论性能 vs 实用性:考虑计算复杂度。
  • 准确性 vs 成本:考虑样本大小限制。

Excel操作实务指南

基本统计量计算

总体平均数:

=\text{AVERAGE(数据范围)}

标准误差:

=\text{总体标准差 / SQRT(样本大小)}

正态概率计算

标准化计算:

=(\text{X - 平均数}) / \text{标准误差}

累积概率:

=\text{NORM.S.DIST(Z值, TRUE)}

区间概率:

=\text{NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE)}

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析 抽样方法 UNBIASEDNESS Consistency biasedness

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-5 18:33