在 Stata 中,使用 `bootstrap` 命令进行引导抽样分析时,输出的结果通常包括回归系数、标准误、置信区间等引导抽样估计结果的统计信息。以下是如何理解和查看 `bootstrap` 的结果,以及一些相关操作的详细说明。
---
### **1. `bootstrap` 的基础用法**
引导抽样是一种通过重复抽样估计参数分布的非参数方法。在 Stata 中,`bootstrap` 命令可以用来生成参数的标准误和置信区间,从而更好地评估估计结果的稳健性。
**基本语法:**
```stata
bootstrap estat_name=r(est), reps(#): command
```
- `estat_name`:要保存的统计量名称,一般是回归输出中的参数或模型的某些特定指标。
- `reps(#)`:引导抽样的重复次数,默认为 50,通常建议设置为较大的值(如 1000)。
- `command`:需要执行的 Stata 命令,比如回归、t 检验等。
**示例:**
对一个简单线性回归模型进行引导抽样:
```stata
sysuse auto, clear
bootstrap, reps(1000): regress price weight mpg
```
---
### **2. 基本输出解读**
运行 `bootstrap` 命令后,Stata 会输出结果表,主要包括以下几部分:
#### **
(1)回归系数(Observed Coef.)**
该列显示的是通过原始数据估计得到的回归系数(未经过引导抽样的原始估计值)。
#### **
(2)标准误(Bootstrap Std. Err.)**
该列显示的是通过引导抽样计算得到的参数标准误。它是基于多次随机抽样后计算的分布特性,反映了参数估计的不确定性。
#### **
(3)置信区间([95% Conf. Interval])**
引导抽样估计的置信区间,通常是通过样本分布的百分位数计算得到的。
- **下限**:置信区间的 2.5 百分位。
- **上限**:置信区间的 97.5 百分位(默认 95% 置信水平)。
#### **
(4)显著性(P-value)**
传统 `regress` 回归分析中会直接报告 p 值,但在引导抽样中,Stata 不会直接包含 p 值。如果需要判断系数显著性,建议查看置信区间是否包含零:
- 如果置信区间不包含零,则变量是显著的。
- 如果置信区间包含零,则变量不显著。
**输出示例:**
```stata
Bootstrap results Number of obs = 74
Replications = 1000
------------------------------------------------------------------------------
| Observed Bootstrap Bias Std. Err.
price | Coeff. Coeff. Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
weight | 3.587 3.589 0.519 2.541 4.637
mpg | -49.512 -49.509 7.843 -65.456 -33.563
_cons | 1946.067 1945.998 367.843 1224.098 2667.899
------------------------------------------------------------------------------
```
- **Observed Coeff.**: `weight` 的原始估计系数为 3.587。
- **Bootstrap Std. Err.**: 引导抽样计算出的系数标准误为 0.519。
- **[95% Conf. Interval]**: `weight` 的置信区间为 `[2.541, 4.637]`,因其不包含零,表明该变量显著。
---
### **3. 如何保存和查看引导抽样结果**
Stata 提供了多种方式保存和进一步分析 `bootstrap` 结果:
#### **
(1)保存结果到变量**
可以将引导抽样的结果导出为变量,以便进一步分析。
```stata
sysuse auto, clear
bootstrap _b[weight] _b[mpg], reps(1000) saving(results.dta): regress price weight mpg
```
- `saving(results.dta)`:将每次引导抽样的结果保存到文件 `results.dta` 中。
保存后可以加载数据并查看:
```stata
use results.dta, clear
list
```
#### **
(2)查看分布统计**
可以使用 `estat bootstrap` 命令查看更多统计信息,例如偏度、百分位数置信区间等。
```stata
estat bootstrap
```
输出示例:
```
Bootstrap results Number of obs = 74
Replications = 1000
------------------------------------------------------------------------------
| Observed Bootstrap Bias Std. Err.
price | Coeff. Coeff. Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
weight | 3.587 3.589 0.519 2.541 4.637
mpg | -49.512 -49.509 7.843 -65.456 -33.563
```
#### **
(3)绘制直方图**
如果想可视化引导抽样的结果分布,可以绘制变量的分布图。例如:
```stata
histogram _b[weight], normal
```
- `_b[weight]` 表示 `weight` 的系数分布。
- `normal` 参数指绘制出正态分布的参考曲线。
---
### **4. 自定义置信区间方法**
默认情况下,Stata 使用百分位(percentile)法计算置信区间。如果您希望使用其他方法(如 bias-corrected 或 BCa 方法),可以通过选项指定:
示例:
```stata
bootstrap _b[weight] _b[mpg], reps(1000) bca: regress price weight mpg
```
- `bca`:基于偏差校正和加速法的置信区间。
- 可用的方法包括 `percentile`(默认)、`bca` 和 `normal`。
---
### **5. 检查引导抽样的稳健性**
为了确保引导抽样结果的可靠性,建议:
1. **增加重复次数**:重复次数越多,结果的准确性越高(如 1000 或 5000 次)。
```stata
bootstrap, reps(5000): regress price weight mpg
```
2. **检查收敛**:如果引导抽样的标准误不稳定,可能需要调整抽样方法或检查模型设定。
---


雷达卡


京公网安备 11010802022788号







