STATA 编辑代码:
1. edit boats year men
打开数据编辑器时,只显示boats、year、men等3个变量(而且就按这一顺序),一遍加以编辑。
2. format rainfall %8.2f
为数量型变量rainfall 建立一种固定化(f)的显示格式,即8列宽,小数点后显示2位数。
3.generate newvar=(x+y)/100
4. list
按照默认或“表格”格式列出数据
5. list x y z in5/20
按照当前的数据顺序,列出第5至第20ge观测案例的x,y,z三个变量值的清单。
6. replace oldvar=100*oldvar
将变量oldvar的原值扩大100倍后再取代原值。
7. sort x
将数据按x值从最小到最大依次排序,缺失值是最大的数值
8. tabulate x if y>65
只对那些y值大于65的观测案例输出x的频数表。
9. label variable 只描述单个变量
10. summarize
观察数值
11.
== 等于
!= 不等于
& 和
| 或
! 否
12.缺失值处理
tabulate vote if age>65 & age<.
13. generate 是生成一个新变量
replace是代替原有的一个变量
14. graph twoway lfit y x || scatter y x
通过叠并两幅twoway图形将y对x的线性回归加以图形化:即回归(线性拟合或lfit)线图和y对x的散点图。
【简单回归线(lfit,即线性拟合)】
15.
lift 线性回归线
qfit 二次回归曲线
fpfit 分式多项式标绘图
lfitci 带置信区间的线性回归线
qfitci 带置信区间的二次回归曲线
fpfitci 带置信区间的分式多项式标绘图
16. sktest var
许多的统计程序只有在变量服从正太分布时才能工作得最好。有一种更为正规的偏度-峰度检验,它利用命令summarize,detail显示的偏度和峰度统计值来检验虚无假设,即手头的样本是来自一个正态分布总体。
偏度Pr
峰度P
两者结合在一起Prob>chi2
【数据正态检验】
17. F检验
* F统计量在自由度之间,那么就很容易地导致拒绝这一虚无假设
* Prob>F指的是,在虚无假设为真的情况下,我们从这样一个总体中随着抽样样本时“出现较大F值的可能性”。
* 确定系数:R^2,表示自变量对因变量的解释程度
18. beta权数
如果要得到某一回归的标准化回归系数(β),加上选项beta即可。
标准化回归系数是我们在义工所有变量都被转化为标准分(平均数为0,标准差等于1)后的回归所看到的系数。
regress y x1 x2 x3,beta
19.在回归直线图上叠并一张散点图会更好地引起人们的注意
graph twoway lfit csat percent || scatter csat percent || , ytitle("Mean composite SAT score") legend(off)
20. sw ologit 序次logistic回归(输出系数)
21.在运行regress或anova后,我们可以通过predict命令获得多种诊断统计量
22. 多元共线性问题
当我们加入一个模型中已有x变量存在高相关的新的x变量时,可能存在问题的征兆如下:
① 标准误变得很大,而对应的t统计量却更小。
② 系数的数值和符号出乎意料的变化。
③ R^2虽然很大但回归系数却不显著。
23. graph twoway mband y x, bands(10) || scatter y x
24. 稳健回归:
rreg 或 qreg 都能抵抗特异值的牵引,在非正态和重尾型误差分布的情况下便能取得高于OLS的效率。
rreg 稳健回归
什么是迭代记录? nolog命令导致stata不再打印迭代记录。