楼主: 158149053
32307 2

[学习心得] stata:使用汇总命令的描述性统计 [推广有奖]

  • 0关注
  • 0粉丝

博士生

57%

还不是VIP/贵宾

-

威望
0
论坛币
322 个
通用积分
40.3129
学术水平
8 点
热心指数
8 点
信用等级
8 点
经验
2175 点
帖子
186
精华
0
在线时间
56 小时
注册时间
2019-5-25
最后登录
2021-3-8

楼主
158149053 在职认证  发表于 2020-6-3 20:13:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
这是一个使用summaryrize命令获取描述性统计信息的示例。 在第一个示例中,我们获得了名为female的0/1(虚拟)变量的描述性统计信息。 如果学生是女性,则此变量编码为1,否则编码为0。 在第二个例子中,我们得到一个名为write的连续变量的描述性统计,这是学生在写作测试中得到的分数。 我们使用详细信息选项来获取其他信息,包括百分位数,偏度和峰度。 您不必对所有连续变量使用detail选项。
  1. use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
  2. (highschool and beyond (200 cases))
  3. summarize female
  4.     Variable |      Obs        Mean    Std. Dev.         Min       Max
  5. -------------+--------------------------------------------------------
  6.       female |       200        .545    .4992205          0          1
复制代码
Variable – 此列展示所描述的变量。可以在 summarize 命令之后列出多个变量; 这样做时,将在输出的各行上看到每个变量。

Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。 如果数据集中有200个观察值,但是变量female缺少10个值,那么这一列中的数字将是190。

Mean – 这是变量的平均值。 在这个样例中,我们的变量female的范围从0到1(最小值和最大值),因此均值实际上是编码为1的观测值的比例。

Std. Dev. – 这是变量的标准偏差。 这里给出了关于变量分布的扩展的信息。
  1. summarize write, detail
  2.                         writing score
  3. -------------------------------------------------------------
  4.       Percentiles      Smallest
  5. 1%           31             31
  6. 5%         35.5             31
  7. 10%           39             31       Obs                 200
  8. 25%         45.5             31       Sum of Wgt.         200

  9. 50%           54                      Mean             52.775
  10.                         Largest       Std. Dev.      9.478586
  11. 75%           60             67
  12. 90%           65             67       Variance       89.84359
  13. 95%           65             67       Skewness      -.4784158
  14. 99%           67             67       Kurtosis       2.238527
复制代码
1% – 这是第一百分位数。 百分位数的计算方法是将变量的值从最低到最高排序,然后找出与您感兴趣的百分比相对应的值,在本例中为1% 。 因此,变量write的值的1%小于等于31。

25% –这是第25百分位数,也称为第一四分位数。

50% – 这是第50百分位,也称为中位数。 如果您将变量的值从最低到最高排序,则中位数将是恰好位于中间的值。 换句话说,一半的值将低于中位数,一半将高于中位数。 如果变量具有异常值,则可以很好地衡量集中趋势。

75% – 这是第75百分位数,也称为第三四分位数。

Smallest – 这是一个列表的四个最小值的变量。 在这个例子中,四个最小的值都是31。

Largest – 这是变量的四个最大值的列表。 在这个例子中,四个最大的值都是67。

Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。 如果数据集中有200个观察值,但是变量 female 缺少10个值,那么这一列中的数字将是190。

Sum of Wgt. – 这是weights值的和。 在 Stata中,你可以在你的数据上使用不同的权重。 默认情况下,每个案例(即,主题)的权重为1。 当使用这个默认值时,权重之和将等于观察值的数量。

Mean –这是整个观测值的算术平均值。 它是最广泛使用的集中趋势测度。 它通常被称为平均值。 平均值对极大或极小的值都很敏感。

Std. Dev. – 这是变量的标准差。 这给出了关于变量分布情况的信息。

Variance –这是标准差的平方(即,提高到二次方)。 它也是分布扩散的一个尺度。

Skewness – 偏斜度测量不对称的程度和方向。 对称分布,如正态分布,偏态为0,而向左倾斜的分布,例如,当平均值小于中位数时,偏态为负。

Kurtosis – 峰度是一个分布的尾部重量的度量。 正态分布的峰度为3。 重尾分布的峰度大于3,轻尾分布的峰度小于3。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata 描述性统计 tata 描述性 percentile 描述性统计命令

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
Sunknownay + 3 + 3 + 3 鼓励积极发帖讨论

总评分: 学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

沙发
超能陆战队长 发表于 2020-8-8 11:02:08
您好,请问这个data set 能共享嘛

藤椅
不高兴的羊 发表于 2021-7-19 15:53:01
超能陆战队长 发表于 2020-8-8 11:02
您好,请问这个data set 能共享嘛
su  变量名, detail

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-30 11:03