楼主: nhl5189366
5938 4

[问答] 如果因变量是一个百分比,那么请问哪种回归模型更适合 [推广有奖]

  • 0关注
  • 0粉丝

VIP2

博士生

6%

还不是VIP/贵宾

-

威望
0
论坛币
4591 个
通用积分
40.6000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
186 点
帖子
185
精华
0
在线时间
10 小时
注册时间
2020-3-6
最后登录
2020-12-8

楼主
nhl5189366 发表于 2020-8-19 21:38:25 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
像大神们求助计量模型。因变量的设定是一个人在一段时间内贡献自己页面的次数/贡献总次数计算出的一个百分比,可能的情况有三种,贡献了自己的页面,贡献了朋友的页面,贡献了其他页面。因为百分比的分布情况导致0%和100%的极端值很多,分布图是和正态分布完全不同,请问这样进行OLS回归分析是否会影响结果呢?
除此之外,看到类似的文章有提到说因为这个百分比是一系列的选择最后形成的结果,因此假设binomial分布会更合理。
想请问这种情况下,用简单的OLS回归好好一些还是用其他的模型回归会好些呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:回归模型 因变量 百分比 Binomial nomial

沙发
小和和HARMONY 学生认证  发表于 2020-8-20 01:00:10
这种情况下OLS是不合适的,OLS会导致有很多大于1小于0的预测值,而真实的y的范围是在0-1之间的。如果真实的y集中在0.2-0.8,那么仍然实用OLS是可行的,但是由于你有很多0%和100%,那么OLS结果就会出现问题。另一个问题是你的X和y之间的关系很大可能不是线性的。
你说有很多0%和100%,有一种可能的解决方法就是把百分比看作一个0-1变量,用logistic或者probit回归。
更加复杂的模型也有很多,这里推荐了解一下two-limit tobit model,我把信息放在这里你可以去看一下。希望可以帮助到你。
Long, J.S. (1997). Regression Models for Categorical and Limited Dependent Variables.
已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
admin_kefu + 50 + 3 + 3 + 3 精彩帖子

总评分: 论坛币 + 50  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

藤椅
nhl5189366 发表于 2020-8-20 21:07:06
小和和HARMONY 发表于 2020-8-20 01:00
这种情况下OLS是不合适的,OLS会导致有很多大于1小于0的预测值,而真实的y的范围是在0-1之间的。如果真实的 ...
非常感谢你的帮助!

板凳
nhl5189366 发表于 2020-8-21 17:40:40
小和和HARMONY 发表于 2020-8-20 01:00
这种情况下OLS是不合适的,OLS会导致有很多大于1小于0的预测值,而真实的y的范围是在0-1之间的。如果真实的 ...
你好,了解了一下probit和logit模型,尽管有一部分的数据集中于1和0,但是还是有很多数据是0-1之间的离散变量,请问这种情况下也能用probit和logit模型吗?

报纸
小和和HARMONY 学生认证  发表于 2020-9-8 08:07:17
nhl5189366 发表于 2020-8-21 17:40
你好,了解了一下probit和logit模型,尽管有一部分的数据集中于1和0,但是还是有很多数据是0-1之间的离散 ...
可以的,非常推荐了解一下sigmoid function的形状,就会对probit/logit模型有更加直观的认识。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-5 05:09