签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

经管百科

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 新人求助，如何使用R软件模拟probit模型数据？悬赏1500币 ...

楼主: 烟草味99

7526 10

[问答] 新人求助，如何使用R软件模拟probit模型数据？悬赏1500币，满意可以追加。 [推广有奖]

11楼

rosenbloog 发表于 2020-3-28 08:48:27

问题在于仿真出来的y均值太大，导致它变成0-1变量时取0值的样本量太少。这样的y跟x交互之后的列联表长这样：

	y=0	y=1
x=0	54	6628
x=1	2	3316

可想而知，这样的数据分布对计算机的参数估计来说挑战非常大；即使x和y相关，计算机也算不出来。一般来说，每个单元格的占比不应少于总样本的5%。

解决问题的办法也比较简单，就是把y的均值调小，让x和y的分布更均衡些。具体见下面的code：

### 第零步
set.seed(129)
g1=rbinom(10000, 1, 0.9)
c1=rnorm(10000, mean=10, sd=2)
c2=rbinom(10000, 2, 0.4)
u=rnorm(10000, mean = 10, sd = 2)
exi=rnorm(10000, mean = 0, sd = 1)
eyi=rnorm(10000, mean = 0, sd = 1)
### 第一步
probit_x=0.3*g1+0.2*c1-0.3*c2+u+exi-13
probit_data=as.data.frame(cbind(g1,c1,c2,u,probit_x))
probit_data$x[probit_x>0]=1
probit_data$x[probit_x<=0]=0
anorex.1 <- glm(x~g1+c1+c2+u,
family=binomial(link = "probit"),data =probit_data)
summary(anorex.1)
### 第二步
x <- probit_data$x # x为0/1变量
probit_y=0.3*x+2*c1-4*c2+u+eyi-25 # 把mean搞对
# probit_y=0.3*x+2*c1-4*c2+u+eyi-13 # 原均值大大超过了0：20-4+10+0-13 = 14
# hist(probit_y)
# table(probit_y>0)
# probit_data$probit_y = NULL
# probit_data$y = NULL
probit_data=as.data.frame(cbind(probit_data,probit_y))
probit_data$y[probit_data$probit_y>0]=1
probit_data$y[probit_data$probit_y<=0]=0
# table(probit_data$x, probit_data$y) # 问题在这：y取0值的样本量太小
anorex.2 <- glm(y~x+c1+c2+u,
family=binomial(link = "probit"),data =probit_data)
summary(anorex.2)

复制代码

已有 1 人评分	论坛币	学术水平	热心指数	信用等级	收起理由
admin_kefu	+ 60	+ 3	+ 3	+ 3	精彩帖子

总评分: 论坛币 + 60 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

回复

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明