楼主: cbw1243
44321 504

[问答] 接受各种R语言难题   [推广有奖]

481
Intelligencey 发表于 2016-12-30 11:14:41
cbw1243 发表于 2016-12-30 05:34
对于时间序列下的异方差,GARCH模型是很好的选择。
但是如何在做呢?我知道可以用GARCH模型但是做的时候就无从着手了

482
lanhong1993 发表于 2016-12-30 13:53:49 来自手机
我现在有一个数据集,是一个1000病人的部分数据,如下:
id          time                              PaO2         outcome
1     2016/02/03 14:23:00           78            die
1     2016/02/03 15:24:00           89
1     2016/02/03 18:44:00           90
1     2016/02/04 08:23:00           77
1     2016/02/04 12:33:00           100
1     2016/02/05 09:12:00           108
1     2016/02/06 14:25:00           103
2     2016/03/12 13:26:00           100           live
2     2016/03/12 15:35:00           99
2     2016/03/13 17:46:00           98
3     2016/03/03 16:23:00           109           die
3     2016/03/03 19:55:00           95
3     2016/03/04 20:25:00           93
3     2016/03/04 14:23:00           87
3     2016/03/04 17:20:00           113
4     2016/02/08 14:23:00           106           die
4     2016/02/08 15:24:00           80

...           ...                   ...           ...

其中,id为病人编号,time为记录时间,PaO2为病人血氧分压,outcome为病人最终的结局。现在我想研究病人的PaO2和病人死亡概率之间的关系,应该怎么做呢?因为PaO2的值和时间相关,且每个病人id对应了不同数量的PaO2的值,这样的话应该采取什么样的方法呢?

483
cbw1243 发表于 2016-12-31 00:44:03
lanhong1993 发表于 2016-12-30 13:53
我现在有一个数据集,是一个1000病人的部分数据,如下:
id          time                              P ...
我对医学并不了解,所以只能从计量角度说一下。
一、你的数据结构并不完整,对于1号病人,对应的outcome应该都是die
二、如果time对模型有影响,那么你的数据可以理解为panel。一个简单的办法是,对time进行period划分,比如0-2 am, 2-4 am...然后用panel进行回归分析(可以用plm package)。
三、如果PaO2对这种病确实有着决定性影响,那么你的模型没有问题。会不会还有其他因素也会影响outcome呢?所以再建议考虑模型的specification问题。

484
cbw1243 发表于 2016-12-31 00:47:13
Intelligencey 发表于 2016-12-30 11:14
但是如何在做呢?我知道可以用GARCH模型但是做的时候就无从着手了
可以随便选一本时间序列的书看一下,实现起来很简单。

485
lanhong1993 发表于 2017-1-1 17:32:42
cbw1243 发表于 2016-12-31 00:44
我对医学并不了解,所以只能从计量角度说一下。
一、你的数据结构并不完整,对于1号病人,对应的outcome ...
临床普遍认为,PaO2太低会增加危重病人的死亡概率。现在又有理论提出,PaO2太高也会增加病人死亡率。所以我才会用这个大样本数据库想看看两者是否有联系。理论上,我们猜测预期结果应该是:死亡率和PaO2值呈u型曲线关系(即,PaO2过高和过低都会增加死亡率)。当然,病人的死亡肯定不是只跟这一因素有关,肯定还存在很多其他混杂因素。在此没有列出。而PaO2对某个病人死亡的效应也绝对不是某个值造成的,因为住院期间病人的PaO2是随时变化。我认为时间这个变量在这里帮助不大。所以,我的困惑在于,每个病人对应了多个PaO2值,这该怎么取呢?因为取某个PaO2值(min,max等)并不能完全利用PaO2的所有信息,因为每个病人的PaO2值是变化的,且每个病人间的PaO2的数量又不相等。。。难。

486
Intelligencey 发表于 2017-1-1 22:47:04 来自手机
cbw1243 发表于 2016-6-26 09:15
暑假漫长,生活没有挑战。在此征集各类R语言疑难杂症,欢迎各位骚扰。
提出给力问题的,将予以100论坛币奖 ...
我现在在学时间序列,并没相应的例子。可能我编程有点差,总是没办法做

487
落叶无雨 学生认证  发表于 2017-1-2 20:48:49
您好,请教一个问题:R语言绘图(plot/ggplot2) 如何设置坐标轴标签小数位数?谢谢!

488
小甲克虫 在职认证  发表于 2017-1-4 07:54:05
请问,如何将WORD里边的公式编辑器中的公式,导入到R软件中呢?!

489
yjx20122012 学生认证  发表于 2017-1-6 12:21:36
真心厉害!

490
lanhong1993 发表于 2017-1-16 16:03:23
比如我有这也一个数据集:
id          time                              PaO2         
1     2016/02/03 14:23:00           78            
1     2016/02/03 15:24:00           89
1     2016/02/03 18:44:00           90
1     2016/02/04 08:23:00           77
1     2016/02/04 12:33:00           150
1     2016/02/05 09:12:00           108
1     2016/02/06 14:25:00           103
2     2016/03/12 13:26:00           100         
2     2016/03/12 15:35:00           99
2     2016/03/13 17:46:00           98
3     2016/03/03 16:23:00           109         
3     2016/03/03 19:55:00           95
3     2016/03/04 20:25:00           93
3     2016/03/04 14:23:00           87
3     2016/03/04 17:20:00           113
4     2016/02/08 14:23:00           106           
4     2016/02/08 15:24:00           80

...           ...                   ...           

其中,id为病人编号,time为记录时间,PaO2为病人血氧分压,每个id中的第一个PaO2值是病人入院的基础值,我想要筛选出这样的数据集:每个病人id按照时间顺序,一旦出现某个PaO2值是基础值(即第一个值)的2倍,则保留该数据之前的所有行,删除之后的所有行。这用R该怎么实现呢?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 17:30