楼主: lanhong1993
2847 20

[问答] 求助:数据统计方法,求大神指导 [推广有奖]

  • 1关注
  • 1粉丝

已卖:286份资源

博士生

54%

还不是VIP/贵宾

-

威望
0
论坛币
2701 个
通用积分
3.4261
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
12167 点
帖子
214
精华
0
在线时间
141 小时
注册时间
2016-11-1
最后登录
2024-3-26

楼主
lanhong1993 发表于 2016-12-3 16:29:13 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我现在有一个数据集,是一个1000病人的部分数据,如下:
id          time                              PaO2         outcome
1     2016/02/03 14:23:00           78            die
1     2016/02/03 15:24:00           89
1     2016/02/03 18:44:00           90
1     2016/02/04 08:23:00           77
1     2016/02/04 12:33:00           100
1     2016/02/05 09:12:00           108
1     2016/02/06 14:25:00           103
2     2016/03/12 13:26:00           100           live
2     2016/03/12 15:35:00           99
2     2016/03/13 17:46:00           98
3     2016/03/03 16:23:00           109           die
3     2016/03/03 19:55:00           95
3     2016/03/04 20:25:00           93
3     2016/03/04 14:23:00           87
3     2016/03/04 17:20:00           113
4     2016/02/08 14:23:00           106           die
4     2016/02/08 15:24:00           80

...           ...                   ...           ...

其中,id为病人编号,time为记录时间,PaO2为病人血氧分压,outcome为病人最终的结局。现在我想研究病人的PaO2和病人死亡概率之间的关系,应该怎么做呢?因为PaO2的值和时间相关,且每个病人id对应了不同数量的PaO2的值,这样的话应该采取什么样的方法呢?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据统计 统计方法 outcome time Come 统计

沙发
飞天玄舞6 在职认证  发表于 2016-12-3 17:20:00
结果为二值变量,做logistic回归就好

藤椅
lanhong1993 发表于 2016-12-3 19:48:28
飞天玄舞6 发表于 2016-12-3 17:20
结果为二值变量,做logistic回归就好
但是PaO2怎么处理呢?每个病人都有多个PaO2值,总不能将每个病人的PaO2值取均数吧?

板凳
clarencelin 发表于 2016-12-3 21:46:56
这个是非平衡的面板数据,可以将每个 id-time-outcome 视为一个样本,outcome对PaO2回归,并在回归中加入 id和时间 虚拟变量来控制

报纸
lanhong1993 发表于 2016-12-3 22:04:45
clarencelin 发表于 2016-12-3 21:46
这个是非平衡的面板数据,可以将每个 id-time-outcome 视为一个样本,outcome对PaO2回归,并在回归中加入 i ...
可是每个病人PaO2的记录时间都不一样,而且每个病人的PaO2值得数量也不同,可以用这种方法么?

地板
clarencelin 发表于 2016-12-4 14:12:05
lanhong1993 发表于 2016-12-3 22:04
可是每个病人PaO2的记录时间都不一样,而且每个病人的PaO2值得数量也不同,可以用这种方法么?
记录有无规律?比如接受治疗后多长时间

7
lanhong1993 发表于 2016-12-4 22:15:23
clarencelin 发表于 2016-12-4 14:12
记录有无规律?比如接受治疗后多长时间
时间没有规律。每个病人的时间不一样

8
clarencelin 发表于 2016-12-5 09:58:47
lanhong1993 发表于 2016-12-4 22:15
时间没有规律。每个病人的时间不一样
既然没规律,那这个研究做出来有何意义?当然,我不是这个专业方向的,我肯定不懂,我仅凭直觉来看。

9
lanhong1993 发表于 2016-12-5 14:29:26 来自手机
clarencelin 发表于 2016-12-5 09:58
既然没规律,那这个研究做出来有何意义?当然,我不是这个专业方向的,我肯定不懂,我仅凭直觉来看。
因为这是临床数据。每个病人的住院时间不同,长短也不同,所以每个病人的PaO2的都是从入院后开始测的,纪录时间间隔也不同。

10
jameschin007 发表于 2016-12-6 01:00:24
对医学问题不懂,做数据挖掘,还是要充分了解业务背景的。
但是我有几个建议。
我现在接触的模型中,最复杂的就是有N多条时间序列。然后试图对时间序列进行聚类,或者multinominal回归。然后再根据类型和最后的结果对应。
你这个是典型的这类问题。
所以,我们尽量避免。
首先建立一个最粗浅的模型,就是最后一次测量的PaO2 和生死做一个逻辑回归。 看看是否显著。
第二部,我们建立一个最高,最低,初始,最终四个数值的模型,再做一个逻辑回归。 看看是否显著。
如果你觉得结果还行,就收手吧。
如果还不行,就要搞时间序列聚类分析了。这个时间序列聚类就是个坑啊。 特别是你这个频率还不固定。
我知道的几种基础方法,对时间序列做傅立叶变换,搞频域,时域这些指标 做聚类。 另一个是算时间序列的Arima 的参数,变量的值,然后聚类。

我觉得你这个数据,估计采样时间都不一样,特别是间隔不保证一样的话。 还要补点。 很大的一个坑。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 03:21