楼主: lanhong1993
2848 20

[问答] 求助:数据统计方法,求大神指导 [推广有奖]

11
lanhong1993 发表于 2016-12-6 09:27:22 来自手机
jameschin007 发表于 2016-12-6 01:00
对医学问题不懂,做数据挖掘,还是要充分了解业务背景的。
但是我有几个建议。
我现在接触的模型中,最复 ...
嗯嗯嗯,您说的取最高 最低 最初值 最后值 均值 中位数 众数我都只过,但最后仔细想来,都不够有说服力。而且你说得对,每个病人测量时间不一样,间隔也不一样。太尴尬。。

12
杨乃权 发表于 2016-12-6 15:01:17 来自手机
lanhong1993 发表于 2016-12-3 16:29
我现在有一个数据集,是一个1000病人的部分数据,如下:
id          time                               ...
标准化后再做可以试试

13
lanhong1993 发表于 2016-12-6 17:03:35 来自手机
杨乃权 发表于 2016-12-6 15:01
标准化后再做可以试试
是对每个病人的PaO2进行标准化么?可是标准化以后,数据结构的问题还是没解决呀。

14
杨乃权 发表于 2016-12-6 18:51:37 来自手机
lanhong1993 发表于 2016-12-6 17:03
是对每个病人的PaO2进行标准化么?可是标准化以后,数据结构的问题还是没解决呀。
对全部数据标准化

15
杨乃权 发表于 2016-12-6 18:54:30 来自手机
lanhong1993 发表于 2016-12-6 17:03
是对每个病人的PaO2进行标准化么?可是标准化以后,数据结构的问题还是没解决呀。
一个病人有多个PaO2值的吗?

16
jameschin007 发表于 2016-12-7 01:20:47
杨乃权 发表于 2016-12-6 18:54
一个病人有多个PaO2值的吗?
看楼主 想表达的意思,应该是一个时间序列。 一个病人,可能每天测2次,也可能测一次,或者多次。
然后有的病人测了20天,有的2天。  真是很麻烦。。。。

17
jameschin007 发表于 2016-12-7 01:24:46
lanhong1993 发表于 2016-12-6 09:27
嗯嗯嗯,您说的取最高 最低 最初值 最后值 均值 中位数 众数我都只过,但最后仔细想来,都不够有说服力。 ...
是你觉得不够有说服力,还是确实做逻辑回归的时候,模型不够有说服力。
还是看模型效果吧。
如果逻辑回归不好用,试试其他模型,比如GBM,Random Forest。另外从业务上讲,这个值确实对生死有重要意义吗?

另外是不是考虑病人其他参数啊。年龄,性别什么的。

18
jameschin007 发表于 2016-12-7 01:27:31
lanhong1993 发表于 2016-12-6 09:27
嗯嗯嗯,您说的取最高 最低 最初值 最后值 均值 中位数 众数我都只过,但最后仔细想来,都不够有说服力。 ...
我觉得大部分模型是能避免时间序列聚类的。
我量20天的血压, 用初值,终值, 平均数,标准差足够说明我血压波动的特点了。

19
lanhong1993 发表于 2016-12-7 14:51:10 来自手机
杨乃权 发表于 2016-12-6 18:54
一个病人有多个PaO2值的吗?
对,每个病人有多个PaO2值,有的测了两三次,有的测了五六次,有的测了十几次。。

20
lanhong1993 发表于 2016-12-7 15:07:22 来自手机
jameschin007 发表于 2016-12-7 01:27
我觉得大部分模型是能避免时间序列聚类的。
我量20天的血压, 用初值,终值, 平均数,标准差足够说明我 ...
临床普遍认为,PaO2太低会增加危重病人的死亡概率。现在又有理论提出,PaO2太高也会增加病人死亡率。所以我才会用这个大样本数据库想看看两者是否有联系。理论上,我们猜测预期结果应该是:死亡率和PaO2值呈u型曲线关系(即,PaO2过高和过低都会增加死亡率)。当然,病人的死亡肯定不是只跟这一因素有关,肯定还存在很多其他混杂因素。在此没有列出。而PaO2对某个病人死亡的效应也绝对不是某个值造成的,因为住院期间病人的PaO2是随时变化。所以,这就是我的困惑所在,因为取某个值(min,max等)并不能完全利用PaO2的所有值,且每个病人间的PaO2的数量又不均衡。。。难。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 05:30