楼主: lanhong1993
1569 10

[问答] 贝叶斯算法变量挑选 [推广有奖]

  • 1关注
  • 1粉丝

博士生

54%

还不是VIP/贵宾

-

威望
0
论坛币
2701 个
通用积分
3.4261
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
12167 点
帖子
214
精华
0
在线时间
141 小时
注册时间
2016-11-1
最后登录
2024-3-26

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
微信图片_20180609141305.png
请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤的良恶性(0和1),ABCDEFGH分别代表8个关键基因是否表达(0和1,其实还有很多基因没有展示)。现在我想实现这样一个目的:用这些基因的表达谱(即0或1)来预测肿瘤的良恶性。那么,有以下几个问题:
1.是否可以用朴素贝叶斯算法来解决这个问题(医生,机器学习初学者,自我感觉可以用贝叶斯,问题类似于垃圾邮件,但不敢确定)。
2. 关键基因不止8个,有几十个,如何挑选有用的基因纳入模型,作为自变量。
3.最常用logistic回归是否能解决这类问题?
4.是否存在这样一种方法,能够以最少的基因数来最准确地预测肿瘤的良恶性?

这是临床大数据时代,数据基础薄弱的医生们迫切想要知道的。特此请教论坛各位老师!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:朴素贝叶斯算法 大数据时代 贝叶斯算法 临床大数据 关键基因

沙发
寂寞相思雨2016 发表于 2018-6-12 08:31:43 来自手机 |只看作者 |坛友微信交流群
lanhong1993 发表于 2018-6-9 14:25
请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤 ...
可以,我做过

使用道具

藤椅
寂寞相思雨2016 发表于 2018-6-12 08:32:27 来自手机 |只看作者 |坛友微信交流群
lanhong1993 发表于 2018-6-9 14:25
请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤 ...
我的基因是数万个,样本100多

使用道具

板凳
xwan288 发表于 2018-6-12 11:21:53 |只看作者 |坛友微信交流群
可以用logistic regression来实现

对于这个问题,如果基因选择足够具有代表性,其实预测方法不会有什么差别

可以考虑把所有变量都进入模型 用AIC筛选
或者直接采取随机森林

使用道具

报纸
lanhong1993 发表于 2018-6-12 17:42:07 |只看作者 |坛友微信交流群
寂寞相思雨2016 发表于 2018-6-12 08:32
我的基因是数万个,样本100多
好的,谢谢回复。

使用道具

地板
lanhong1993 发表于 2018-6-12 17:42:38 |只看作者 |坛友微信交流群
xwan288 发表于 2018-6-12 11:21
可以用logistic regression来实现

对于这个问题,如果基因选择足够具有代表性,其实预测方法不会有什么差 ...
随机森林方法也可以么?

使用道具

7
narcissism0923 发表于 2018-6-12 18:06:36 |只看作者 |坛友微信交流群
从lda、qda、fda到earth,还有各种决策树,还有更好的方法如random forest随机森林、svm支持向量机、gbm、xgboost、神经网络、深度学习keras和h2o……

使用道具

8
菊花冰糖水 发表于 2018-6-13 08:59:31 |只看作者 |坛友微信交流群
小样本 SVM 和 NB 效果都是不错的。 RF 或者 logistics 当然也可以用。 变量选择也可以尝试是用 LOGISTICS 或者 RF 的变量重要性来初筛一下。

使用道具

9
xwan288 发表于 2018-6-13 10:01:32 |只看作者 |坛友微信交流群
lanhong1993 发表于 2018-6-12 17:42
随机森林方法也可以么?
随机森林可以

使用道具

10
lanhong1993 发表于 2018-6-13 12:05:11 来自手机 |只看作者 |坛友微信交流群
菊花冰糖水 发表于 2018-6-13 08:59
小样本 SVM 和 NB 效果都是不错的。 RF 或者 logistics 当然也可以用。 变量选择也可以尝试是用 LOGISTICS  ...
用logistic或RF筛选出的变量可用于NB和svm?
logistic可用AIC,逐步回归来筛选,那么其他算法应该怎么筛选呢?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 05:04