请教大家一个问题:举个例子,如图,每一行代表的是一个肿瘤样本,约有200个样本。gold standard表示肿瘤的良恶性(0和1),ABCDEFGH分别代表8个关键基因是否表达(0和1,其实还有很多基因没有展示)。现在我想实现这样一个目的:用这些基因的表达谱(即0或1)来预测肿瘤的良恶性。那么,有以下几个问题:
1.是否可以用朴素贝叶斯算法来解决这个问题(医生,机器学习初学者,自我感觉可以用贝叶斯,问题类似于垃圾邮件,但不敢确定)。
2. 关键基因不止8个,有几十个,如何挑选有用的基因纳入模型,作为自变量。
3.最常用logistic回归是否能解决这类问题?
4.是否存在这样一种方法,能够以最少的基因数来最准确地预测肿瘤的良恶性?
这是临床大数据时代,数据基础薄弱的医生们迫切想要知道的。特此请教论坛各位老师!