如何寻找“另一半”?
——这是个数据分析问题
在辞旧迎新的假日里,相亲、逼婚的戏码正在千家万户上演。有人在愉快地见家长,有人在郁闷地应付爹娘。如何寻找另一半,也是个令人头疼的数据分析问题!
“以前总有人问如何从数据库里寻找配对,我以前用SAS做过,不是那么简单,当可以用来做配对的对照组有限时,有些病例不一定能找到配对”,哈佛大学医学院附属肿瘤研究所(Dana-Farber Cancer Institute)生物信息高级工程师,从事流行病学研究设计与数据分析咨询工作25年的陈教授谈到,“如有这种情况出现:对照A可以与病例B配对,也可以与病例C配对,但如果与B配对了,C就可能找不到对子了,如果把A与C配对,B还有可能找到对子。这时候就应该把A配给C而不是B。但编程不容易实现,所以我以前都是让人家把对照按条件排序,然后手工挑。”
听到这,我晕了!苦逼的大龄医学博士,哪有时间去“手工挑”啊!有没有智能点的办法?!节省出来点时间去相亲呢!
易侕软件团队值此新春之际,特针对需要“配对”的医学研究者们,设计出“病例对照配对”模块,让你想怎么配就怎么配。用软件自带的练习数据举个例子,如下:
1.打开易侕软件,选分析项目—打开现有项目:
2.选择第二个名为demo的练习项目:
3.我们先来查看一下数据的格式:选择数据操作—列表与查看
可以看到,这个数据中的第30列HBP是分组变量,0为对照组,1为病例组,NA代表缺失。每个人有一个唯一编码SUBJ,以及性别sex、年龄age、教育程度edu、身高height、体重weight等变量信息。现在,我想根据性别和年龄,对分组变量做1:2配对。
介绍完了数据结构,下面正式开始配对了:
1.选择分组变量和配对的变量。
自由度可以自己更改,age自由度选择2,表示age相差2岁以内可以配对。
2.运行结果如下:
3.软件首先配对第一个,然后配对第二个,以此类推:
4.结果保存在.xls文件中:
软件共提供两种配对方法。第二种方法为计算倾向性评分再配对。
1.选择分组变量、需要配对的变量。
这个时候变量的自由度就没有意义了。软件会根据评分进行配对,分数差值可以自己进行选择,这里选择0.05。
2.结果输出如下:
3.同样,结果也会导出.xls文件。
以上就是病例配对的过程,怎么样,是不是很方便很实用?帮大家节省出来点时间去相亲呢!哦,不用,我直接把相亲对象的信息整理好,然后按照条件匹配不就行了吗??真给自己的机智点个赞~啥也不说了,赶紧整理资料去了,大家记得关注易侕统计微信账号噢。
易侕,让统计更简单!