2017年中国数据分析师行业峰会:大数据与生物医疗分会场(之一)
分会场1—大数据与生物医疗
时间:2017年7月29日 上午
地点:北京·中国大饭店
主持人:大家好!医疗分论坛现在开始。首先欢迎大家来参加2017数据分析师峰会,今年是第四届峰会,今年的会议有一个主会场,上午和下午都有分会场。我们这个论坛的主持人吴云霞老师,她是北京大学第三医院骨科秘书长,在医疗方面是很多学校的讲师,也是客座教授,有丰富的经验,接下来把话筒交给吴云霞老师。
吴云霞:大家早上好!大家既然来这个会场,一定是对医学感兴趣,2016年的时候我参加了数据分析师论坛,分享了一些医学的经验,我看到了很多的年轻人对这方面感兴趣,实际上还是比较迷茫。在今年大数据生物医学论坛上,大数据这么耳熟能详的词随着生物科技和生物技术的迅猛发展,生物医疗行业的大数据急剧膨胀,与其他行业不同的是生意医疗呈现的分散的、破碎的、低透明度,以及意义尚待解析的各种特征,时间的推移,生物医学数据不断地积累,数据价值虽然越来越重,但是如果挖掘出来,今天各位专家都会从不同的角度去解释。
首先请峰瑞资本早期项目负责人谭验,他关注的是生物科技与大数据方面的跨界投资,曾就职于Tamr,负责生物医疗公司的大数据整合解决方案设计以及公司国际业务。早前曾担任美东地区最大的华人创业商业组织的联合主席,在伯德研究所完成了生物信息博士的研究,并拥有了北京大学生物技术学士学位。掌声欢迎谭验总经理!
谭验:谢谢吴秘书长刚才的介绍。大家今天这么早过来,看得出来大家对人工智能、医疗数据特别感兴趣。我个人的经历是从一个医疗数据的创业者到现在成为早期投资人,从个人的视角分享一下从创业、投资的角度看到人工智能在医疗领域的应用。今天作为第一位演讲,抛砖引玉,从几个大的角度探讨一下。
我本人在峰瑞资本工作,我们公司2015年8月成立,是早期的VC基金。我们公司对于早期的技术投资非常重视,对科技类的投资非常重视。在生物医药领域,对于“AI+医疗”,或者说医疗数据比较看好。
大数据的定义:这个概念经过很多年大家都非常熟悉的,不多讲了。大概是4V的概念,数据量要足够多、种类足够多、生成的速度要快、数据的准确度要高。从医疗的角度来讲,数据量够大大家一直在探讨,从绝对数据量来说医疗数据并不算最大,但是从时间的维度来讲,从有电子病历开始,或者说有实验开始就有长期的积累。现在的医疗图像、病理图像产生的数据量本身也足够大。数据的种类多样,对于医疗来说有病理检测的数据、生活习惯的数据、基因测序数据导致的基因数据这样的各种各样新的数据,随着技术的进步而发展出来。生成速度足够快,对医疗来讲没有那么的明显,比如说在互联网上看到一个点击就会生成一个数据反馈到云端,大家用来做数据分析,对医疗来说这不是最重要的属性。新的概念叫数据的准确性,这对于医疗来说是非常重要的,2010年左右在波士顿的大数据会上提出这么一个概念,大数据当中如果有错误的数据进来,对于医疗来说非常重要,因为医疗本身对于数据的规范性、结构化等一系列的规则正在整合和建立过程当中,所以现在获得数据的准确性质量并不是特别的高,对于我们做的数据挖掘工作和继续学习工作有一定的挑战性。
阿里在2015年的时候数据研究中心给出了一张图,看一下所有的行业从大数据应用水平和数据量的大小的维度,看一下医疗大概是在什么样的环境中。大数据的应用和数据量的积累走在靠前的是互联网,这是毫无疑问的,互联网本身是高度信息化的行业。在互联网中天然的跟广告相关,所以用大数据技术的话是非常的深入行业。
简单总结一下,对于所有的行业我们怎么看?所有行业大数据发展有什么样的规律?我们会发现,一是数据量的储存越大的企业数据化的程度越高。因为存在大量的数据,数据本身肯定会产生价值,于是数据量越大的企业就可以更好的挖掘数据,Facebook很早以前就不删除任何的数据,所有的数据都会储存下来。二是互联网化程度越高的企业数据化程度越高,互联网程度越高的企业往往数据积累量越大,因为互联网天然的精准性要求对于数据进行挖掘产生更大的商业价值。三是数据变现越容易的企业数据化程度越高。像电信行业、金融行业,他们都会在大数据的应用水平上走的比较快,因为数据本身的变现或者数据本身的价值离商业变现更近,所以就会推动它进行数据化的进程。四是个性化需求越过的企业数据化程度越明显。个性化意味着对数据深入的分析,比如说精准营销、市场营销。
根据阿里的统计,看一下医疗。除了比较靠前的互联网、金融,个性化程度比较高的电信、市场营销,政府是很大的数据积累点。当然,像政府云、政务大数据正在开始运用大数据的技术。传统行业中的医疗数据相对于传统行业来说数据积累量比较大,但是数据的应用水平排在中间的位置。看下来,医疗数据量储存达到一定程度的行业。数据变现本身在国内看起来不是那么容易,数据应用水平没有那么强。医疗天生是个性化非常强的行业,前几年兴起的精准医疗和个性化治疗,因为每个人的身体状态、生活环境、基因不同,所以每个人对医疗的要求,或者医疗对他的干预不同,相信数据化驱动医疗是一个大趋势。
跟医疗相关的行业包括医疗、医药、医学研究,抽象的分成四个象限,通过数据来源能够产生什么样的应用,或者什么样的应用会建立在数据来源之上。
首先,对于医疗或者医药行业来说最大的比重是国际化的大药厂,有创新药和创新疗法动力的公司,也就是制药企业和生命科学企业。
第二是临床决策,比如说做的临床治疗干预的手段、电子病历、医疗影象、基因测序的数据,都会成为临床角色和临床应用的数据来源。
第三是医疗保险,临床医保的费用报销中涉及到是不是治疗方案合理,是不是临床路径规划合理,甚至是不是有骗保,这些临床报销数据也是很大的数据来源。
第四是医疗企业会发现除了医疗本身,在治疗病人过程中,或者药物研发过程中产生的数据跟身体健康或者跟治疗有关以外,在患者平时的生活习惯、运动习惯,看起来不相关,或者知道相关但是很难采集的数据也是很重要的数据采集来源。比如说微信上走了多少步,甚至是社交中人与人之间的关系,大家逐渐的会把它采纳起来,作为健康预测的数据来源。
这四个方面对应下来,对于制药企业和生命科学来说精准医疗就会产生越来越精准的用药指导。比如说根据基因型确定肿瘤的用药,现在在国内市场越来越大。
大数据的应用:AI制药和精准医疗,就是通过人工智能怎么提高药厂研发的效率,在美国相关的企业越来越多的出现,在国内还比较少。从VC的角度我们希望看到越来越多的创业者在这方面发力。临床决策支持,现在有很多企业用深度学习的方法做病理图像、影像的判断,也就是复诊系统。费用管理和欺诈检测,现在出现DRG,我们怎么用数据的方法做更好或者是更科学的临床路径的规划。通过生活方面和行为对一并发病的预测,通过信息化的人对健康进行管理。
新药发现的流程:从最基本的科学出发,开始有了生物信息学,有了蛋白质组学,有了高通量的方法,通过这些方法筛选到靶点,哪个蛋白或者哪个基因发现了一个机理导致致命的原理,根据这个原理会设计一系列的化合物。希望这个化合物能够对靶点进行干预达到治病的效果,所以第一层要发现一个小分子。第二层发现先导的化合物,每步进行优化和筛选,看它是不是有好的成药性,再看有没有好的药代动力学,以及安全性,是不是能大规模生产,最后向FDA提出申请,最后进行临床实验。从这个流程来说,涉及到非常多的高通量的筛选,数据的整合,现在越来越多的生物质医学、大数据整合技术都在做,之前我在Tamr的时候会在这个流程做大量的工作。从每一步往下走几乎是数量级的降低,比如说有上百万个分子,往下至少是除以十的规模,每推进一步是几百万到上千万美金的花费,这是一个花费非常大的过程。在制药工业中,这是一个全流程,越来越多的企业在第一个环节希望通过数据分析和人工智能的方法提高效率,或者在第二个环节能不能更快更好更省找到好的化合物。
举个例子,国外有一家公司叫Twoxar,这家公司其中一个创始人是来自斯坦福大学,另外一个创始人是我们一个研究组出来的。他们拿的是美国一个比较有名的希望通过人工智能或者是数据驱动来改变各个行业理念基金的钱。他们是在AI制药或者是用人工智能在制药领域比较有意思的案例。制药工业中大家会进行高通量的筛选,或者高通量的实验来找靶向分子,他们做第一件事儿是找到各种样的组学数据,传统一般会用基因组的数据、蛋白质组的数据、病人的数据,抽象的说是找来大量的数据进行整合和关联。通过纯计算的方法产生药物和疾病的model,通过纯计算的方法和各种各样来源的数据,通过网络关联的方法,希望找到某一些药物或者某一些靶点,跟我们观察到的疾病是相关的。最后通过所谓的Feature Identification,也就是机器学习的方法希望对药物进行分类,或者对药物靶点进行分类,比如哪些更好,或者是成药性好,根据以往的制药过程的经验性的因素。最后就是Candidate Anaiysis,希望找到有用的靶点。在今年3、4月份的时候发表了一篇文章,他们与斯坦福大学合作,通过这个方法筛选了25000种治疗肝癌的潜在的药物的库,从这步开始拿到各种各样的数据,对25000种化合物进行筛选,上万种的数字在药物研发中找,经过这个方法用了一个月的时间缩小到10种药物,对肝癌有效。10种里面包括了被FDA批准的用至于治疗肝癌的药物,那个药物用传统的方法大概花了5年的时间找。从这个角度来说,我们发现用数据分析的方法确确实实可以帮药物的研发提高效率。这是非常早期,非常高兴的是能有这样一些新的技术出来提升制药行业的效率。
AI在制药中的应用:一是AI在制药中从海量信息找到药物治疗的信息,帮我们找到有药效的化合物。二是对已有的化合物通过现有数据的分析方法进行重利用。有一个简单的例子,以前我们发现一个著名的科学家发现一个药物希望它用来治疗心血管,后来发现它可以用在其他方面,比如说伟哥。以前药物纯利用是经验性的方法,在临床中发现它有副作用,再对它进行研究。现在科学家非常系统性对药物进行研究,一个方法是用生物信息学和蛋白质组学的方法来做。一个药物对一个系统进行干扰的时候,发现除了对已知可能产生作用的靶点进行干扰以外,有没有其它的靶点,如果有其它的靶点就是它的新应用。北京生命科学研究所有一位教授在利用计算化学的方法,把以前已有成药的小分子和现在已知的能够成药的靶点,进行小分子和靶点之间结合度的计算,根据这个计算也能找到以前大家不知道,或者大家已知化合物没有毒性了,对它生物化学的计算,发现新的靶点没有很好的结合,就可能成为潜在的靶点。从研发时间来说,传统的要找到一个好的药物靶点,需要10年的时间,10亿美金的花费,用这种方法来找的话,这是一个计算的花费。我们知道药物靶点是什么,知道小分子的结构是什么,我们只要做计算就好了,可以大大缩短时间。从研发费用来说,基本上需要的就是电费,如果是云计算的话就是云计算的费用。从成功的概率来讲也会提高很多,举一个例子,当时有一个FTO的靶点,肥胖症里面特别著名的靶点,大家对它的机制不是了解的很清楚,过去十年很多大药厂都对这个靶点进行研究,但是无一例外的失败了,原因是我们对机制的研究没有那么的明确,另外确实还需要很长的时间,而且很多药因为需要不断地试错,或者不断地失败才能出来。现在通过计算的方法,可以发现以前没有被大家关注的小分子,对这个靶点有很好的结合,以前大家不会想到这个化合物结构可能会跟它结合。比如说做药物靶点筛选的时候,大家不会找这方面的药物分子,因为计算的方法,他们开始找,现在正在往临床方面推,从动物实验来看效果非常好。这是一个比较有意思的AI,或者说是数据对制药的有意义的影响。
另外一个应用是在医保领域,可能会有骗保行为、医疗浪费的行为、过度医疗,临床路径规划不是特别合理的情况。通过对过去数据的总结,包括治疗本身的数据、治疗病理、医院本身的报销数据、个人医疗报销数据可以进行一系列的分析。通过这些分析可以有效的避免刚刚提到的那些行为,这里面用的也是AI和数据技术。
另外一个应用是临床决策,临床决策一个是诊断,个治疗。现在越来越多的通过深度学习的方法对于医疗影像、医疗图象进行识别辅助诊断,帮助医生找到可能的病症部位,医生以前要花十分钟看影像数据,现在可以提高效率。对于治疗来说,比如说IBM Watson,以前是用智库库的方法,把以前的医疗知识建设成数据图,现在除了树状的知识结构,他们也进行海量的医学文献的挖掘,进行一些分析,成为人工智能,希望根据这个帮助医生进行辅助的诊断。
健康管理现在可能刚刚开始,未来我们希望是治未病,希望把人的一些数据全部电子化,电子化以后通过计算机的方法对身体状况进行实时的监控。国内有的公司希望朝这个方向做,也在积极的推,这是未来和长远发展的方向,我们也希望越来越多的人工智能、大数据专家进入医疗领域进行这方面积极的探索,让我们生活的质量更高。(续--回帖)
来源:CDA数据分析师峰会:大数据与生物医疗分会场


雷达卡





京公网安备 11010802022788号







