下面的这篇文章来自来自微软研究院的杰出科学家Ashok Chandra博士以及项目经理Dhyanesh Narayanan。
70年代时,我(Ashok)还是斯坦福大学人工智能实验室的一名学生的时候,那时有着一种乐观的看法,认为能与人类相媲美的机器智能即将诞生。好吧,它现在也还是即将诞生的阶段。但与此同时计算机却一直在机器学习技术的帮助下变得越来越能干。以至于微软创造的几乎所有的几乎所有的新产品都使用着某种层次的机器学习,将其用于分析语音、数据或者是文本。在本文中我们主要关注其在文本分析上的应用。
随着计算机能够更好地理解自然语言,新的疆界在四处被开拓:提供给应用的改进过的用户界面(UI);更优秀的搜索引擎;像Cortana和Siri一样的个人助理;以及能够弄清楚给定的文档到底在写什么的工具。例如,对于一个新闻网站来说,如果在文章中提到的人都以算法形式链接到维基百科(或者其它合适的数据库),以便用户能够更加容易地获取更多关于那些人的信息,那么这个新闻网站可能会收获更好的用户体验。除此之外,通过给文章中添加不同的附加标记,人们可以确定文章中谈论的那些突出的实体(比如运动员、队伍等)是什么,如图1所示。
图1: 文本识别的阅读促进使用场景
文本识别一直是,而且将继续作为科学研究的一个活跃领域。毕竟,为所有的人类知识(以文本形式呈现的)创造一个语义的模型不是一件简单的工作。追溯到90年代早期的早期工作包括了能够确定句子成分的Brill标签器[1],以及[2]仅仅给现在新的研究提供了一点线索。微软研究院一直在这一科学领域十分活跃地创造新的概念,但我们还进一步地用实用的想法为这项新科学量体裁衣,以创造更多产品级的科技。
在这篇博文中,我们将简单展示机器学习技术如何能利用命名实体识别技术(NER,Named Entity Recognition)作为参考点影响文本分析。作为一个提供总控的机器学习机能的平台,微软Azure机器学习总体上包括了文本分析的能力,尤其是对NER的支持,所以我们将它用于建立普遍概念以及特别的设计选择的联系。
NER就是确定文本中的参考信息为人、地点、组织、球队等的任务。让我们简单地看一眼我们将会怎样利用“监督学习”来解决这个问题。
图2: 命名实体识别技术的工作流程
在设计时期,或者说“学习时期”,系统利用训练数据来创建一个关于将要被学习的东西的“模型”。方法就是让系统总结一小部分例子的特征,以便能够处理任意的新文本。
训练数据由为将要被学习的命名实体人工注解的标签构成。它可能会看起来像这样:“当克里斯·波许(Chris Bosh)超常发挥的时候,迈阿密热火队(Miami Heat)变得无人可挡”。我们的期望是,一个通过有着这样特点的例子进行学习的模型将学会从新的输入文本中识别出球员实体以及球队实体。
设计时期工作流程链在特征提取阶段的效率是,往往越勤勉地被设计的特征越能产生更强有力的模型。比方说,与文中一个词语相关联的局部语境[比如说,前一个k开头的词和后一个k开头的词]是一种我们将实体与词语相关联的强力的特征。比如,在句子“昨天旧金山在一场激烈的比赛中打败了红雀”中,从很显然能够看出文中提到的“旧金山”指的是一个球队(也就是旧金山巨人队)而不是旧金山市。首字母大写是另一种经常被用来识别命名实体比如文中出现的人或者地点的有用的特征。
模型训练就是机器学习这个概念的意思,也就是来生产出一个好的模型。它常常是许多被选择的特征的一个复杂的组合体。有若干个机器学习技术可用,包括在Azure机器学习等着你去使用。在命名实体识别之上,总体自然语言语法分析、创建链接和高亮、情绪分析、事实提取等等代表了围绕着内容增加应用用户体验所需的附加步骤,这些就是能够帮你让你的文本“活起来”的附加的技术。
转自计算机视觉网-计算机视觉论坛
2016年,经管之家《机器学习》全国4月开课,详情请戳:http://www.peixun.net/view/558.html


雷达卡




京公网安备 11010802022788号







