TDT是什么【中文】_TDT的研究内容_TDT的实现方法
TDT是什么【中文】
TDT(Topic Detection and Tracking,话题检测与跟踪)起源于早期面向事件的检测与跟踪(Event Detection and Tracking,简写为EDT)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。
自从1996年以来,该领域进行了多次大规模评测,为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、数据挖掘和信息抽取等自然语言处理技术具有很多共性,并且面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。
TDT的研究内容
与一般的信息检索或者信息过滤不同,TDT所关心的话题不是一个大的领域(如美国的对华政策)或者某一类事件(如恐怖活动),而是一个很具体的“事件(Event)”,如美国911事件、江泽民访美等等。为了区别于语言学上的概念,TDT评测会议对“话题”进行了定义:所谓话题(Topic),就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件(Event)通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合。“话题检测与跟踪”则定义为“在新闻专线(Newswire)和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术 ” 。例如,“俄克拉荷马城爆炸案”这个主题包括1995年美国联邦大楼被炸、悼念仪式、州和美国联邦政府的一系列调查、对Timothy McVeigh的指控等等。这个定义和其它与话题有关的研究不同,那些研究主要处理信息分类问题,比如任何与爆炸有关的事件。处理分类问题需要专门的分类体系,注解起来效率低而且主观色彩浓厚。TDT与其它研究不同之处还在于它强调新事件的发现,希望找出不在人们意料之中的或没有人知道如何去查询的事件。
NIST为TDT研究设立了五项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向已知话题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任务和报道间相关性的检测任务。
1、报道切分任务
报道切分(Story Segmentation Task,简称SST)的主要任务是将原始数据流切分成具有完整结构和统一主题的报道。比如,一段新闻广播包括对股市行情、体育赛事和人物明星的分类报道,SST要求系统能够模拟人对新闻报道的识别,将这段新闻广播切分成不同话题的报道。SST面向的数据流主要是新闻广播,因此切分的方式可以分为两类:一类是直接针对音频信号进行切分;另一类则将音频信号翻录为文本形式的信息流进行切分。
2、话题跟踪任务
话题跟踪(Topic Tracking Task,简称TT)的主要任务是跟踪已知话题的后续报道。其中,已知话题没有明确的描述,而是通过若干篇先验的相关报道隐含地给定。通常话题跟踪开始之前,NIST为每一个待测话题提供1至4篇相关报道对其进行描述。同时NIST还为话题提供了相应的训练语料,从而辅助跟踪系统训练和更新话题模型。在此基础上,TTT逐一判断后续数据流中每一篇报道与话题的相关性并收集相关报道,从而实现跟踪功能。
3、话题检测任务
话题检测(Topic Detection Task,简称TD)的主要任务是检测和组织系统预先未知的话题,TD的特点在于系统欠缺话题的先验知识。因此,TD系统必须在对所有话题毫不了解的情况下构造话题的检测模型,并且该模型不能独立于某一个话题特例。换言之,TD系统必须预先设计一个善于检测和识别所有话题的检测模型,并根据这一模型检测陆续到达的报道流,从中鉴别最新的话题;同时还需要根据已经识别到的话题,收集后续与其相关的报道。
4、首次报道检测任务
在话题检测任务中,最新话题的识别都要从检测出该话题的第一篇报道开始,首次报道检测任务(First-Story Detection Task,简称FSD)就是面向这种应用产生的。FSD的主要任务是从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相关报道。大体上,FSD与TD面向的问题基本类似,但是FSD输出的是一篇报道,而TD输出的是一类相关于某一话题的报道集合,此外,FSD与早期TDT Pilot中的在线检测任务(On-line detection)也具备同样的共性。
5、关联检测任务
关联检测(Link Detection Task,简称LDT)的主要任务是裁决两篇报道是否论述同一个话题。与TD类似,对于每一篇报道,不具备事先经过验证的话题作为参照,每对参加关联检测的报道都没有先验知识辅助系统进行评判。因此,LDT系统必须预先设计不独立于特定报道对的检测模型,在没有明确话题作为参照的情况下,自主地分析报道论述的话题,并通过对比报道对的话题模型裁决其相关性。LDT研究可以广泛地作为TDT中其它各项任务的辅助研究,比如TD与TT等等。
随着话题检测与跟踪研究的逐步深入与发展,历次NIST举行的TDT评测都对该领域内的各项子课题提出了新的设想与方向,因此相应的评测任务也随之有所更改。比如,TDT2004撤销了报道切分任务(SST),其原因不仅在于评测语料TDT5中没有包含广播类新闻报道,同时也由于应用中的大部分实例片断本身具备了良好的可区分性。此外,TDT2004将首次报道检测任务(FSD)转换成新事件检测任务(New Events Detection,简称NED)。虽然TDT2004对NED与FSD给与了相同的定义,但本文将这两者定义为目的不同但相互依存的任务。FSD与NED的区别在于前者注重鉴别事件初次报道的时空位置,后者除此之外还需要检测更多相关于事件的报道并进行汇总。此外,TDT2004首次提出了有指导的自适应话题跟踪(Adaptive topic tracking,简称ATT)和层次话题检测(Hierarchical topic detection,简称HTD)概念。
TDT的实现方法
构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:
(1)话题/报道的模型化
(2)话题-报道相似度的计算
(3)聚类策略
(4)分类策略(阈值选择策略)
显然,对这种相关性必须做一个界定,不能任由集合无限扩大。为此,TDT会议组织者在构造TDT语料时,对挑选出来的每个话题都定义了相关性判定规则。



雷达卡





京公网安备 11010802022788号







