查全率和查准率的关系_影响查全率的因素_提高查全率的具体方法
查全率和查准率的关系
查准率(Precision ratio,简称为P),是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准确性,其补数就是误检率。
查全率(Recall ratio,简称为R),是指检出的相关文献数占系统中相关文献总数的百分比。查全率反映检索全面性,其补数就是漏检率。
查全率=(检索出的相关信息量/系统中的相关信息总量)*100%
查准率=(检索出的相关信息量/检索出的信息总量)*100%
利用这两个量化指标,也可以对信息检索系统的性能水平进行评价。要评价信息检索系统的性能水平,就必须在一个检索系统中进行多次检索。每进行一次检索,都计算其查准率和查全率,并以此作为坐标值,在平面坐标图上标示出来。通过大量的检索,就可以得到检索系统的性能曲线。
实验证明,在查全率和查准率之间存在着相反的相互依赖关系--如果提高输出的查全率,就会降低其查准率,反之亦然。
对查全率和查准率之间的关系理解,如果提高了查全率,也就说明中间的阴影部分变大了同时系统中的相关文献总量应该不变。但准确率提高跟检出的总数相关,实际是要想查到更多相关的,那么检出的不相干也更多,即图中浅蓝色部分也变大,导致准确率变低。
影响查全率的因素
影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
提高查全率的具体方法
提高查全率首先应正确选词。选词就是将主题概念转变成检索语言,选词的广度和专指度对主题概念的表达起着关键作用。提高查全率的指导思想是:选词应广泛,即主题词的选取范围要广一些,泛指性要强一些;逻辑算符应选择具有扩检意义的“逻辑或”。
1.上、下位扩检法
为了提高文献检索的查全率,除选择恰当的主题词外,还应该选择内容范围更广的上位词及更窄的下位词参与检索,以扩大检索范围。例如,检索“液体火箭发动机”可用这样的检索式:液体火箭发动机OR氢氧发动机OR肼发动机OR火箭发动机。
2.同义词、近义词扩检法
许多全文数据库都支持关键词检索。利用关键词检索,用户不必掌握复杂的叙词知识,这使检索变得简单而直接。由于关键词未经规范处理,它们之间不显示词的等级关系和相关关系,这都增加了查全文献的难度。因此,为了全面地收集文献,在进行某一专题检索时不仅要确定较规范的主题词,还要考虑与该主题词相关的同义词或近义词,即学名与俗称之间、同一产品的正式命名与俗名之间的相关关系等。反映同一概念的检索词越多,则越能保证查全率,如“乙醇”俗名“酒精”,“维生素C”俗称“维他命C”或“抗坏血酸”,“番茄”俗称“西红柿”,“马铃薯”俗称“土豆”,“敌克松”又称“地可松”等。这类意思一样但表达方式不同的词,在检索中应加以重视。如果不考虑这种情况,在检索中就会漏掉一些文献,从而影响查全率。
3.增加“逻辑或”组配
文献检索中除正确选择主题词外,恰当地表达主题词之间的逻辑关系也是提高查全率的重要方法。在逻辑组配过程中,必须正确地选用逻辑算符来表达检索项之间的逻辑关系,以真实、确切地反映检索要求。如果逻辑算符选得不对或不恰当,将会产生漏检或误检,直接影响检索质量。前面已提到,用“逻辑或”组配可以扩检,而“逻辑与”组配可以缩检,因此,提高检索的查全率必须增加OR组配,减少AND组配。方法之一是选全同义词,并以OR方式与原词连接后加入检索式。例如,检索“乙醇的生产”方面的文献,可制订检索式:乙醇OR酒精AND生产。


雷达卡





京公网安备 11010802022788号







