【信息检索导论】第9章 相关反馈及查询扩展
2017-09-23 07:57
来源:未知
点击数:            

  )①的各种方法,包括全自动的方法和用户参与的方法。查询优化的方法主要可以分成两类:全局方法和局部方法。全局方法指的是在不考虑查询及其返回文档情况下对初始查询进行扩展和重构的方法,因此,扩展后查询中的用词变化会使得该查询与其他语义相近的查询词项相匹配。这些全局方法包括:

  1.基于同义词词典(thesaurus)②或WordNet的查询扩展或重构方法;

  RF(relevancefeedback,相关反馈)的主要思想是,在信息检索的过程中通过用户交互来提高最终的检索效果。

  相关反馈的时机:拼写错误,跨语言IR,用户的词汇表与文档集的词汇表不匹配

  1.一个明显的策略就是,首先计算出原始查询q0的正确率—召回率曲线,一轮相关反馈之后,我们计算出修改后的查询qm并再次计算出新的正确率—召回率曲线.利用剩余文档集(

  ,所有文档集中除去用户判定的相关文档后的文档集)对反馈后的结果进行评价。3.给出两个文档集,一个用于初始查询和相关性判定,另一个用于比较和评价。因此,

  blindrelevancefeedback),提供了一种自动局部分析的方法。它将相关反馈的人工操作部分自动化,因此用户不需要进行额外的交互就可以获得检索性能的提升。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的k篇文档是相关的,最后在此假设上像以往一样进行相关反馈。查询重构的全局方法

  人工构建同义词词典的代价很大,一种取代思是通过分析文档集来自动构造这种词典。这主要有两种实现方法。一种方法是简单地使用词共现信息。我们可以认为同时出现在文档或段落中的词在某种意义上相或者相关,这样就可以通过计算文本中的统计信息来找到最相的词。另一种方法是采用浅层语法分析器来分析文本得到词汇之间的语法关系或语法依存性。

  最简单的计算共现同义词词典的方法是基于词项之间的相度计算。

Copyright © 2012-2013 .All rights reserved.http://www.lunadeloriente.com 版权所有