伪相关反馈
2017-10-10 04:02
来源:未知
点击数:            

  声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在及代理商付费代编,请勿上当。详情

  伪相关反馈,也称之为盲式相关反馈,提供的是一种自动局部分析方法,它可以自动化相关反馈的手动操作部分,因此用户可不用参与额外的交互也可以获得更好的检索性能。这种方法首先通过普通检索从最相关的文档中寻找到一个初始结果,然后假定其中的前k排名文档是相关的,最后在这个假设条件下像前面一样进行相关反馈。过程步骤如下:

  把初始查询返回的结果当成相关结果(在大多数实验中仅前k个,k位于10和50之间的数);

  使用如TF-IDF权重的方法从这些文档中选择前20-30(象征性的数字)个词语;

  执行查询扩展,将这些词语加入到查询中,然后再去匹配查询所返回的文档,最终返回最相关的文档。

  一些实验,如发表在(Buckley et al.1995)的Cornell SMART系统,在TREC 4实验中使用伪相关反馈提升了其检索系统的性能。

  这种自动化技术在大多数情况下都工作正常,有表明甚至好于全局分析。[1] 通过查询扩展,一些在初始查询中错过的文档能被重新获得,从而提高了整体性能。很显然,这种方法的效果非常依赖于所选择的扩展词语的质量,目前已经发现它在TREC即席任务中提高了性能[来源请求]。但是它又避免了自动处理过程的,例如,如果需要查询的是铜矿,而且位于前面的一些文档都是关于智利的铜矿,那么在查询方向上会逐渐偏向于那些与智利有关的文档。 然而,如果加入原始查询的词语与查询主题并不相关,检索质量有可能会下降,尤其是在Web搜索中,Web文档经常会覆盖多个不同的主题。

Copyright © 2012-2013 .All rights reserved.http://www.lunadeloriente.com 版权所有