ITnews 版 (精华区)

发信人: petrel (紫燕*自在飞花轻似梦*燕燕于飞), 信区: ITnews
标  题: 谁是最优检索技术 长年论战终有定论 
发信站: 哈工大紫丁香 (Fri Feb 28 21:09:53 2003) , 转信

谁是最优检索技术 长年论战终有定论 
(2003.02.27)   来自:日经BP   八木 玲子  
 
 
 
  
 
  要从互联网上浩瀚如烟的信息中寻找自己需要的东西时,无论谁大概都会首选Google
等搜索引擎吧。这些搜索引擎将文章中所有的文字序列都作为检索对象,找出包含有欲检
索词汇的文章。这就是全文检索。 

  在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文
字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引
进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确
检索。 

  实际上这一点已经争论了很长时间。文字的分割方法主要有两种。但2002年12月这一
争论似乎结束了。在日本国立信息学研究所主办的第3届搜索引擎评价型国际会议NTCIR(
NII Test Collection for Information Retrieval Systems)的成果报告中,开始倾向于
其中的一种。 

检索语句应按词素分析法进行分解 

  NTCIR始于1998年。其目的是通过多家单位参与研究同一课题,通过对结果进行评价来
促进检索技术的发展。本次为第3届,举办时间为2001年8月至2002年10月,参加者包括9个
国家的企业与大学等单位的65个研究小组。 

  两种文字分割方法分别是词素解析与文字索引(N-gram)。词素解析是指对文字序列
按词典意义上的最小单位进行分解处理。与此相对的N-gram则不考虑文字的意义,只按一
定的长度单位N来分割文章。 

  按词素解析法进行文字分割后,可根据有意义的单词进行检索。对于只有部分文字一
致但没有意义的文字序列就排除在外,减少了检索干扰。但会出现词典中没有的单词时就
不能进行正确分割的现象,所以有发生检索遗漏的可能性。相反,如果采用N-gram的话,
不会出现检索遗漏的情况,但增加了检索干扰。 

  在上届NTCIR上,各与会单位对于这两种办法就存在意见分歧。实际上,两种办法的检
索精度旗鼓相当,很难分出高下。但在本届会议上,上次极力推崇N-gram的美国加州大学
伯克利分校却在报告中称,使用词素解析法按词语单位对检索语句进行分割的方法更为有
效。“作为的NTCIR资深小组提出的报告,可信度很高。我们也许可以得出以单词为单位进
行分割的方法有效这一结论了”(国立信息学研究所副教授神门典子)。但在作为检索对
象的数据方面,为防止检索遗漏有时还是使用N-gram进行分割好一些。 

从检索结果中取出信息也很重要 

  我们再看一个NTCIR的其他成果。本届NTCIR预备了5种课题。参加小组在每个课题中都
分配了规定的检索数据与检索语句。以日语数据为中心。 

  参加小组为解决分配的课题而开发出搜索引擎,并提交结果。NTCIR对各个结果进行评
价,排出次序。 

  参加单位最多的就是跨语言检索。这是将与检索语句不同的语言写出的文章作为检索
对象的技术。特别是在美国,由于军事用途而格外重视这一领域的研究。在去年发生9.11
恐怖事件后,又开始注重用英语检索阿拉伯语信息的技术。前面提到的加州大学伯克利分
校的报告就是这类课题。 

  除检索外,在技术上还存在一些必要的课题。这是因为“对检索出来的文章仅仅是列
表显示还不是很方便。从里面选取有用信息的技术也很重要”(神门副教授)。这里将重
点放在回答提问的课题上。为回答提问问题而使用的知识数据库为近2年的新闻报道。首先
要分析检索语句要求检索什么,然后检索与此相关的新闻报道,再从报道中抽出能回答检
索语句提问问题的答案要点。例如:对于“千叶县的首府驻地在哪个市”这一提问, 就能
显示正确回答出“千叶市”。最好的单位在200道问题中能正确回答的约60%。 

新的检索办法也被提起 

  专利检索课题是本届会议首次提出的课题。其设想的用途更有实用色彩,即以新闻报
道为基础、检索相关的专利信息。 

  在专利检索中,作为检索用语的基本数据的检索文章是新闻报道,检索对象为实际的
专利信息。这两者的数据在语言的使用方法上有很大差别。为了消除这些差别,理光提议
在选择检索用语时采用新的方法。 

  排在检索结果前面的是包含基本检索用语最多的文章。不过,这个时候一般情况下检
索用语的重要程度会发生一些变化。原因是:某个词语此时如果还频繁出现在其他文章中
的话其重要程度就下降,不出现的话重要程度就上升。在其他文章中不大出现的词语就显
得很突出,也就是很重要。 

  但在专利检索中原封不动地采用这一思路的话,会有意想不到的词语排到最前面。例
如,在新闻报道经常出现“总裁”这一词语,由于检索语句是新闻报道的内容,所以它很
可能会成为检索用语。但在检索对象为专利信息时,“总裁”这个词几乎不会出现,所以
就被定为很重要的词。结果就将实际上几乎没有意义的“总裁”判断为特征词,将包含这
一词语的文章放在最前面。 

  因此,检索语句出现的频率与检索对象出现的频率有很大差异的单词不要作为检索用
语,通过修改检索方式来提高检索精度。 

  这种思路也可以应用于专利之外的检索。例如,当作为检索对象的数据与自己的语言
用法不同时,可以消除这一差别。但正如该方式所表示的那样,必须事先清楚检索语句中
的句子出现的频率。
 




--

※ 来源:.哈工大紫丁香 http://bbs.hit.edu.cn [FROM: 202.118.239.94]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.542毫秒