ITnews 版 (精华区)

发信人: petrel (紫燕*自在飞花轻似梦*燕燕于飞), 信区: ITnews
标  题: “后Google”时代的搜索技术(上) 
发信站: 哈工大紫丁香 (Tue Mar  4 21:28:33 2003) , 转信

“后Google”时代的搜索技术(上) 
(2003.02.27)   来自:日经BP   八木玲子/高桥秀和  
 
 
 
  
 
  作为在互联网上搜索信息的第一步,人们大都使用搜索站点。基本上每位用户都有自
己喜欢的搜索站点。但是,搜索结果绝大部分是相同的。因为大多数搜索站点都是在后端
使用相同的搜索引擎。比如Google(图1)。 

  Google已超过众多搜索引擎,在互联网搜索领域表现出了舍我其谁的气势。雅虎、Ex
cite、BIGLOBE和@Nifty等业界著名门户站点和互联网服务提供商甚至已经放弃自己的搜
索引擎,而改用Google的搜索引擎。作为后起之秀的Google已经超过众多的搜索站点而达
到了业界巅峰。不过今后该轮到Google被别人追赶了。 

成功实现由量到质的飞跃 

  Google的成功在于迅速地完成了由量到质的转变。互联网面向公众开放后10余年的时
间里,几种搜索引擎造就了一个时代。服务起始于1994年的分类检索引擎--雅虎采用的是
人工整理和登记信息的方法。第二年基于全文检索的搜索引擎AltaVista亮相了。机械地收
集大量的数据,然后以其中的全部字符串为搜索对象。从而可以在分布于全世界的庞大数
据中查找到很多文件。 

  数据的“量”确保之后,接下来要追求的便是“质”了。很好地满足了这一点的就是
Google。Google的成功,原因在于优先显示高质量的信息,提高了搜索精度。 

将可靠性高的页面排在前面 

  从搜索中的基本处理过程来看,Google与其他绝大多数搜索引擎没有太大的区别。将
互联网上的文件资料搜集到一起,然后制作索引进行检索。而Google通过在显示搜索结果
的顺序方面下功夫,提高了搜索质量。 

  只是仅仅包括搜索关键词的页面通常情况下数量都非常之多。那么,如何将最合适的
结果排在前面呢?这一点正是展示搜索引擎绝活的地方。 

雅虎是人工收集和分类信息。但由于这样做所处理的信息量具有一定的限制,因此后来通
过实现信息收集过程的机械化,来收集大量信息,并进行全文检索的引擎亮相了。其中,
优先显示高质量信息的Google目前表现得最活跃。
现在“后Google”时代已经起航  

高速搜索的关键在于索引 

  互联网搜索引擎瞬间即可完成对互联网中数量庞大的数据检索,并返回搜索结果。这
是因为搜索引擎事前就已经制作了被称为索引的检索数据。其原理与用词典查单词时通过
索引找具体的页面相同。 

  制作索引时必须首先收集文件数据。用于收集数据的程序借助连接信息,逐个访问服
务器来收集数据。这个处理过程称为“crawling”,进行处理的程序称为crawler或robot
等。Google使用多个crawler收集数据,并为每一个文件编制ID编号。据该公司表示,200
2年9月crawling对象已经达到24亿页。 

  索引是使用所收集的数据生成的。搜索引擎中的索引是指由构成文件的字符串中提取
用于检索的信息。最基本的索引结构采用的是字符串和包括字符串的文件之间的对应表形
式。实际上,除此之外很多情况下出现字符串的位置等信息也会收录到索引中。另外,以
什么单位来划分字符串,也有多种方法(详情将在(中)介绍)。 

  搜索过程只是对索引进行检索,并不使用原始数据。首先将作为搜索关键词而输入的
字符同样地划分成单位合适的字符串,然后使用索引,搜索出包括搜索关键词的文件。比
如,在具有像图B那样的索引的情况下利用“花”这个字符串进行搜索。检索索引后,结果
就会显示文件ID为1和2的文件。 

  只是检索索引,而并非每次都搜索Web页面。所以即便是庞大的数据瞬间就可搜索完毕
。不过,这种方法有时会产生Web页面虽然进行了更新,但由于并没有被搜索引擎收集到,
因此在被收集到索引中以前就无法反映到搜索结果中的现象。有时搜索引擎显示的页面不
存在就是因为这个原因。
 




--

※ 来源:.哈工大紫丁香 http://bbs.hit.edu.cn [FROM: 202.118.239.94]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.168毫秒