ITnews 版 (精华区)
发信人: petrel (紫燕*自在飞花轻似梦*燕燕于飞), 信区: ITnews
标 题: “后Google”时代的搜索技术(中)
发信站: 哈工大紫丁香 (Tue Mar 4 21:29:01 2003) , 转信
“后Google”时代的搜索技术(中)
(2003.03.04) 来自:日经BP 八木 玲子
一般情况下,确定显示顺序时会使用搜索关键词出现的频率和链接数量等。基本上是
将包含多个搜索关键词的页面确定为排序靠前的信息。不过,其重要等级还会因这个关键
词是频繁地出现还是不怎么出现在其他文件中而有所变化。比如,搜索“杂志”和“日经
BYTE”这两个关键词时,就会有很多文件包括“杂志”,而包含“日经BYTE”的文件则要
少一些。此时就会赋于包含多个“日经BYTE”而不是“杂志”的文件更高的等级,调整显
示顺序。
对于链接,被很多文件所链接的关键词就会排在结果的前列。依据是知名度越高、该
页就越优秀。
仅仅利用这些信息,就能够为了显示在搜索结果的前面而专门做一些网页。方法是在
文件中嵌入某些特定的关键词,或者制作虚拟页面然后相互粘贴链接等。如果像这样做了
手脚的页面排到了搜索结果的前面,那么用户就感觉难以收集到所需信息,而逐渐放弃使
用该引擎。
Google利用独特的方法解决了这一问题。这就是被称为“PageRank”的方法。
即便是Google,粘贴有很多链接的页面重要性也会很高。但是,PageRank考虑的不仅
仅只是数目,而且还赋于每个链接一个价值(即等级)。链接价值由下面的二个因素来决
定:(1)来自何页;(2)链接是如何粘贴的。
比如,假设分别有一个价值为100点的页页和价值为9点的页页。其价值的不同将会被
反映到这两个页面所链接的对象页面。这一点相当于(1)。另外,页面所粘贴的链接数量
也会用于价值计算中。如果在100点的页面中有2个链接被其他页面粘贴,那么链接目的页
所得到的值是用链接数除原始链接页的点数所得到的值即50点。如果一个页面粘贴了很多
链接,其点数就会下降,而被选择为经过严格挑选出来的少量的链接目的页之一的页面,
其点数就高。这一点则相当于(2)。实际上Google就是根据这种观点,来对对数值进行分
析,并计算其价值的。由此,像雅虎这样具有较高知名度和可靠性的页面价值就会提高,
而个人消遣性地制作的信息量较低的页面价值就会降低。
在PageRank中要想排在搜索结果的前面非常困难。因为即便是制造虚拟页面单纯地增
加链接数,由于虚拟页面没有任何价值,因此其点数也上不去。而必须由既有权威性且知
名度又高的页面粘贴链接。为此就必须充实页面内容。也就是说,总之越是排在前面的页
面就越可能是具有相应信息价值的页面。
动态地调整“质”,追击Google
不过,信息的“质”会因场合的不同而不同。被认为是权威的页面会因搜索内容而变
化。基于这种观点的搜索引擎目前也已亮相。可动态地调整信息“质”的引擎的亮相甚至
有可能像Google过去那样发展成为威胁到现有引擎的程度。
“WiseNut”就是其中之一。其特点是先分析某个页面中所粘贴的链接周围的语言,然
后将与搜索关键词之间的关联性用于排序。Google的PageRank中页面所具有的价值永远都
是相同的,而采用这种方法的话,其重要性会因每个搜索关键词而变化(注3)。
使用链接信息进行分析的搜索引擎还有“Teoma(意思是专家)”。Teoma根据包括搜
索关键词的文件集合来计算页面的重要等级。
另外,这两个搜索引擎试图通过提示哪种信息将较多地包含在搜索结果中,来减少到
达所需信息的时间和工作量。WiseNut和Teoma分别将其命名为“WiseGuide(智能导航)”
和“Refine”。
比如,在Teoma中利用“Search”进行搜索。就会知道在Refine中“Search Engines”
和“Advanced Search”等信息(称为副标题)已经包括在搜索结果中。这里显示的信息就
是Teoma事先准备好的。利用它既可以大体上把握搜索结果的趋势,还可以用于进一步搜索
(注4)。
在副标题中准备什么内容,以及使包括何种语句的信息符合这个副标题等条件需要事
先人工设置好。“并不是全部由人工设置。已经具有使其根据人工进行的初始设置而不断
增强的功能(注5)”(收购了美国Teoma科技公司的美国Ask Jeeves公司日本法人--日本
Ask Jeeves公司技术部技术主管樋口将嘉)。
--
※ 来源:.哈工大紫丁香 http://bbs.hit.edu.cn [FROM: 202.118.239.94]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.745毫秒