人们今天使用的搜索其实已经非常智能,搜索结果按相关性排列有序,甚至可以根据用户历史记录进行个性化定制。但在九十年代中期,还没有真正意义上的搜索引擎,搜索结果冗杂,如何识别网站质量、防止作弊成为了一个难以突破的技术瓶颈。 彼时,28岁的的李彦宏正在道-琼斯公司担任高级技术顾问,他已经牵头开发了《华尔街日报》网络版实时金融信息系统,这也是全球第一个网络实时金融信息系统。当时每天有15万条资讯,如此海量的信息,用户很难快速找到自己想要的信息,迫切需要一种快速准确的检索技术来化解这样的难题。 李彦宏在思索如何解决搜索准确性技术时,突然想到,自己在北大所学的科技论文索引方法。“科学论文通过索引被引用次数的多寡来确定一篇论文的好坏,超链就是对页面的引用。”李彦宏回忆,“超链上的文字就是对所链接网页的描述,通过这个描述可以计算出超链和页面之间的相关度。” 这让李彦宏非常兴奋,他立即反复论证这一理论并整理成稿,1996年正式提出“超链分析”概念并发表了相关文章,1997年2月申请了专利——“超链分析技术”(Hypertext document retrieval system and method,专利号5,920,859)。超链分析技术的发明,一改互联网搜索杂乱无章、信息冗余的局面,使搜索效果大幅提升。 在一次学术会议上,李彦宏请时任Infoseek CTO威廉•张观看超链分析的实践。李彦宏输入chinatimes,排在第一位的就是中国时报的网站,再搜IBM,IBM官方网站排在第一。威廉•张惊呼:“任何一个流行的搜索引擎都做不到。” 值得一提的是,李彦宏的超链分析中特别指出了不同文字链接的关联性,这种思想前瞻性地预言:未来不同语种搜索引擎可能将在主要技术上不尽相同。现在,这种预言已经成为现实,目前中文、英文、俄文、韩文等区别较大的语系已经有各自不同的搜索引擎,虽然技术体系各有千秋,但其本质与超链分析却都有千丝万缕的联系,例如Google。 本文由 无忧系统专家,思科论坛http://www.net527.cn转载