技术开发 频道

谷歌面临新兴搜索技术挑战

  【IT168 评论】虽然谷歌的页面索引量去年夏天就超过了1万亿,但是对于浩如烟海的互联网而言,这仅仅是沧海一粟。众多创业公司和研究机构看到了这样的机会,纷纷开发“深层网络”搜索技术,希望能够完善搜索引擎。这将使谷歌面临巨大的挑战。

  沧海一粟

  去年夏天,谷歌搜索引擎迎来了一个里程碑,它索引的页面数达到了1万亿。但是令人感到不可思议的是,对于浩如烟海的网络世界而言,这仅仅是沧海一粟。

  除了这1万亿个页面之外,还有为数众多的隐藏数据,例如,财务信息、产品类别、航班时刻、医疗研究以及各种各样存储在数据库中的文件,这些数据中的绝大多数都无法被搜索引擎索引到。

  在对所谓的“深层网络(Deep Web)”的渗透过程中,主流搜索引擎面临着巨大的挑战。而“深层网络”中的数据恰恰对解决诸如“下周四从纽约到伦敦怎么走最划算?”或“纽约扬基队(Yankees)今年什么时候跟波士顿红袜队(Red Sox)比赛?”这样的问题大有裨益。其实这些问题的答案就摆在那里,关键得看搜索引擎怎么才能找到它们。

  新兴技术

  现在,一批新的技术正在逐渐兴起,它们有望将搜索引擎的触角拓展到网络的死角中。一旦这些技术最终成形,不仅会提升搜索结果的质量,甚至会从根本上改变许多公司的网络业务模式。

  搜索引擎依赖于一种名为爬虫(或蜘蛛)的程序,这种程序可以通过追踪超链接来搜集互联网中的信息。尽管这种方式在“表层网络(Surface Web)”中表现优异,但是想要渗透到数据库中却比较困难,而这些数据库恰恰可以回答某些特定的搜索查询。

  “ 爬虫所能索引的网络只是冰山一角。” 专注于“深层网络”搜索的创业公司Kosmix联合创始人安迪-拉贾罗曼(Anand Rajaraman)如是说。该公司的投资人包括网络零售巨头亚马逊首席执行官杰夫-贝佐斯(Jeffrey Bezos)。Kosmix已经开发了一种能够索引数据库的搜索软件,通过这种方式,就可以为用户提供相关信息,而且可以在综合多种资源信息后返回特定主题的概述。

  大海捞针

  拉贾罗曼说:“大部分搜索引擎只是帮助你进行大海捞针。而我们则会帮助你探索‘海洋’。”

  海洋是无穷无尽的。有数百万的数据库与互联网相连,而搜索项的组合也是无穷的,因此无论多么强大,也不可能有哪个搜索引擎能够为所有可能的数据组合提供迅速有效的检索。

  想要从“深层网络”中提取有意义的数据,搜索引擎就必须要分析用户的搜索请求并找到一种方法将这些搜索请求与特定的数据库关联起来。例如,如果用户输入了荷兰画家“伦勃朗(Rembrandt)”,那么搜索引擎就需要知道哪个数据库最有可能包含与美术相关的信息(例如,博物馆或是拍卖行),以及这些数据库究竟会接受哪种查询。

  从理论上,这种方法似乎很简单,但在实践中,浩如烟海的数据库结构以及可能的搜索项都会成为运算所面临的棘手问题。

0
相关文章