搜索的未来：没有搜索的搜索-技术开发专区

搜索的未来：没有搜索的搜索

作者：吴倩编译编辑：覃里 2010-09-26 09:12 来源：IT经�

　　【IT168 评论】15年前，搜索由扫描文本页面和查找关键词构成。当时，对于普通人来说，网络上有限数量的信息并不是很有用处，而且数据传输的速度就像蜗牛一样慢。然而，尽管有这些不利的限制条件，网络最终还是成功俘获了我们的想象力。“网上冲浪”时，我们感觉自己就像太空探索者正在发掘广阔的未知领域一样。当时，科幻小说里的场景就好像在我们眼前生动地展现开来。

　　时至今日，这一点也并没有改变，每天都有数十亿份的文件被添加到网络上，而且，人们的期望每天都在发生变化。我们希望信息能以所有不同的格式 (视频、图像等)用世界上的各种语言提供，能够按照我们的喜好量身打造，而且，我们还希望能够即时获得这些信息。换句话说，搜索引擎必须不仅能处理快速增长的信息量，还要能应对用户行为与期望的快速和根本性的改变。

　　超越文本和语言

　　在Google，当大家谈论组织整理全世界的信息时，其实并不只是指文本信息——图像和视频中也包含有大量信息。与文本不同的是，技术和机器无法简单地阅读一幅图像或一个视频，必须深入观察它们，找出像素信息，并把这些像素信息转化成一些有意义的东西。在很长一段时间里，我们都曾认为这是一个无法实现的“白日梦”，但通过梳理搜索方法和计算机视觉方面的各项技术突破，今天的搜索技术已经可以做到在视觉层次上匹配画面了。

　　打破语言方面的障碍可以打开为新的信息领域，但不幸的是，让计算机去理解语言，要比教一个人学语言还难。人类是通过结合词汇和语法规则来学习语言的，但语言是很复杂的，语法规则中总有例外，例外中还会出现更深一层的例外。而且，这种方法的可伸缩性也不是很好。为了实现在每个可能的语言对之间进行转化，不管是日语到中文，北印度语到韩语，还是乌尔都语到斯瓦西里语，你的电脑都必须掌握大量的例外情况!

　　所以，我们并没有试图给电脑制定大量的规则，而是选择向翻译引擎内输入成千上万份专业翻译文件，并使用各种统计搜索模型在这些文件中识别各种模式。这些模式帮助我们找到了无数的相互关系，从这些相互关系中，就可以开始做到预测某个特定单词、短语或文件的非常好的翻译结果。

　　你知道吗?如今每个人都拥有独属于自己的Google版本。你的Google不同于我的Google，我们的版本跟邻里朋友的也不一样。这一点是非常符合逻辑的，因为我们都有自己独特的兴趣与喜好。

　　然而，创建一个定制的搜索引擎并不是件简单的工作，有许多因素会影响到在某一特定时间对你来说最有用的搜索结果。举例来说，Google在 150多个区域市场都实现了本地化，当你站在前门大街搜索烤鸭店时，看到的结果是前门大街上的烤鸭店。听起来很简单吧?但是，随着用户模型越来越精细，工作的复杂度会呈指数倍增长。

　　用搜索查询“lords”这个词语来举个例子。这个简单的词有好几个意思——比如上议院、城堡和宝剑，甚至一个非常流行的多人网络游戏。不过，作为印度板球队球迷的我，通常都是搜索并点击与板球有关的信息。所以，当我在Google上搜索“lords”时，我首先会看到的是关于伦敦最著名的板球球场——罗兹板球场(Lords Cricket Ground)的信息。

第1页：超越文本和语言第2页：实时加上智能

关注我们