进入网络信息服务
亚马逊的网络信息服务本质上是有混合网络搜索器和网站流量监测工具所产生的广泛数据库的查询界面。数据挖掘组织能够利用搜索器生成的数据筛选的像Web一样广泛的信息。Web业务数据对那些公司和个人是相当的有用,他们热衷于研究用户对他们的网站以及与其相关或者竞争网站的访问趋势。
公用事业的网站流量数据是不言自明的任何公司或个人有兴趣的用户探视的趋势,以他们的网站-以及作为相关或相的网站。
Alexa网络搜索。亚马逊的Alexa网络调查的Amazon和Alexa合作的结果,它可以让你查询Alexa的网页搜索器收集到的资料。现有资料的数量是难以衡量; Alexa的已检索网页超过10年,而互联网也是在马不停蹄的增长。Alexa的网站上说,而它的搜索器是在不停的工作,遍历整个互联网的周期大约需要两个月。
当Alexa增加了新的网站文件到它的数据库时,它将索引约50个与该文件相关的属性。这些属性,包括文件的语言,其开启的文件类别,网址的各种解析组成部分,主机服务器的地理位置,以及更多。当然也可以从该文件的文本中了解这些,他的前20kb的是被文字索引了的。所有这一切,都是可供搜索的。
当然,搜索这样一个大型数据库,可是需要时间的。该Alexa网络搜索服务是架构的,因此当你发布搜索时,服务返回一个请求ID 。你使用此ID来跟踪你的搜索的进展状态。当搜索完成后,结果被存储在一个(可能是巨大的)文本文件。文本文件可以下载和“保存”在本地。
Alexa网络信息服务(AWIS) 。该Alexa网络信息服务可让你动用各种部署在互联网上的Alexa工具收集的业务数据。你可以查询一特定的URL的信息资料,例如网站的相关信息,业务统计数字(回到五年) ,甚至更多。你也可以了解某一页有多少个链接,有多少的网址是嵌入到JavaScript中,或更有趣的统计,即其他网站是如何可能链接到目标( “向内指向”链接) 。你也可以使用AWIS撷取网页的缩略图,可用于响应光标停留于链接上时,显示弹出式窗口
Alexa的数据的准确性目前还不清楚。Alexa的网站上说, “业务数据是基于使用Alexa的数据一套工具栏,却未必能够代表全球互联网人口” 。同时,亚马逊网站的Web服务代表告诉我,亚马逊“从多种来源统计的数据,以让你能更好地了解网站人气” 。在任何情况下,能遍历整个互联网文本内容的能力,使Alexa的网络服务成Web数据收集者有利可图的捷径。
长时间准备?
亚马逊的网络服务是立刻令人兴奋和不安的。基础设施服务,采取一种“雇佣”硬件和软件的模式;从理论上讲,你可以拥有强大的计算能力,只要的经济能够承受。所有的服务提供普遍的可用性-如果你的网络连接可以接亚马逊,它就可以接到AWS。这对带动大型,随时应变的软件服务来说是一把双刃剑。
不过,在另一方面,一些重要的组成部分仍处于测试阶段。 事实上,SimpleDB是有限制的Beta,到发稿时不接受新用户。 对“测试版”描述是令人不愉快的,因为它意味它的结构尚未稳定。在6月这暗示成为了不争的事实,亚马逊的S3遭受了临时故障,使像纽约时报这样的知名用户受到了影响,并且导致他们的文档受到破坏。
此外,整个AWS的长期安全仍然有待观察。我们用亚马逊的话,它的系统保证将一个用户的应用程序同另一用户分离。简而言之,AWS只在他的用户相信他是完美的情况下才开始运行将。任何形式的安全缺口都将可能是一个致命伤。
分布式系统的程序员和设计师将发现AWS网站上的基础设施的网完全就是一个游乐场。你可以花时间阅读该文档,指南,实例,并参考社区提供的工具及资料库。
“云”服务-EC2,S3,SQS以及SimpleDB是非常引人注意。实际应用被建在的这些虚拟技术上。实例可以在亚马逊网络服务的弹性计算云资源页上可以找到。
一些AWS组成部分是有问题的实用工具。特别是,土耳其机器人似乎创造一个内在动力来导致任务的定价低于他们应该有的。不过,甚至 Turk可能是一个超前技术实例。或许Mechanical Turk也将有有能力指导网上业务持续得到改善。
是否亚马逊的“可出租基础设施”的概念被人认可,还是一个未知数。其功能衰竭(应该失败)将不会是因缺乏信息和工具。我会热切关注AWS的网站和AWS的相关博客,看看有都什么创造将源于AWS描述的techno-tinker-toy组件。
原文出自:http://www.infoworld.com/article/08/08/13/33TC-amazon-web-services_1.html;
作者:Rick Grehan