谷歌机器学习的四大数据集-技术开发专区

谷歌机器学习的四大数据集

作者：田晓旭编译编辑：田晓旭 2016-10-24 16:04 IT168网站原创

　　【IT168 评论】如果谈到谷歌，你还认为它只是一个搜索引擎公司，那么你就真的out了。谷歌其实是一个发展比较全面的公司，早在2011年，Larry Page就曾表示，谷歌要在更少的箭头后放更多的木材。谷歌从核心的搜索业务和广告业务辐射到更为广阔的业务领域，从这些领域收集到的数据也越来越多，光是用户交互以及上传的数据就多的难以想象。

谷歌机器学习的四大数据集

　　海量的数据为谷歌带来了丰厚的利润，维基解密创始人阿桑奇曾在接受英国广播公司采访时说道：“谷歌公司的商业模式是收集情报，该项活动为谷歌创造了80%的利润”。那么谷歌到底从海量的数据中衍生出了哪些逆天的数据集呢？

　　大规模图像数据集 Open Images

　　Open Image是谷歌10月1日发布的，据悉，这是一个包含900万张图像 URL 的数据集，里面的图片通过标签注释被分为6000多类，该数据集中的标签要比 ImageNet(1000类)包含更真实生活的实体存在。目前，使用谷歌云视觉 API 这样的视觉模型自动进行图像层次的注释已是主流，谷歌称目前已有计划，未来的几个月内要提高Open Images的注释质量。

　　YouTube-8M 视频数据集

　　YouTube-8M Dataset，顾名思义他是从800万个YouTube视频中编译出来的，这些视频集进行了 video-level(视频层级) 的标注，标注为 4800 种 Knowledge Graph entities(知识图谱实体)，相比于YouTube-1M有了很大的提升，以数据的多样性和高质量而闻名。数据集中的每一个视频都是公开的，每个视频至少有 1000 帧，长度一般在 120s 到 500s 之间，至少与一个 Knowledge Graph entities(知识图谱实体)相联系，可以在线使用也支持离线使用，但是数据集只支持TensorFlow Record 格式。

　　Google Books Ngrams

　　Google Books Ngrams 是一个很有趣的黑科技，它可以让用户在谷歌扫描书籍数据库中寻找特定短语，并把这个短语随时间变化的频率以图表的形式显示出来。其实，词语的出现和流行并不是同步的，中间有可能会经历很长一段时间，例如“重金属”一词诞生于19世纪，但是流行起来却是在1975年。另外，Google Books Ngrams 并不是静止的，而是实时更新的。

　　据悉，Google Books Ngrams扫描了从1500年到2008年之间出版的8116746册书，进行了OCR识别，然后建成了世界上最大的电子书数据库，再通过一系列算法从万亿级别的原始数据中识别出单个的词语和短语，构成了一个语料库。

　　Google Trends Datastore

　　Google Trends 是Google推出的一款基于搜索日志分析的应用产品，它通过分析Google全球数以十亿计的搜索结果，告诉用户某一搜索关键词各个时期下在Google被搜索的频率和相关统计数据，是用户分析搜索关键词的一个相当不错的工具。因 Google Trends Datastore 受时效性的影响，所以对数据集中的数据要求比较严格，通常它们的大小为1.1M。也正是因为对数据大小和典型性的严格要求，使得在预测时能够收到令人满意的效果。

　　另外值得一提的是谷歌公共数据目录中有超过100个来自世界各地的数据供应商，他们可以提供从人口统计到经济指标各种类型的数据，这些数据虽然不是谷歌直接提供的，但是谷歌会进行筛选，确保数据的质量。

关注我们