Google“看图说话”是怎样实现的？-技术开发专区

Google“看图说话”是怎样实现的？

作者：厂商投稿编辑：覃里 2014-12-03 13:28 来源：雷锋网

　　【IT168 技术】将一种语言翻译成另一种，一直是一个艰巨的任务，Google已经通过开发机器翻译算法使这种情况发生了改变，用Google翻译改变了跨文化交流的本质。而今，Google正在用同样的机器学习技术来将图片“翻译”为文字，研究成果是一个可以自动给图片生成说明文字的系统Neural Image Caption，所得的文字能够准确地描述出图片的内容。研究成果将有助于搜索引擎，以及帮助视障人士上网。

　　语言翻译的常规方法是一个迭代过程，从翻译单个单词开始，然后将词和短语进行重新排序，从而改进翻译。但近年来，Google已经研究出来了应如何利用其庞大的搜索数据库，用一种全新的方式来翻译文本。

　　该方法本质上是计算字词出现于其他字词周围或者附近的频率，然后将这些词定义在抽象的矢量空间中。如此一来，每个字词都由一个矢量代替，句子就由矢量的组合代替。

　　Google继续做出一个重要的假设。在任何语言中，特定的字词之间的关系不变。例如，矢量“国王–男人+女人=女王”成立于任何语言之中。

　　这就使得语言翻译变为了一个矢量空间数学问题。Google翻译通过将句子转化为矢量，再用矢量来生成另一门语言中意义相同的句子，从而实现语言的翻译。

　　现在，Google的Oriol Vinyals和他的小伙伴们正在用类似的方法将图片转化为文字。他们采用的技术，是用神经网络来研究有着十万张图片和配套图片说明的数据库，然后学着如何将图片的内容进行分类。

　　但他们的算法产生的是代表字词关系的矢量，而不是一组描述图片的字词。这种矢量可以嵌入到Google现有的翻译算法当中，从而用英语或者其他语言产出图片说明。事实上，Google的机器学习方法已经学会了将图片“翻译”成文字。

　　为了测试这种方法的有效性，他们让从亚马逊Mechanical Turk招募而来的人评估了以这种方式自动生成的图片说明，以其他方式生成的说明，以及人工写的图片说明。

　　结果表明，新系统运转良好，使用PASCAL图片数据库测试，它的表现明显优于其他自动生成的方法，取得了59分，而目前非常先进的其他技术只有25分，人工写成的69分。

　　这个结果已经不错了，并且随着训练数据库规模的增加，表现也会越来越好。显然，这又回到了另一个问题，人类优于机器的日子，是不是屈指可数了?

关注我们