技术开发 频道

Skype Translator实时语音翻译技术原理

  【IT168 评论】近日,微软正式宣布在中国市场推出Skype Translator实时语音翻译技术的中文预览版。对于英文不好的小伙伴们,这无疑是个利好,从此中英文沟通无障碍。

  Skype Translator是由Skype和微软机器翻译团队联合开发,整合了微软Skype语音和聊天技术、机器翻译技术、神经网络语音识别打造了一款面向消费者用户的产品。

  自2014年12月Skype Translator 推出英文和西班牙文之间的实时语音翻译之后,此次在中国市场的发布Skype Translator无疑将微软语音翻译技术能力和Skype的未来应用前景推升到新的里程碑。

  Skype Translator预览版适用于Windows 8.1或Windows 10技术预览版的客户端或平板电脑客户端。除了英文和中文普通话的语音翻译之外,还支持四十多种语言的即时文本翻译。 

Skype Translator实时语音翻译技术原理

  众所周知,中文是一门极具挑战性的语言,中文有大约一万个常用汉字以及多种多样的语音、语调,这对于母语为英语的学习者来说是最大的困难之一,有类似困难的语言还有阿拉伯语、日语和韩语。

  微软在2012年首次演示了英文和中文普通话之间的实时语音翻译技术原型。经过多年的研究和投入,完成了普通话的语言模型,使Skype Translator的中文语音翻译在今天变为现实。不仅如此,得益于深层神经网络与微软成熟的统计机器翻译技术的结合,语音识别能力被进一步提高,翻译结果将更加准确。

  Skype Translator实时语音翻译技术原理

  Skype Translator构建于强大的机器学习平台之上。机器学习是指软件学习训练数据的能力。通过在预览版阶段获取的训练数据,加之其中的细微差别,软件就能够针对真实使用者的不同话题、口音与语言转换进行学习,实现更好的识别和翻译。

  Skype Translator的机器学习协议训练并优化语音识别和机器翻译任务,就像黏住这些元素的胶水一样,该协议促进对被识别的文本进行更好的翻译。这个过程包括去除造成不流利的字词(例如“啊”“嗯”以及重复措辞)、将文本分解成句子、添加标点符号和大小写识别。

Skype Translator实时语音翻译技术原理

  语音识别和机器翻译的训练数据来源多种多样,包括翻译的网页、配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。Skype Translator通过记录这些对话来分析对话文本并训练系统更好地“学习”各种语言。统计模型教会语音识别和机器翻译引擎如何将收集到的语音转换为文本信息,然后将文本信息转换为另一种语言。使用Skype Translator的用户都会在对话开始前得到清晰的系统提示,即对话将被录制并用于提高微软翻译和语音识别服务的质量。

  在准备好的数据被录入机器学习系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型。当用户说话时,软件会在该统计模型中寻找相似的内容,之后应用到预先“学到”的转化程序中,使得音频转换为文本再从文本转换成另一种语言。

  虽然语音识别一直是近几十年来的重要研究课题,但是该技术的发展普遍被错误率高、麦克风敏感度差异、噪音环境等因素阻碍。微软研究院将深层神经网络(DNNs)技术引入语音识别,极大程度地降低了错误率,提高了可靠性,最终使这项语音翻译技术得以更广泛地应用,包括Skype Translator。

  Skype Translator的机器翻译部分负责将文本从一种语言翻译成另一种语言。它采用了和必应在线翻译同样的技术:开创性地结合了句法和统计模型,此外更加有针对性地训练对话性语言。这点非常有挑战性,因为现在用来搭建文本翻译系统的典型训练数据都是优化过的清晰、结构严谨的书面语言。Skype Translator系统在包含必应翻译的丰富语言知识的同时,还额外加入了口语对话中出现的单词及短语。

  另外,Skype Translator创造了一个定制化的机器人程式来协调整个产品体验。如电话中的第三方一样,它负责建立电话连接、发送音频流至语音引擎获取翻译文本,并分别在双方结束说话时翻译其所说的内容。

  Skype Translator中文预览版功能更新

  相较于2014年12 月推出的英文和西班牙文之间的实时语音对话,本次推出中文预览版的功能更新如下:

  语音读取文字信息

  用户可以通过语音收听到对话方发送给自己的即时消息,语音的语言可以自选。

  持续性识别

  在对方发送语音信息期间可持续性的进行文字翻译。

  自动声量控制

  用户的对话方可以在实时语音翻译期间不间断地说话。同时,用户可收听到较高音量的语音翻译,对话方本身的语音信息呈现出较低音量,所以用户只要将注意力集中在语音翻译上即可,这可以保证翻译信息的收听流畅。

  语言翻译静音功能

  用户可以任意开启或关闭语音翻译的声音,并直接读取文字翻译。

  除了语音翻译现有的四种语言(英语,西班牙语,中文普通话,意大利语), Skype Translator 的即时通讯文本翻译更是在原有40多种语言的基础上加入了塞尔维亚语,波斯尼亚语,克罗地亚语,玛雅语和奥托米语。

5
相关文章