【IT168 评论】视频操纵中的新AI技术为“talking head”这一表达赋予了新的含义。在今年的美国SIGGRAPH盛会上,一个国际研究小组展示了一项名为Deep Video Portraits(深度视频肖像)的新项目,向我们展示了面部表情合成的最新进展。
Deep Video Portraits项目依靠一种被称为生成式对抗网络(GAN)的AI技术,可以实现目标视频在源视频的基础上重新动画。与仅限于面部表情操作的方法相比,该项目将完整的3D头部位置、头部旋转、面部表情以及眼部细节从源参与者转移到目标参与者。顾名思义,GAN将两个完全对立的神经网络互相对撞,创造出一个真实的“人的脑袋”。通过自由重组源和目标参数,研发人员能够演示各种各样的视频重写,而无需明确的模拟头发、身体和背景。
简单的理解就是:一个神经网络生成内容,另一个神经网络对内容进行处理,然后两者相互作用产生一个现实的结果。它可以复制静态的背景,然后实现人物头部动画,并且经过测试,最终效果完全能够蒙蔽人眼。
研究人员表示,该项技术有很大的应用潜力,有很多的创造性应用。其中一个重要的应用就是影视行业的后期制作。一段视频拍摄完之后都需要经过后期的剪辑,一般需要调整演员的头部或者面部表情的定位以便更好的匹配场景的预期框架。因为视频是动态的,几秒钟的面部微表情调整就要修改数百帧的画面,即便是专业的后期工作者也需要很长的修改时间。Deep Video Portraits的算法技术就完全可以简化这一程序,通过它可以调整任一时间段的面目表情或者修改拍摄片段的构图错误等问题。
巴斯大学(University of Bath)运动捕捉研究中心的Christian Richardt在一份新闻稿中说到:“Deep Video Portraits可以在毫不费力的情况下就能产生真实的视觉效果。通过该项技术,演员的头部和他们的面部表情可以轻松被编辑,巧妙的改变整个场景框架,实现完美的故事情节。”
AI 技术并非“Deepfakes”!
Deep Video Portraits并不是第一个使用人工智能操作视频和音频的项目。在去年的SIGGRAPH大会上,来自华盛顿大学(University of Washington)的研究人员展示了他们的研究成果。他们使用了一种算法,可以将一段音频记录插入同一个人不同场景下的独立视频中。
为了展示该项技术,该研究团队制作了一段美国前总统巴拉克·奥巴马(Barack Obama)谈论恐怖主义等多个话题的场景,视频中呈现的是奥巴马先前从未发表过的言论,视频逼真到毫无破绽。他们将奥巴马的多个音频片段生成真实的口型,然后经过细节处理,覆盖到目标视频中的奥巴马面部。最后调整目标视频的时间,使得奥巴马的表情看起来更加自然,且与语言表达节奏相符。
前段时间一种叫做DeepFakes的人脸交换技术在网上引起了不小风波,该技术可以将图像或者视频中的一张脸换成另一张脸,而且效果非常逼真。2017年12月,一个名为“DeepFakes”的用户在Reddit上发布了一个“假视频”,他把《神奇女侠》主角盖尔·加朵(Cal Gadot)的脸嫁接到一个成人电影女星的身上,看起来几乎毫无破绽。这项看似非常卓越的技术却让研发者和参与者很为之懊恼,我们也不得不担忧这种技术带来的伪造问题。
打击AI创建的视频伪造
斯坦福大学(Stanford University)教授MichaelZollhöfer在新闻发布会上说到:“随着视频编辑技术的不断提高,我们必须更加严格的审视我们每天消费的视频,特别是那些没有现实依据的视频。”
为此,研究团队也正在训练同样的神经网络来识别视频伪造。他们建议开发人员对通过AI或者其他方式编辑过的视频进行水印添加,并明确指出场景中的哪些部分和元素被修改。
为了阻止不道德用户,美国国防高级研究计划局(DARPA)正在支持一个名为Media Forensics(媒体取证)的项目,该项目要求研究人员开发自动评估图像或视频完整性的技术,作为媒体取证平台的一部分。
Turek在接受《麻省理工技术评论》采访时表示,目前为止,该项目已经能够在GAN操纵过的视频中找到线索,我们可以检测到视频是否被修改过。在一项报告中,研究人员发现了在Deepfakes情况下的人是很少眨眼睛的,就如同FAKEAPP一样,AI始终是在静止的图片上训练的。但这种说法在Deep Video Portraits上似乎没有明显的效果,Deep Video Portraits似乎完美地匹配了源人物和目标人物的切换。
Zollhöfer表示,将来,数据取证领域将被赋予更多的关注,即便人类的眼睛无法识别视频的真伪,但技术也会带来更好的识别方法。