美剧

实时视频翻译完成!从今以后看美剧再也不用费力找双语版!

字号+作者:AI小智君 来源:AI小智君2017-11-29 我要评论() 收藏成功收藏本文

人工智能将替代许多基础劳动已是不争的事实,人工翻译就被认为是一个会被AI影响的行业。实际上,人工智能在神经网络机器翻译领域早就有了诸多应用。例如,网'...

实时视频翻译完成!从今以后看美剧再也不用费力找双语版!

人工智能将替代许多基础劳动已是不争的事实,人工翻译就被认为是一个会被AI影响的行业。实际上,人工智能在神经网络机器翻译领域早就有了诸多应用。例如,网易旗下翻译app中的语音对讲翻译和拍照翻译功能,就解决了语音和图像识别领域的翻译场景需求。近日,研究人员在智能翻译技术又有了新的突破,利用深度学习技术让翻译结果更将符合语境,并增添了视频实时翻译功能,以后看美剧再也不用找双语版了!

视频翻译背后的三大技术

最近,有团队把翻译应用场景拓展到了视频即时翻译领域。视频即时翻译能做什么?比方说,你肯定有犯愁找不到外国电影或者视频字幕的时候,特别是中文。但在视频翻译技术平台,机器能对视频进行语音识别并自动翻译,生成双语字幕,大大增强了用户的观看体验。

为了实现这个“almost黑科技”的视频听翻功能,该团队集成了三大国际前沿人工智能技术:

  • NMT神经网络机器翻译

  • 智能语音识别转写文字

  • 自动解析语音并即时切分时间轴

在这三大技术加持下,最终实现了视频的高精度语音识别和即时翻译功能,能够一键生成双语字幕,并自动压制在视频中。

实时视频翻译完成!从今以后看美剧再也不用费力找双语版!

“神经网络机器翻译”,相比于短句翻译,NMT可以利用云语言与目标语言所有信息,使整个翻译决策过程连续化全局化,使得译文更流畅和可读。

“语音识别转文字”,可根据后台的海量语料和场景模型,智能识别解析用户语音,具备强大纠错能力和智能推理能力。

“自动语音切轴”,通过判断讲话者语气来断句,智能切分时间轴,为字幕组听翻人员等需要制作输出字幕的用户群体极大地提高工作效率。

据悉,该团队的视频听翻中译英识别准确性已高于95%、翻译准确率高于85%;英译中识别准确率已高于80%、翻译准确率高于70%。随着人工智能的不断学习,其翻译准确率还将不断提升。

无需字典,机器可自动学会双语翻译

由于神经网络——一种从人脑中获得灵感的计算机算法,自动语言翻译已经取得了很大的进步。

但是,培训这样的网络需要大量的数据:用数以百万计的逐句翻译来演示人类如何做到这一点的。现在,有两篇新论文表明:神经网络可以学习在不需要并行的文本的情况下进行翻译——这是一项令人惊讶的进步,可以使许多语言中的文档更容易被理解。

想象一下,你给了一个人很多的中文书籍和阿拉伯语书籍,两者之间没有重复的,而且,这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的,对吧?“来自西班牙巴斯克大学(UPV)的计算机科学家Mikel Artetxe表示,他也是一项研究的第一作者。“但是,我们证明了计算机可以做到这一点。”

实时视频翻译完成!从今以后看美剧再也不用费力找双语版!

大多数机器学习——神经网络和其他计算机算法从经验中学习——是“受监督的”。计算机进行猜测,接收正确答案,并相应地调整其过程。在教授计算机进行英语和法语之间的翻译时,这种方法很有效,因为许多文件都存在于这两种语言中。不过,对于稀有语言,或者对于没有很多并行文本的语言来说,它的效果并不好。

它们所关注的是另一种方法:无人监督的机器学习。首先,每个都要构建双语词典,而且是在没有老师告诉他们猜测是否正确的情况下进行的。这是可能的,因为语言在方式上有很强的相似性。

举个例子,桌子和椅子是经常在所有语言中使用的单词。因此,如果计算机将这些共同事件描述为城市地图,就像一个巨大的公路地图,那么不同语言的地图就会彼此相似,只是名称不同而已。然后,计算机可以找将另一个地图叠加在一起的最佳方式。

两大新突破:反向翻译和去躁

这两篇新论文使用了相似的办法,也可以在句子层面上进行翻译。他们都采用了两种训练策略,即所谓的“反向翻译”(Back Translation)和“去噪”(Denoising)。

在“反向翻译”中,先把一种语言的句子大致翻译成另一种语言,然后再重新译回源语言。如果后译的句子与原语句不同,那么就需要调整神经网络,这样下次它们就会更近了。

实时视频翻译完成!从今以后看美剧再也不用费力找双语版!

“去噪”与“反向翻译”相似,但不是从一种语言转换到另一种语言,而是从一种语言(通过重新排列或删除单词)中添加噪声,再将其翻译回原文。这样,这两个方法就教会了网络更深层次的语言结构。

但是,这两个技术之间是有细微差别的。无监督神经机器翻译系统在训练期间会频繁地进行转换。而另一个由Facebook的计算机科学家Guillaume Lample创建的系统,在翻译过程中添加了额外的步骤。

两个系统在将一个句子从一种语言编码到另一种语言之前,会将该句编码成一个更抽象的表示形式,但是Facebook系统验证了中间的“语言”是真正的抽象的。Lample和Artetxe均表示,他们可以通过使用其他的技术来提高结果。

同样是将英语和法语的文本翻译为约3000万句话,两篇论文之间唯一可直接比较的结果在于两者均达到了约15分的双语评估分。这个数字不及谷歌翻译的40分,也不及人类的50分。 作者们表示,这些系统可以很容易地通过半监督的方式得到改进,即在他们的训练中增加几千个平行的句子。

这两个论文中技术的重合部分也说明,这是一个正确的方向,相信在不久的未来,研究人员将会运用最新的技术,彻底实现实时翻译,甚至可以完成一些硬件的改变:将系统植入于智能眼镜中,看到的都可以进行翻译,并给出一些解释和联想词,当然,这只是小智君的脑洞,不过机器翻译较其他领域确实领先了不少,我们共同期待未来的发展。

【本文系人工智能观察作者AI小智君原创,转载请联系作者并注明出处,更多精彩内容请持续关注】