口语翻译——AI过程的必经之路

本文主要是介绍口语翻译——AI过程的必经之路，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

人工智能的道路我们还有很长的路要走，我们期待一场未来与机器人的真正博弈，而这种博弈的结果是：人与机器的和谐共存，生活的更加便捷。从我们感受到的智能来举例，如果你的手机是iphone，那你一定不会对siri陌生，这个人机交互的神器，可以帮助我们读短信、介绍餐厅、询问天气、语音设置闹钟。当然，这都不算太高大上，真正让用户叫奇的是siri还能够不断学习新的声音和语调，提供对话式的应答。而siri所表现的种种智能，也不过是未来实现AI的冰山一角，庆幸的是我们或许能为未来的机器翻译，人机交互技术添砖加瓦，看到更好的智能应用。（如果大家对siri的技术想更深入的了解的话，推荐一篇文章给大家：http://www.infoq.com/cn/articles/zjl-siri ）

我们知道早期的机器翻译都有板有眼的，使用的语料也多来源于新闻，看起来似乎还不是那么接地气，但是看到大家常常使用的谷歌翻译、有道翻译（感兴趣的也可以试试紫冬口译中科院自动化所开发的）慢慢贴近生活，翻译的内容也越来越生活化，也就知道我们的技术也会越来越平易近人，这种贴近将不再满足于新闻报道、论文专利正统文字的翻译，而是日常交流口语的翻译。笔者这篇博客作为一个科普blog，大家一起来了解一下口语翻译的前世今生和关键技术。

口语翻译从总体上来看应该有三大模块组成：自动语音识别器、机器翻译引擎、语音合成器；显然传统意义上的机器翻译并不能完全适应这种口语式的翻译，只有当把翻译和识别看成一个整体，我们才能更好的服务于口语翻译的系统。因此在做翻译模块时，我们必须考虑到语音识别时存在的识别错误，我们也必须使得我们的翻译系统能更好的接受或者纠正这种错误，同时最好考虑到口语在语言学上的意义。不同于书面语，口语的句法相对松散，常常存在重复、冗余、省略、颠倒等多个“不规矩”的语法现象，而这一切也都会增加研究的难度。

列举几个典型的口语现象：

1.啊打九折行下礼拜下礼拜二三吧（重复）

2.有房间吗现在（颠倒）

3.那个可以预定吗行吗（冗余）

先来看看我们的前人们都做了些什么吧？1989年Speech Trans（美国CMU）作为第一个语音翻译实验系统与大家见面，此后的20多年期间，一匹针对不同领域的语音翻译系统相继问世，现在我们能看到的siri、google 翻译语音版、itranslate Voice 都已经慢慢被我们所熟知，相应的科技领域的探索也变成我们关注的热点：U-STAR（全球语音翻译前沿研究组织）组织的23国语音同声翻译技术（VoiceTra4U-M）应用也得到了成功的展示，语音翻译看起来也慢慢走下神坛。虽然语音翻译已经开始投入应用，但是现阶段的应用大多是限定领域的，如果想要具有真正意义上的通用性，我们还是会有更长的路要走的，我们希望我们未来的翻译可以完成知识库的自动扩充，我们希望我们未来的翻译可以实现人与人的无国籍的无障碍沟通。当然，这一切的实现，都不能脱离技术。

长期以来，使用的比较多的是一种面向中间表示的口语解析方法，采用IF格式理论，其基础是对话行为理论——即语言不是只用来陈述事实，而且还附载着说话人的意图。这样做的一个好处是，便于使用规则解析且能产生很好的准确率。缺点就是限定领域，且IF格式的使用构建耗费巨大。这里举个例子来说明IF格式的含义（以旅馆预定的语料为例）：

明天我想要预定一个单人间

IF：c：give-information+reservation+room（room-spec=（room-type=single，quantity=1），reservation-spec=（time=（relative-time=tomorrow）））

表示含义：说话人为c，句子的意图是提供信息，主题是预定房间，而房间的类型为单人间，数量为1，预定的时间为tomorrow。

除了这个方法之外，还可以使用基于实例的方法，目前比较好的方法是基于统计的方法。然而回归问题的本质，目前的语言翻译核心大体相似——基于短语、基于层次化短语、基于句法，导致翻译结果的差异往往集中在语料的不同，以及输入格式的质量的差异上。因此笔者认为，如果核心的翻译过程不容易做改进的时候，不如转念想想语料的预处理该怎么去做，将会对我们的口语翻译有很大的帮助的。O(∩_∩)O

最后附图一张，希望机器翻译越来越好~