一心二用：高性能端到端语音翻译模型同时识别声音和翻译

喜欢

来源：互联网
|
2021-06-02
|
0 条评论
|
我要分享
|
T小字　 T大字

作者 | 董倩倩

编辑 | 刘冰一

自动语音翻译是指让机器完成从源语言的语音信号自动翻译生成目标语言的文本的过程，其基本设想是让计算机像人类译员一样充当持不同语言说话人之间翻译的角色。

道格拉斯·亚当斯（Douglas Adams）在小说《银河系漫游指南》（《The Hitchhiker’s Guide to the Galaxy》）里畅想了一种叫巴别鱼（Babelfish）的神奇生物。人们携带巴别鱼后，就能够在它的帮助下听懂任何异国语言。巴别鱼的名字来源于《圣经》里著名的故事“巴别塔”：人类想上天堂，开始建造叫做巴别塔的通天巨塔。上帝为阻止人类登天，迫使人类说不同的语言。由于沟通不畅，巴别塔计划最终半途而废。

那么是否可以将一种语言的语音直接转换为另外一种语言的文字呢？

这就是语音翻译需要解决的问题。语音翻译系统在观看国外影视作品、开展远程国际会议等场合有广泛的应用。

这篇文章给大家介绍AAAI2021上的一篇研究自动语音翻译的工作，《COnsecutive Decoding for Speech-to-text Translation》[1]，简称COSTT，作者来自中科院自动化所和字节跳动人工智能实验室。

论文地址：https://arxiv.org/abs/2009.09737

1 语音翻译面临的挑战

端到端建模缓解了传统级联方式的不足，但作为一个新兴的研究领域，目前被几大障碍制约，其中包括：1）缺少有标注的训练数据；2）跨模态翻译建模难度大等。

一方面，作为人工智能三大基石之一的数据，对深度学习技术的重要性好比汽油之于汽车，而目前可用于语音翻译模型训练的音频-翻译平行数据的量级只有几百小时。如何利用其他文本数据来辅助训练是考虑的方向。

另一方面，端到端模型需要将多个复杂的任务集成到一个模型中，模态交叉和协作也给学习器带来了负担。类比于人类的同传译员，工作时需要“分脑”机制，包括“听”、“理解”、“转换”、“输出”以及“监听”5个部分，机器同传的实现同样依赖于这些能力。语音翻译的研究工作道阻且长，但充满希望。端到端语音翻译方法因为有较大的应用前景，逐渐引起学术界和工业界的关注。

2 基于连续解码的联合建模框架

2.1 研究背景和动机

图1 上：级联系统的建模过程；中：基于编码器-解码器的端到端模型建模过程；下：COSTT的建模过程

此结构的核心优点是单独把解码器拿出来可以看作文本翻译模型，所以可以利用传统的文本翻译平行语料来预训练。这样就有效缓解了语音翻译语料不足的问题。

2.2 模型结构和细节

图2：COSTT模型框架

如图2，COSTT采用编码器（对应Feature2）-解码器（对应Feature1）的框架实现：编码器用于“声学-语义”建模过程（Acoustic-Semantic Phase，AS）；解码器用于“转写-翻译”的建模过程（Tran-Translation Phase，TT）。AS阶段接受语音特征，输出声学表征，并将声学表征编码为语义表征。TT阶段接受AS阶段输出的表征，输出目标文本序列。

COSTT提出了一种通过外部机器翻译平行数据来增强端到端语音翻译性能的方法。具体地，COSTT利用外部的文本翻译平行语料，通过遮蔽的损失函数来预训练TT阶段的参数，也就是在已知转写序列输入时使解码器预测翻译序列。通过预训练-联调的方式，有效缓解了本研究领域标注数据匮乏的问题。

图3 左：COSTT的“转写-翻译”建模过程（联调阶段）；右：COSTT的“转写-翻译”建模过程（预训练阶段）

由上文介绍可知，跨模态序列映射是语音翻译任务中的一大挑战，编码层计算压力较大便是这其中亟需解决的难点。由于音频特征的长度比源语言音素序列的长度大得多，考虑到解码器对编码器的交叉注意力需要关注的帧序列过长，COSTT在“声学-语义”建模阶段对声学编码进行了压缩，如图4。

具体做法是在编码层跳过以空白帧为主的时间步和合并重复的帧以减少编码序列的长度，理论上，在消除空白和重复帧的干扰情况下，模型的短时依赖关系学习能力会提高。为了完成声学编码的压缩，在“声学-语义”建模的中间层增加源语言转写对应的音素序列的监督信息，优化目标为连接时序分类损失函数（CTC）。

图4：COSTT的“声学-语义”建模过程

2.3 实验结果和分析

这篇论文在三个主流的语音翻译数据集上做了实验和分析，包括增广LibriSpeech英法、IWSLT 2018 英德、TED英中。其中，在Augmented Librispeech英法上的实验性能如表1。可以看出，COSTT可以使用比过去方法较少的训练数据和训练技巧的同时，取得更好的性能；同时，在利用额外MT数据作辅助训练时，COSTT得到了更高的翻译性能。

详细的实验结果和分析请参考原始论文。

表1 COSTT在Augmented Librispeech 英法上的实验性能

下面列举了COSTT在英法数据集上的样本测试结果（相应的音频文件可在附录中的项目地址获取）：分析表明，COSTT在解决漏译、错译和容错方面具有明显的结构优势。

case1中，基准模型缺失了对音频转写中“yes”的翻译，而COSTT预测了完全正确的翻译，在听完原始音频之后，猜测丢失翻译是由于在“doctor”和“yes”之间存在异常的发音停顿。

case2中，基准模型将音频转写中的“aboard”错误地翻译为“vers l&aposavant”（英文为“ forward”），但是COSTT可以根据正确的转写预测结果将其正确地翻译为“a bord”。猜测翻译错误的原因可能是音频片段的相似发音问题，从而使翻译模型的推理发生混淆。

3 总结

本文主要介绍了AAAI2021上的一篇工作，该工作提出了一种自动语音翻译模型，COSTT。实验和分析表明该方法在多个主流基准数据集上取得了明显的性能提升。

传送门

论文地址：https://arxiv.org/abs/2009.09737

代码地址：https://github.com/dqqcasia/st

项目地址：https://dqqcasia.github.io/projects/COSTT

火山翻译在线体验：http://translate.volcengine.cn/

参考文献

[1] Dong, Qianqian and Wang, Mingxuan and Zhou, Hao and Xu, Shuang and Xu, Bo and Li, Lei. Consecutive Decoding for Speech-to-text Translation. AAAI, 2021.

[2] B&aposerard, Alexandre and Pietquin, Olivier and Servan, Christophe and Besacier, Laurent. Listen and Translate: A Proof of Concept for End-to-End Speech-to-Text Translation. Arxiv, 2016.

赠书福利

本次联合【博文视点】为大家带来10本 《联邦学习实战》正版新书。

1、

2、在以下ὄ7ἿB文章留言区参与留言送书5本。

火爆全网的《迁移学习导论》出版了！杨强、周志华等专家学者力荐

由于微信公众号试行乱序推送，您可能不再能准时收到的推送。为了第一时间收到的报道，请将“”设为星标账号在看”。

代嫁皇后 http://www.cityruyi.com/lm-4/lm-1/485.html

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186