您的位置  油气能源  非常规气

直播预告|今晚七点,阿里巴巴ACL 2021分享会(三)

  • 来源:互联网
  • |
  • 2021-07-09
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

直播预告|今晚七点,阿里巴巴ACL 2021分享会(三)

ACL由国际计算语学协会主办,是自然语言处理(NLP)与计算语言学领域最高级别的学术会议,被中国计算机学会(CCF)列为A类国际学术会议,涵盖语言分析、信息抽取、机器翻译与自动问答等各个领域。本届ACL共收到3350篇论文投稿,其中主会论文录用率为21.3%。

ACL由国际计算语学协会主办,是自然语言处理(NLP)与计算语言学领域最高级别的学术会议,被中国计算机学会(CCF)列为A类国际学术会议,涵盖语言分析、信息抽取、机器翻译与自动问答等各个领域。本届ACL共收到3350篇论文投稿,其中主会论文录用率为21.3%。

本场是阿里巴巴 ACL 2021分享会第三期,5位来自达摩院-自然语言智能实验室的小伙伴分享他们的收获。5位嘉宾分享完毕,将进入互动问答环节,欢迎大家参与提问交流!

直播时间

7月8日(周四) 19:00

直播地址

活动流程

分享时间:19:00-19:15

分享嘉宾:林欢

分享主题:《Towards User-Driven Neural Machine Translation》

分享时间:19:15-19:30

分享嘉宾:刘鑫

分享主题:《Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation》

分享时间:19:30-19:45

分享嘉宾:杨可心

分享主题:《POS-constrained Parallel Decoding for Non-autoregressive Generation》

分享时间:19:45--20:00

分享嘉宾:张雅婷

分享主题:《RepSum: Unsupervised Dialogue Summarization based on Replacement Strategy》

分享时间:20:00--20:15

分享嘉宾:张志锐

分享主题:《Adaptive Nearest Neighbor Machine Translation》

问题解答环节:20:15-20:45

分享概要

享嘉宾:林欢 达摩院-自然语言智能实验室

分享主题:《Towards User-Driven Neural Machine Translation》

论文摘要:好的翻译不仅应在语义上忠实于原始内容,还应体现出源文本中蕴含的用户特征。目前的线上神经机器翻译(NMT)系统能够将这些用户特征(例如,主题偏好,风格特征和表达习惯)保留在用户行为(例如,历史输入)中。但由于以下原因,当前的NMT系统很少考虑用户行为:1)在零资源场景中对用户画像建模的困难;2)缺少用户行为标注的平行数据。为了填补这一空白,我们引入了一种称为用户驱动的NMT框架。具体地,我们提出了一种基于用户行为的缓存模块和一种用户驱动的对比学习方法,使NMT系统具有在零资源场景下根据历史输入中建模潜在用户特征的能力。此外,我们建立了第一个带有用户行为标注的中-英平行语料库UDT-Corpus。实验结果证明,我们所提出的用户驱动NMT可以生成特定用户相关的译文。

论文主要的技术创新点、以及对于行业的影响:

该工作介绍个性化翻译这样一个全新的方向,并公开了训练数据和我们的性的架构,具有很强的研究意义和应用价值,体现了阿里NLP的特色。同时该方向包含小样本学习、在线学习、领域自适应、上下文建模、差异化生成等多个子问题,后续仍有很大的改进和研究空间,我们作为由零到一的研究会有很高的影响力,对翻译以外的其他机器学习任务也有借鉴意义。

分享嘉宾:刘鑫 达摩院-自然语言智能实验室

分享主题:《Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation》

论文摘要:预训练-微调范式的一个局限性在于其固定的词表带来的不灵活。这一局限削弱了预训练模型应用至自然语言生成任务时的效果,尤其是上下游任务的子词分布存在着明显差异时。为了解决这一问题,我们在传统预训练-微调范式基础上引入了一个词嵌入转移步骤。具体而言,我们设计了一种即插即用的词嵌入生成器用于生成任意输入词语的词嵌入,这一过程生成器将参照与其形态相似的预训练词表词嵌入。因此,下游任务中与上游任务不匹配词语的词嵌入可以被有效地初始化。我们在基于多个生成式任务的预训练-微调范式下进行了实验。实验结果和分析表明我们提出的策略能够保证上下游任务词表的自由迁移,进而在下游生成任务上提升了模型效果。

论文主要的技术创新点、以及对于行业的影响:

Pretraining-Finetune是学术界和工业界的热点,然而大多数工作仅关注预训练部分,却忽略了其在下游任务中领域适应性不佳、灵活度不够等不足。我们首次定义了词嵌入迁移,解决了增量式学习、领域适应、知识迁移等场景长久以来上下游词表不匹配的问题,在保证模型性能的前提下极大地增强现有模型的灵活性,有望成为NLP模型中的基础模块,同时为大规模预训练模型在产业界的落地提供解决方案。

分享嘉宾:杨可心 达摩院-自然语言智能实验室

分享主题:《POS-constrained Parallel Decoding for Non-autoregressive Generation》

论文摘要:多模语义问题已成为现有非自回归生成(NAG)的主要挑战。常见的解决方案往往是通过自回归生成重建训练数据集(以下简称“教师AG”)来进行序列级知识精馏。这些方法的成功很大程度上取决于一个潜在的假设,即教师AG优于NAG模型。然而,我们在实验中发现,这种假设并不总是适用于文本生成任务,如文本摘要和故事结局生成。为了解决NAG的多模语义问题,我们提出将语言结构(尤其是词性序列)纳入NAG推理,而不是依赖于教师AG。更具体地说,我们提出的词性标注序列(POS)约束并行解码方法POSPD旨在提供一个特定的POS序列来约束解码过程中的NAG模型。我们的实验表明,与知识精馏相比,POSPD在4个文本生成任务上不断提升NAG模型性能。这一观察结果证实了探索知识精馏替代方案的必要性。

论文主要的技术创新点、以及对于行业的影响:

首次实验上显示了当前大部分非自回归模型所依赖的知识蒸馏方法并不一定在广泛的文本生成任务上有效,因此需要寻找更适宜的替代方案。与此同时,提出的POSPD方法显示了引入语法结构信息对于非自回归生成任务具有显著的帮助。总的来说,我们不应该忽略我们在使用神经网络方法之前所作的努力。在处理自然语言处理问题时,应始终考虑语言特征。

分享嘉宾:张雅婷 达摩院-自然语言智能实验室

分享主题:《RepSum: Unsupervised Dialogue Summarization based on Replacement Strategy》

论文摘要:在对话总结领域,由于缺少训练数据,有监督的摘要生成方法通常很难从对话上下文中学习重要信息。由于言语有限且对话与其摘要之间的巨大差异,仅通过利用语义信息或自动编码器策略(即句子压缩)对文档进行无监督摘要的几项工作,在对话场景是无法适用的。在本项研究中,我们提出了一种新颖的无监督的策略来应对这一挑战,该策略源于以下假设:优良的摘要近似替代了原始对话,并且对于辅助(自我监督)任务(例如:对话生成)它们大致等效。本文所提出的策略RepSum用于在随后的第n个对话的生成和分类任务的指导下生成抽取式摘要和生成式摘要。该方法在各种数据集上进行的大量实验证明,与其他无监督方法相比,该模型具有显著优越性。

论文主要的技术创新点、以及对于行业的影响:

无监督对话摘要生成模型针对无标注数据的冷启动问题有显著效果,尤其是在较为敏感的领域,通常很难拿到大量数据进行标注,采用无监督的方式能够首先拿到不错的效果,这大大提高了业务推进的可能。另外从技术先进性角度,我们对比了当前流行的几个无监督摘要模型,我们从效果方面较这些方法有明显提高。

分享嘉宾:张志锐 达摩院-自然语言智能实验室

分享主题:《Adaptive Nearest Neighbor Machine Translation》

论文摘要:近邻机器翻译已成功地将预训练的神经机器翻译模型与领域相关的词级别K-近邻检索结果相结合,从而在无需模型训练的情况下实现领域适应。然而,当前采用的K-近邻算法对于每次检索请求仅考虑相同个数的近邻,使得模型在检索结果存在噪音的情况下容易生成错误的翻译。本文提出自适应近邻机器翻译来动态决定每次检索请求的近邻个数。我们通过引入一个轻量的Meta-k网络来实现这一点,并且该网络仅需少量样本进行训练。在四个基准机器翻译数据集上,我们证明该方法能够有效过滤检索结果中的噪声,同时显著地优于近邻机器翻译模型。更值得注意的是,在一个领域上学习的 Meta-k网络可以直接应用于其他领域和实现性能提升,这证明我们方法的通用性。

论文主要的技术创新点、以及对于行业的影响:

近邻机器翻译已证明其能在不借助模型训练的条件下实现领域适应的能力。该能力在快速领域适应、个性化翻译、交互式翻译等场景具有很强的研究意义和应用价值。该工作进一步提出了自适应近邻机器翻译来解决近邻机器翻译存在的检索问题,并在多个测试集上证明我们提出的方法能够有效过滤检索结果中的噪声,从而显著地提升翻译性能。

https://live.yanxishe.com/room/954

官网链接:http://www.ijcai-saia-yes.org.cn/#/agenda

由于微信公众号试行乱序推送,您可能不再能准时收到的推送。为了第一时间收到的报道, 请将“”设为 星标账号在看”。

纪湘是谁 http://www.cityruyi.com/lm-4/lm-1/8841.html
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186