ICLR`22 Oral丨通院合作新研究:打通AI视觉和语言感知,构建多模态的统一语义表示





在本文要介绍的这项工作中,研究人员受到人类大脑“共享世界”的启发,深入地研究了视觉-语言表示的 “共享世界”,并提出了一个新的挑战—— 用无监督的视觉-语言语法归纳来同时提取视觉和语言的共享层次结构。本研究提出了一种名CLIORA的新模型,该模型基于两种模态的结构化输出,在很多任务上都取得了很好的效果,并朝着对多模态信息的语义理解迈出了明确一步。

目前这篇工作的研究论文已被人工智能顶级学术会议ICLR 2022录取为Oral,论文一作是 鲁汶大学在读博士生万博,通讯作者是 北京通用人工智能研究院前沿研究中心研究员韩文娟


1 研究启发——借鉴“对比学习”的策略


如下图所示,是一个“猫抓老鼠”的场景,用英文句子来描述这张图片,可以是“A cat is catching a mouse on grass”,也可以仅仅是“Cat catches mouse”,为了简化说明,我们忽略句子时态上的考虑,采用后面这个描述。


如果让传统的AI模型来学习,则需要使用“有监督学习”的方式。首先要在输入环节人工对这张图片做尽可能“细粒度”的标注。所谓“细粒度”就是说要在图片中尽可能给句子“cat catches mouse”的每个成分都打上标签,即用若干个矩形的“边界框”把图片中的“cat”、“cat catches”和“mouse”分别框起来,并加上注释。


而本研究提出的AI模型并没有采用这种“有监督学习”方式,也不需要“细粒度”的标注数据,而是借鉴了一种无监督的 “对比学习”的策略。

还是以这个“猫抓老鼠”的图片为例,如下图所示,当图片中的“老鼠”消失时,句子“Cat catches mouse”中的“mouse”也消失了,变为了“cat catches ”。这时AI就有可能会在“想”:“为什么图片中的老鼠和文本中的单词“mouse”一起消失了呢?这是不是意味着‘mouse’就对应图片中的老鼠?”。当然,目前的AI还远远不会思考,这里只是做一种拟人化假设。

同理,当图片中的“猫”消失时,句子“Cat catches mouse”中的“Cat catches”也消失了,只剩下了“mouse”,这时AI或许至少学到 “Cat catches”对应的是猫。


2 提出新任务——无监督视觉-语言语法归纳

类似上述用“对比学习”的方式学习“猫”和“老鼠”,本文提出了一种新的任务—— 无监督的视觉-语言语法归纳。在介绍这项新任务之前,我们首先提一下语法归纳的概念。

语法归纳是自然语言处理中的一项基本任务,旨在以短语结构树的形式捕获句子中的句法信息。如下图(a)所示,是英文句子“A man pushes a boy on a zip-line”的语法归纳图。可以看出,这个英文句子的主语(A man)、谓语(pushes)、宾语(a boy)、状语(on a zip-line)等不同的组成部分被短语结构树进行了归纳解析。


而本研究要挑战的这个新任务要做的就是——在仅仅给定输入为句子“A man pushes a boy on a zip-line”(没有给定短语)和下图图像(没有细粒度标注)的情况下,利用无监督的视觉-语言语法归纳,提取视觉和语言的共享层次结构,并给“该句子的所有短语和该图像的对应解析”的输出。

也就是想要下图这样一个结果,图中男人、推、男”等区域和“A man”,“pushes”,“a boy”等短语成分产生了很好的对应解析。这其实就把语言和视觉图像给跨模态地结合在了一起,并产生了一个“对齐”。




3 CLIORA模型介绍

本研究提出的新模型就是Contrastive Language-Image inside-Outside Recursive Autoencoder,简称CLIORA。它借鉴了DIORA模型[2]在上下文相关的语言语法归纳方面取得的成功,并在多模态场景中进行了扩展。





4 实验结果


什么意思呢?首先举例来说明第一点成功。下图是利用CLIORA模型对该图像和句子“A woman walk in the sand as she carries her shoes.”的一个无监督归纳对齐,可以看到,效果很好。

下图同样也是利用CLIORA模型对该图像和句子“A boy in red sweatshirt pretends to drive a tractor.”的一个无监督归纳对齐,效果同样很好。





5 总结和展望







