您的位置 油气能源非常规气

CVPR 2022丨用“大白话“精确抠图！OPPO研究院提出CRIS框架，开启多模态预训练新进展

喜欢

来源：互联网
|
2022-04-17
|
0 条评论
|
我要分享
|
T小字　 T大字

深度学习打天下的时代，多模态被众多学者“押注”为开启下一代人机交互的钥匙。尤其是OpenAI的CLIP模型，让人类见识了人工智能（AI）“打通”语言—视觉桎梏的威力。

虽然CLIP显著提升了一些图像级多模态任务，例如图文检索、视频文字检索等，但在像素级别多模态任务中表现不佳。例如“大白话抠图”这一图像指代分割（Referring Image Segmentation）领域。

如下图所示，当我们对着CLIP输入“一个金发的男孩，穿着蓝色的夹克”，简单微调的CLIP表现差强人意。

图注：CLIP抠图能力展示-Naive是指简单微调CLIP后的模型

近日，悉尼大学、墨尔本大学、OPPO研究院与快手科技等的研究员联合开发了CRIS，一种基于CLIP驱动图像指代分割框架，通过更加细粒度的多模态信息交互，对齐文本-像素的表征，完美实现“大白话抠图”。

效果如下：

输入：前头的那只斑马

图注：CILP与CRIS效果对比

准确聚焦多模态匹配更细粒度的视觉概念

CRIS框架能够利用CLIP模型的知识来进行图像指代分割，具有强大的跨模态匹配能力。通俗而言，该框架能够准确聚焦“大白话”指定的图像区域。目前该项工作已被CVPR 2022收录。

实验表明，CRIS能够理解包含更多信息和重点的复杂句子，并同时“感知”到相应的对象。

1.本文的任务

让AI“顺畅”抠图

将语言与像素级别的视觉特征进行匹配，并学习更细粒度的视觉概念。

2.本文的创新

1.引入视觉-语言解码器，捕捉像素级特征的全局上下文关系，并将单词级的文本特征传播到像素级特征。

2.引入文本-像素的对比学习，对齐语言特征和对应的像素级特征，“筛出”不相关的像素级特征。

3.与CLIP有何不同

图注：CLIP与CRIS思想对比

CLIP遵循“双塔”架构，通过对比学习将图像和文本的特征在表征空间中进行对齐，从而学习到丰富的视觉概念。

CRIS能将细粒度的语义信息进行跨模态传递，并通过融合所有的像素级视觉特征与全局文本特征，采用对比学习将文本和相关的像素级特征拉近，同时，将无关的像素特征推远。

超越主流架构完美解决CLIP不够细致问题

总体而言，CRIS模型有三部分组成：图像&文本特征提取、视觉—语言解码器、文本—像素级对比学习。

图注：CLIP驱动的图像指代分割框架

在图像和文本特征提取阶段，研究员设计了图像编码器、文本编码器、跨模态Neck等几部分。在图像编码器中，使用了ResNet的第2-4阶段进行提取多重视觉特征；文本编码器是指借用GPT-2的Transformer模式提取文本特征；而跨模态Neck的作用是通过融合文本和视觉特征获得多模态特征。

视觉—语言解码器用来将语义信息从文本特征传递到视觉特征。解码器由n层网络组成，按照 Transformer 的标准架构，网络的每一层都包含一个多头自我注意层、一个多头交叉注意层和一个前馈网络。

文本特征和视觉特征作为输入，并在两个特征中加入位置编码进行捕捉位置信息。在训练过程中，首先将视觉特征输入多头自我注意层，目的是为了获得全局信息，即”进化“后的视觉特征。随后，采用多头交叉注意层将细粒度的语义信息”传递“到进化的视觉特征中，得到多模态特征。

文本—像素级对比学习用文本特征和像素级视觉特征的交互，获得细粒度的多模态信息。此举是为了解决CLIP不够“细致”的问题。

具体而言，先将“全局”文本和图像用下面的公式进行“改造”，其中，和是偏差，和是可学习的矩阵，用来将文本和图像转换成相同特征维度：

给定变换后的文本特征和像素级特征，定义文本—像素对比损失函数：

其中P和N表示正确样例（ground truth）中的“1”和“0”类，|P∪N|是基数（cardinality），%u3C3是Sigmoid函数。最后，为了得到最终结果，将重塑为（H和W是原始图像的高和宽），并将其上采样至原始图像大小。

全方位超越SOTA 定性&定量“双料”实验着力论证

为了评估框架的有效性，研究员在三个主流的数据基准上进行了实验。具体包括RefCOCO、RefCOCO+、G-Ref。

实验过程中，用CLIP初始化文本和图像编辑器，用ResNet-50设计消融实验，并使用学习率 %u3BB = 0.0001的Adam优化器训练，对网络进行 50 迭代轮次 (epoch) 的训练。在评价指标层面，采用IoU和 Precision@X两个主流指数评估方法有效性。

1.定量实验

与当前SOTA（state-of-the-art）方法对比结果如下表所示，CLIP驱动的图像指代分割在三个数据获得了更优的性能指标。例如在G-Ref数据集，比定位分割（Locate then Segmentation）在IOU上提高了5%。

2.定性实验

CLIP驱动的图像指代分割会提升实际体验么？如下图，研究员根据不同的设置，展示了可视化结果：没有对比学习和视觉-语言解码器的基线网络（c图），有着准确率更差的分割效果；单独缺少编码器（d图）和对比学习（e图）也会在某些区域出现“混沌”。

图注：不同设置下的可视化实验

3.消融实验

首先将删除文本—像素级对比学习与视觉—语言解码器的框架作为基线，然后将对比学习引入框架，实验结果如下表所示，IoU指标分别提升了1.98%、2.98% 和 3.43%；引入视觉—语言解码器之后，IoU也有一定幅度的改进。改进的原因，可能是这两个“组件”能帮助模型找到更多的信息，并将其迁移到更准确的像素级视觉特征中。

表注：模型在三个基准数据集上进行消融实验的结果

此外，还对视觉-语言解码器层数的作用进行了探究。如上表所示，当层数设置为n=1时，模型无法充分利用视觉和语言的多模态信息；当层数设置为n=4时，可能有过拟合的风险。因此，考虑到性能和效率，研究员将层数n = 3设置为默认值，且获得了准确率上的改进。

总结

本文研究的图像指代分割问题是计算机视觉与自然语言处理交叉领域中的一个重要问题，具有广泛的实际价值和长远的应用前景。在本文中，研究员通过创新CLIP结构，使得AI能够更准确理解图像与文本两种模态的数据。

未来，OPPO会继续将CRIS扩展到更多的需要应用图像指代分割问题的领域，例如在智能家居层面，帮助构建通过“喊话”就能准确命令家居机器人的系统。

OPPO 研究院智能感知与交互研究部计算机视觉算法岗位（全职和实习生）热招中！简历投递邮箱：liyaqian@oppo.com

足球规则大全图解 http://www.cityruyi.com/lm-4/lm-1/25976.html

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186