Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点
近日有关于云海玉弓缘 电视剧的话题受到了许多网友们的关注,大多数网友都想要知道云海玉弓缘 电视剧问题的具体情况,那么关于云海玉弓缘 电视剧的相关信息,小编也是在网上收集并整理的一些相关的信息,接下来就由小编来给大家分享下小编所收集到的与云海玉弓缘 电视剧问题相关的信息吧。
以上就是关于云海玉弓缘 电视剧这个话题的相关信息了,希望小编分享给大家的这些新闻大家能够感兴趣哦。
Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点
厉害了!作者将单一模型运用于三个不同领域的不同任务,结构简单且训练直观,还能有着出色的表现。
文 | 子龙
编 | 智商掉了一地
自Transformer横空出世,从NLP到CV,再到今天的多模态,无数基于Transformer的模型被应用于各类任务,似乎真的印证了当年文章的标题“Transformer is ALLyou need”。
然而,纯粹的NLP任务有BERT、RoBERTa,CV任务有ViT,多模态任务又有VLBERT、OSCAR,虽然都是基于Transformer的结构,但是仍然是针对不同任务设计不同模型,那么“万能”的Transformer能否构建出一个统合各类任务的模型,实现真的的一个模型解决所有问题呢?
今天文章的作者就关注到了当前各个模型的局限,提出了一个适用于 NLP+CV+多模态的模型FLAVA,可运用于三种领域共计35个任务,且都有着出色的表现。
论文题目:
FLAVA: A Foundational Language And Vision Alignment Model
论文链接:
https://arxiv.org/abs/2112.04482
1 介绍
文章标题中,作者称模型为“Foundational”,他们不希望借助各种奇技淫巧的Tricks,而是通过尽可能简单的结构,配合直观的的训练手段,达到涵盖NLP、CV、多模态的目的。
FLAVA基于三种不同的输入:
- 匹配的图片-文本
- 单独文本
- 单独图片
解决三个领域的问题:
- NLP:语言理解(如GLUE)
- 多模态:多模态解释(如VQA)
图片编码器(Image Encoder)
FLAVA 直接借用既有模型ViT的结构,同时仿照ViT的处理方法,分割图片进行编码。在ViT输出的隐状态上,FLAVA利用单一模态数据集中的图片进行Masked Image Modeling。首先,利用dVAE将图片转化为类似词向量的token;再参照BEiT,对masked隐状态进行分类,即利用周围图片分块,预测masked的图片属于dVAE划分的哪一类,这样在图片上也可以像BERT那样做mask modeling。
文本编码器(Text Encoder)
FLAVA在文本部分多处理就相对简单,作者采取常见的Masked Language Modeling,对一部分masked token进行预测,和其他方法对区别在于,FLAVA 没有采用BERT之类纯文本语言模型的结构,而是和图片编码器一样,使用了ViT的结构,不过因为是不同的模态,自然采用了不同的模型参数。
多模态编码器(Multimodal Encoder)
在图片编码器和文本编码器之上,FLAVA 添加了一层多模态编码器做模态融合,多模态编码器将前两者输出的隐藏状态作为输入,同样利用ViT的模型结构进行融合。
多模态预训练
在文本编码器和图片编码器中,FLAVA在单一模态上进行了预训练,在多模态预训练方面,FLAVA使用了三种多模态预训练任务:
- 对比学习:FLAVA利用图片编码器和文本编码器的隐藏状态,增大相匹配的图片-文本对之间的余弦相似度,减小非匹配的图片-文本对之间的余弦相似度。
- Masked Multimodal Modeling:与图片编码器上的MIM类似,只不过改为利用多模态编码器的隐状态进行预测。
2
效果
从上述模型细节可以看出,无论是模型结构,还是预训练任务,文本与图片之间高度对称,同时也设计也十分直观。接下来看看在35个任务上的表现。
图中下划线表示最优结果, 加粗表示在公开数据集上训练的最优结果。
从各个任务平均上看,FLAVA能够取得整体上的最优结果,多模态任务平均比CLIP高出2个百分点左右,整体平均比CLIP高出10个百分点左右。从具体任务上看,在不少任务上都取得了十分显著的提高,如STS-B数据集提高了69.69,MNLI数据集提高了46.81。
3 小结
不同于现有模型,FLAVA最大的特点,也可以说是创新点,在于作者实现了 将单一模型运用于三个不同领域的不同任务,而且都有着不错的效果,虽然FLAVA并没有奇迹般在所有任务上都达到SOTA,但是整体性能上并不弱于现有模型,同时有着更广阔的运用场景,模型设计也没有各种奇技淫巧,这对未来研究通用模型有着很大的启发。
致敬传奇:中国并行处理四十年,他们从无人区探索走到计算的黄金时代 | GAIR 2021
2021-12-09
时间的力量——1991 人工智能大辩论 30 周年纪念:主义不再,共融互生|GAIR 2021
2021-12-12
论智三易,串联通讯,贯通边缘,演进认知,汇于机器:听五位IEEE Fellow畅谈AI未来 | GAIR 2021
2021-12-25
新一代AI人才从哪里来,该往哪里去?| GAIR 2021院长论坛
2021-12-29
萌妹子是什么意思 http://www.cityruyi.com/lm-3/lm-4/8690.html- 标签:云海玉弓缘 电视剧
- 编辑:王智
- 相关文章
-
Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点
Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点 厉害了!作者将单一模型运用于三个不同领域的不同任务,结构简…
-
小米电视「大师」65”OLED画质实测:极致黑场 还原本真
武腾蓝 http://www.cityruyi.com/lm-3/lm-4/9944.html
- 拨开谎言和骗局,为你解读「元宇宙」
- 广汽丰田全新中型SUV威飒上市;腾讯vivo等企业起草电竞标准发布
- 荣耀Magic V、OPPO Find N、小米MIX FOLD,三款折叠屏到底咋选?
- 惠普发布新款OMEN显示器;雷蛇RGB口罩防护等级涉嫌虚假宣传
- 游戏不好玩还不让骂了?《2042》论坛或将短暂关停