AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录
AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录
2021-08-12 14:31·
AI 科技评论报道
编辑 | 陈大鑫
给大家出一道视觉问答题:在下面这张图片中,根据有礼服装饰的小熊玩具照片推理出这些玩具用来做什么的?
一个可能的答案或许是“婚礼”~
这道题对人类而言太简单不过了,那么对 AI 来说呢?
AI 在这视觉问答方面能和人类相比吗?
答案来了——历时6年,在机器视觉问答领域,第一位得分超越人类的AI选手诞生了!
图注:达摩院AliceMind在VQA Leaderboard上创造首次超越人类的纪录
比较难得的是,3年前,让中国AI在文本理解领域历史性超越人类的,同样是达摩院AI研究团队。
1 VQA是什么?
近10年来,AI技术保持高速发展,AI模型已在多个任务和技能上达到超越人类的水平,比如在游戏领域,强化学习智能体 AlphaGo 2016 年击败了世界顶尖棋手李世石;在视觉理解领域,以 CNN 为代表的卷积类模型 2015 年在 ImageNet视觉分类任务上超越了人类成绩;在文本理解领域,2018年微软与阿里几乎同时在斯坦福SQuAD挑战赛上让 AI 阅读理解超越了人类基准。
然而,在视觉问答VQA(Visual Question Answering)这一涉及视觉-文本多模态理解的高阶认知任务上,AI 过去始终未取得超越人类水平的突破。
“诗是无形画,画是有形诗。”宋代诗人张舜民曾如此描绘语言与视觉的相通之处。随着深度学习、视觉理解、文本理解等领域高速发展,自然语言技术与计算机视觉交融逐渐成为多模态领域重要的前沿研究方向。其中,VQA是多模态领域挑战极高的核心任务,解决VQA挑战,对研发通用人工智能具有重要意义。
为鼓励攻克这一难题,全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与,形成了国际上规模最大、认可度最高的VQA数据集,其包含超20万张真实照片、110万道考题。
VQA 是AI领域难度最高的挑战之一。在测试中,AI需根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。
今年6月,阿里达摩院在 VQA 2021 Challenge 的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。两个月后,达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线80.83%。
这一结果意味着,AI 在封闭数据集内的 VQA 表现已媲美人类。
面对更开放的现实世界,AI一定会遇到新的挑战,需要喂更多的数据、进一步提升模型。但和 CV 等领域的发展一样,这一结果依然具有标志性意义,相信VQA技术在现实中的表现提升只是时间问题。
图注:VQA技术自2015年的进展
2 VQA分数超人类如何诞生?
VQA挑战的核心难点在于,需在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解,即在统一模型里做不同模态的语义映射和对齐。
据了解,为了解决VQA挑战,达摩院语言技术实验室及视觉实验室对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括:
4.采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。
其中自研的多模态预训练模型E2E-VLP,StructuralLM已被国际顶级会议ACL2021接受。
模型大图如下:
这不是达摩院第一次在 AI 关键领域超越人类。
早在2018年,作为业界最早投入预训练语言模型研究的机构之一,达摩院前身IDST曾在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,轰动全球。
3 VQA 考高分有什么用?
达摩院语言技术实验室负责人司罗曾表示,“人工智能分为计算智能、感知智能、认知智能、创造智能四个层次。”
本次,AI 在视觉-文本跨模态理解及推理上媲美人类的水平,意味着 AI 向认知智能迈进了关键一步。
在阿里平台上,达摩院VQA能力已实现较大范围工业应用落地,典型VQA应用包括:1、商品图文信息理解;2、直播视频交互;3、多模态搜索。
4 VQA考卷有多难?
对单一AI模型来说,VQA 考卷难度堪称“变态”。
比如,在下面这道VQA考题中,根据男人帽子上的字母“B”+问题“男人的橄榄球帽代表哪只球队?”
AI 要推理出答案“波士顿球队”。
根据士兵玩具和战斗场景+问题“图中玩具人的IP出自哪部电影??”AI要推理出答案“星球大战”。
6年前,这些问题对AI来说难度极高。经过多年的技术积累,达摩院AliceMind在VQA测试中拿到了超81分的成绩,基本达到普通人看图问答的水准。
相信AI未来将给人类带来更多惊喜。
这里展示一些部分 AliceMind 回答正确的VQA挑战示例:
百科知识:
人文地理:
生活技能:计数、读钟表、识颜色、识路牌
体育娱乐:
视觉推理:
好家伙,AI 真是变的越来越厉害了,人类危险了(吗)......
论文链接:
1. E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL2021
2. A Structural Pre-trained Model for Table and Form Understanding, ACL 2021
3. SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels
VQA示例链接:
https://nlp.aliyun.com/portal#/multi_modal
达摩院AliceMind开源链接:
https://github.com/alibaba/AliceMind
由于微信公众号试行乱序推送,您可能不再能准时收到的推送。为了第一时间收到的报道, 请将“”设为星标账号在看”。
重生黑道女王 http://www.cityruyi.com/lm-4/lm-1/8678.html- 标签:后字笔顺
- 编辑:王智
- 相关文章
-
AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录
AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录 2021-08-12 14:31· AI 科技评论报道 编辑 | 陈大鑫 给大家出一道…
-
到 2025 年,中国的 STEM 博士毕业生人数将是美国的两倍!就问你“慌”不?
到 2025 年,中国的 STEM 博士毕业生人数将是美国的两倍!就问你“慌”不? 2021-08-11 21:10· 作者 | 陈彩娴 编辑 | 青暮 近日,美国…
- MDFR:基于人脸图像复原和人脸转正联合模型的人脸识别方法
- 宾夕法尼亚大学李旻辰荣获SIGGRAPH 2021最佳博士论文奖
- 充电续航 | RLChina 2021 强化学习暑期课报名啦
- 中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
- 屏下前摄新机盘点:三星Galaxy Z Fold3、中兴Axon30、MIX4啥区别