您的位置  油气能源  非常规气

仅用480块GPU就跑出万亿参数!达摩院发布全球首个“低碳版”巨模型M6

  • 来源:互联网
  • |
  • 2021-06-26
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

仅用480块GPU就跑出万亿参数!达摩院发布全球首个“低碳版”巨模型M6

报道

编辑 | 陈大鑫

身为一名「钢铁直男」,我想每天都穿新款的换着花样来的卡通男士连衣裙

那不如让 AI 模型来帮忙生成吧:

风格可盐可甜,还可搞怪,不错嘛,满足了老夫一把少女心

这个 AI 模型还能干啥?

大家都知道此前OpenAI的 DALL·E 模型也可以生成图片,但是清晰度只有256휥6,而这个 AI 模型则将图片生成清晰度提升至1024휐24!

这个模型还可以生成高清服装设计图的示例,其设计和图案均为AI创作:

那这么厉害的 AI 模型是如何训练出来的呢?

答案很简单,仅仅使用480块GPU!

即能训练出规模达人类神经元10倍的万亿参数多模态大模型,且与英伟达、谷歌等海外公司实现万亿参数规模相比,能耗降低超八成、效率提升近11倍。

没错,这就是今日阿里巴巴达摩院发布的“低碳版”巨模型 M6,它在全球范围内首次大幅降低了万亿参数超大模型训练能耗,更加符合业界对低碳、高效训练AI大模型的迫切需求。

大模型将成下一代人工智能基础设施,这在AI圈内已成为共识。与生物体神经元越多往往越聪明类似,参数规模越大的AI模型,往往拥有更高的智慧上限,训练大模型或将让人类在探索通用人工智能上更进一步。然而,大模型算力成本也相当高昂,很大程度阻碍了学界、工业界对大模型潜力的深入研究。

针对这一难题,达摩院联合阿里云机器学习PAI平台、EFLOPS计算集群等团队改进了MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数、混合精度训练、半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。

具体而言,相比此前英伟达使用3072 A100 GPU实现万亿参数、谷歌使用2048 TPU实现1.6万亿参数大模型,此次达摩院仅使用480卡V100 32G GPU就实现了万亿模型M6,节省算力资源超80%,且训练效率提升近11倍。

今年3月,M6千亿模型发布时,OpenAI前政策主管Jack Clark公开点评道:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”

此次,M6万亿模型又带来哪些新东西?

1 M6万亿大模型有哪些亮点?

  • AI大模型更低碳高效:提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。对比Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6万亿),阿里此次仅使用480卡V100 32G GPU就实现了高效的万亿M6模型的训练,能耗降低超过8成,且效率提升近11倍。
  • AI创造力再次升级:M6拥有超越传统AI的认知和创造能力,擅长绘画、写作、问答,在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E生成图片清晰度达256휥6,M6将图片生成清晰度提升至1024휐24。更大的模型带来了更强的创造力和可直接工业化应用的前景。
  • AI大模型首次商用:M6成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用,M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。M6还已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。

2 M6万亿模型有哪些关键技术突破?

从开始研发大模型起,阿里M6团队便格外重视GreenAI,即提升超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。

针对大模型训练资源消耗过高的难题,达摩院联合阿里云机器学习PAI平台、EFLOPS计算集群等团队改进了MOE(Mixture-of-Experts)框架,创造性地通过专家并行策略,大大扩增了单个模型的承载容量。同时,通过加速线性代数、混合精度训练、半精度通信等优化技术,达摩院团队大幅提升了万亿模型训练速度,且在效果接近无损的前提下有效降低了所需计算资源。

他们首先更细致地探索了MoE在预训练模型中的各类超参对模型收敛速度和精度的影响,包括top-k的k值、capacity对load balance的影响、load balance本身对效果的影响。基于这一系列的观察,他们提出了一种Expert Prototyping的方法,使用分组MoE的形式,让不同组的MoE通过组合能在参数规模不变的情况下,增大模型的表达空间。

他们观察到在不同规模的模型上,分组MoE都能取得比baseline更好的效果。相比于单组switch routing的串行实现方式,分组MoE可以达到更好的加速效果,并且我们发现他在更大规模的模型上优势会变得更大,如下图:

在机器方面,M6团队最终采用的是在Hippo混布集群搭建模型的方案,利用的是480个单机单卡的NVIDIA V100-32GB的机器,通信为带宽为100Gb RoCEv2的RDMA网络网络,在XDL上提交任务。

3 M6已有哪些商业化应用?

AI设计师与智能新制造:经过试用期,M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长,M6设计的能力还将不断进化。

结合阿里的电商背景,M6团队希望通过M6大模型优异的文到图生成能力,和电商领域产业链深度融合,挖掘潜在的应用价值。具体来说,他们已深入到从服饰设计&生成、线上展示&测款的完整链路,期望利用M6的高清图像生成能力,缩短服饰企业的存货周转率,帮助商家对潮流趋势有更好的掌控力和更快速的反应力。

以下为M6参与新款服装设计的流程图:

工业级文案生成:除文生图外,M6也已具备可在工业界直接落地的图生文能力,能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。

在参数规模不断升级的过程中,达摩院团队发现,M6的认知和表达能力也在不断提升:它能够观察到图片中更丰富的细节,并使用更精准的语言进行表达。

比如,在对下述风衣图片的描述中,更大参数规模的M6相比基础版,注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节,生成文案信息量更大、措词更精准。

跨模态搜索:M6对图片、文本的精准理解及匹配能力,已在支付宝、手机淘宝中初步试应用,有望帮助提升用户跨模态搜索的效果。

M6团队观察到,淘宝上有很多长尾词,主要因为很多95后、00后用户有非常特别的商品需求,这些需求带来了很多长尾的搜索词。比如,有用户可能想要一个表面凹凸的咖啡杯,也就是日式风格凹凸咖啡杯,因为商家一般不会把这样的细节写在商品名和描述中,单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前M6已建立从文本到图片的匹配能力,未来,或将建立从文字到视频内容的认知能力,为搜索形态带来变革。

4 M6团队接下来的规划?

达摩院资深算法专家杨红霞表示,“接下来,M6团队将继续把低碳AI做到极致,推进应用进一步落地,并探索对通用大模型的理论研究。”

M6团队主要关注方向如下:

  • 继续将GreenAI做到极致,让更多学者和企业能参与对下一代AI的研究、应用。
  • 继续推进大模型应用落地,让下一代AI进入包括社会公益在内的更多领域。
  • 优化通用模型下游任务训练,让大模型在更多任务上拥有更好表现。
  • 探索对通用大模型的理论研究,期望揭开“How it works”。
  • 探索大模型训练的软硬件结合,启发下一代人工智能硬件设计。

今年以来,阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型M6外,阿里巴巴达摩院近期还发布了中文社区领先的语言大模型PLUG,实现了在AI大模型底层技术及应用上的深入布局。

M6: A Chinese Multimodal Pretrainer, KDD 2021 (千亿参数)https://arxiv.org/pdf/2103.00823.pdf

Exploring Sparse Expert Models and Beyond (万亿参数)https://arxiv.org/abs/2105.15082

由于微信公众号试行乱序推送,您可能不再能准时收到的推送。为了第一时间收到的报道, 请将“”设为星标账号在看”。

龙组之修罗传说 http://www.cityruyi.com/lm-4/lm-1/1560.html
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
  • 标签:美国唐人社区导航
  • 编辑:王智
  • 相关文章