您的位置 油气能源非常规气

仅用480块GPU就跑出万亿参数！达摩院发布全球首个“低碳版”巨模型M6

喜欢

来源：互联网
|
2021-06-26
|
0 条评论
|
我要分享
|
T小字　 T大字

报道

编辑 | 陈大鑫

身为一名「钢铁直男」，我想每天都穿新款的换着花样来的卡通男士连衣裙

那不如让 AI 模型来帮忙生成吧：

风格可盐可甜，还可搞怪，不错嘛，满足了老夫一把少女心

这个 AI 模型还能干啥？

大家都知道此前OpenAI的 DALL·E 模型也可以生成图片，但是清晰度只有256휥6，而这个 AI 模型则将图片生成清晰度提升至1024휐24！

这个模型还可以生成高清服装设计图的示例，其设计和图案均为AI创作：

那这么厉害的 AI 模型是如何训练出来的呢？

答案很简单，仅仅使用480块GPU！

即能训练出规模达人类神经元10倍的万亿参数多模态大模型，且与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升近11倍。

没错，这就是今日阿里巴巴达摩院发布的“低碳版”巨模型 M6，它在全球范围内首次大幅降低了万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练AI大模型的迫切需求。

大模型将成下一代人工智能基础设施，这在AI圈内已成为共识。与生物体神经元越多往往越聪明类似，参数规模越大的AI模型，往往拥有更高的智慧上限，训练大模型或将让人类在探索通用人工智能上更进一步。然而，大模型算力成本也相当高昂，很大程度阻碍了学界、工业界对大模型潜力的深入研究。

针对这一难题，达摩院联合阿里云机器学习PAI平台、EFLOPS计算集群等团队改进了MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

具体而言，相比此前英伟达使用3072 A100 GPU实现万亿参数、谷歌使用2048 TPU实现1.6万亿参数大模型，此次达摩院仅使用480卡V100 32G GPU就实现了万亿模型M6，节省算力资源超80%，且训练效率提升近11倍。

今年3月，M6千亿模型发布时，OpenAI前政策主管Jack Clark公开点评道：“这个模型的规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”

此次，M6万亿模型又带来哪些新东西？

1 M6万亿大模型有哪些亮点？

AI大模型更低碳高效：提升了超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。对比Nvidia(3072 A100 GPU/万亿)、Google(2048 TPU/1.6万亿)，阿里此次仅使用480卡V100 32G GPU就实现了高效的万亿M6模型的训练，能耗降低超过8成，且效率提升近11倍。
AI创造力再次升级：M6拥有超越传统AI的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。OpenAI DALL·E生成图片清晰度达256휥6，M6将图片生成清晰度提升至1024휐24。更大的模型带来了更强的创造力和可直接工业化应用的前景。
AI大模型首次商用：M6成为国内首个实现商业化落地的多模态大模型。经过一段时间的试用，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

2 M6万亿模型有哪些关键技术突破？

从开始研发大模型起，阿里M6团队便格外重视GreenAI，即提升超大规模预训练模型的资源利用率与训练效率，沉淀大模型高效训练的能力。这样更多人可用较少的成本训练或者应用大模型。

针对大模型训练资源消耗过高的难题，达摩院联合阿里云机器学习PAI平台、EFLOPS计算集群等团队改进了MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

他们首先更细致地探索了MoE在预训练模型中的各类超参对模型收敛速度和精度的影响，包括top-k的k值、capacity对load balance的影响、load balance本身对效果的影响。基于这一系列的观察，他们提出了一种Expert Prototyping的方法，使用分组MoE的形式，让不同组的MoE通过组合能在参数规模不变的情况下，增大模型的表达空间。

他们观察到在不同规模的模型上，分组MoE都能取得比baseline更好的效果。相比于单组switch routing的串行实现方式，分组MoE可以达到更好的加速效果，并且我们发现他在更大规模的模型上优势会变得更大，如下图：

在机器方面，M6团队最终采用的是在Hippo混布集群搭建模型的方案，利用的是480个单机单卡的NVIDIA V100-32GB的机器，通信为带宽为100Gb RoCEv2的RDMA网络网络，在XDL上提交任务。

3 M6已有哪些商业化应用？

AI设计师与智能新制造：经过试用期，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。随着实践经验的增长，M6设计的能力还将不断进化。

结合阿里的电商背景，M6团队希望通过M6大模型优异的文到图生成能力，和电商领域产业链深度融合，挖掘潜在的应用价值。具体来说，他们已深入到从服饰设计&生成、线上展示&测款的完整链路，期望利用M6的高清图像生成能力，缩短服饰企业的存货周转率，帮助商家对潮流趋势有更好的掌控力和更快速的反应力。

以下为M6参与新款服装设计的流程图：

工业级文案生成：除文生图外，M6也已具备可在工业界直接落地的图生文能力，能够快速为商品等图片提供描述文案。该能力目前已在淘宝、支付宝部分业务上试应用。

在参数规模不断升级的过程中，达摩院团队发现，M6的认知和表达能力也在不断提升：它能够观察到图片中更丰富的细节，并使用更精准的语言进行表达。

比如，在对下述风衣图片的描述中，更大参数规模的M6相比基础版，注意到了“经典翻领设计”“腰间系带装饰”“两侧大口袋点缀”等细节，生成文案信息量更大、措词更精准。

跨模态搜索：M6对图片、文本的精准理解及匹配能力，已在支付宝、手机淘宝中初步试应用，有望帮助提升用户跨模态搜索的效果。

M6团队观察到，淘宝上有很多长尾词，主要因为很多95后、00后用户有非常特别的商品需求，这些需求带来了很多长尾的搜索词。比如，有用户可能想要一个表面凹凸的咖啡杯，也就是日式风格凹凸咖啡杯，因为商家一般不会把这样的细节写在商品名和描述中，单纯基于文本的搜索很难搜出对应商品。

多模态大模型为精准的跨模态搜索带来可能。目前M6已建立从文本到图片的匹配能力，未来，或将建立从文字到视频内容的认知能力，为搜索形态带来变革。