查看原文
其他

MoE门控网络最新创新!性能对标Llama 3,源2.0-M32大幅提升模型算力效率

让你更懂AI的 PaperWeekly
2024-08-23

近期,全新发布的大模型“源 2.0-M32”为 MoE 算法结构创新带来了全新思路——创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),大幅提升了模型算力效率。支持以更少的算力消耗,实现更高的模型能力!


根据官方信息显示,源 2.0-M32 模型运行时激活参数为 37 亿,在数学竞赛、基础数学、代码生成、综合知识能力、科学推理方面与 LLaMA3-700 亿不相上下。同时,源 2.0-M32 大幅提升了模型算力效率,在性能全面对标 LLaMA3-700 亿的同时,显著降低了在模型训练、微调和推理所需的算力开销,算力消耗仅为 LLaMA3-700 亿的 1/19。


目前这个模型全面开源,训练代码和模型权重都可任意下载,商业使用也免费、无需授权。

源 2.0-M32 相关链接



代码开源:

https://github.com/IEIT-Yuan/Yuan2.0-M32


论文地址:

https://arxiv.org/pdf/2405.17976


Huggingface模型下载地址:

https://huggingface.co/IEITYuan/Yuan2-M32-hf


ModelScope模型下载地址:

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary


Wisemodel模型下载地址:

https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-hf



算法结构创新:Attention Router与LFA

MoE 作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,由多个专家模型组成,每个子模型都是一个局部模型,能够在远少于稠密模型所需的计算资源下进行有效的预训练。 


当前流行的 MoE 结构中,门控网络大都采用简单的调度策略,其过程是将 Token 与每个专家的特征向量进行点积,从而找到点积结果最大的几位专家,由多个专家协同参与计算。但这个过程忽略了专家之间的相关性,无疑会降低模型的精度。 


浪潮信息提出并采用了一种新型的算法结构——基于注意力机制的门控网络(Attention Router)。有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题。Attention Router 的机制是,为每个专家提供了三个特征向量来构建专家之间的关系,然后将其引入到传统调度策略中,因此,门控网络在选择专家模型时,就会同时考虑绝对点积数值以及专家间的协同性,找到与自身属性更为相似、关联度更高的专家,使得专家之间协同处理数据的水平大为提升。


▲ 图-传统门控网络与基于注意力机制的门控网络(Attention Router)

同时,源 2.0-M32 以源 2.0-2B 为基础模型进行设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention)。 


LFA 机制通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。 


在架构方面,源 2.0-M32 构建了一个 32 X 2B 的 MoE 架构,在推理的过程中,32 个专家每次只激活 2 个,激活参数只有 37 亿,但是 M32 在逻辑推理、代码方面,精度可以对标 Llama 3-70B。可以说是找到了一个在模型能力与算力消耗之间的最优 MoE 架构解!

▲ 图-增加专家数量可以有效降低Test Loss


提升“模算效率”:模更强,算更优

浪潮信息也分享了模型能力测试数据,可以看出,在 MATH、ARC-C 等项目上,源 2.0-M32 模型的表现都极为优异。

在模算效率上,源 2.0-M32 更是堪称“一骑绝尘”,在模型能力与 LLaMA3 不相上下的同时,凭借特别优化设计的模型架构,所消耗算力仅为 LLaMA3 的 1/19。
✓ 训练
在智能水平相当的情况下,源 2.0-M32 微调训练时每 token 所需的算力为 22.2 Gflops/token。相比起 Llama 3-70B 的 420Gflops/token,源 2.0-M32 的需求只有其 1/19。 
✓ 推理
在相同条件下,M32 处理每 token 所需算力为 7.4Gflops,而 Llama 3-70B 所需算力为 140Gflops。也就是说,源 2.0-M32 的推理算力消耗也仅是 Llama 3-70B 的 1/19。 
✓ 微调
在微调阶段,M32 只需消耗约 0.0026PD(PetaFlops-Day),就可以完成对 1 万条平均长度为 1024 token 的样本进行全量微调,而 Llama3 则需消耗约 0.05PD 的算力。 
更直观来讲,源 2.0-M32 在支持 BF16 精度的 2 颗 CPU 服务器上,约 20 小时即可完成这 1 万条样本的全量微调。而同样条件之下的 Llama 3-70B,完成全量微调约为 16 天。 
这意味着企业未来能够以更低的算力支出,使用能力水平更高的大模型! 
浪潮信息,在提升大模型算力效率上一直进行着不遗余力的努力。 
浪潮信息早在2021年就率先发布参数规模达 2457 亿的源 1.0 模型,训练算力效率为 44.8%,远超 GPT-3 21.3% 的训练算力效率,树立了千亿大模型的训练标杆! 
2023 年,浪潮信息成功研发并全面开源千亿参数“源 2.0”基础大模型,包括 1026 亿、518 亿和 21 亿三种参数规模,并在“训练过程中,研发并采用“非均匀流水并行”的方法,显著降低了大模型对芯片间 P2P 带宽的需求,为硬件差异较大的训练环境提供了一种高性能的训练方法。 
如何在发展大模型能力的同时,降低大模型的算力支出,已经成为产业重要关注方向,源 2.0-M32 模型则让我们进一步看到大模型在算力有限的情况下,实现能力扩展的可能路径,相信随着模算效率的提升,将有越来越多的用户能够大模型的发展中受益。


🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存