2024年06月03日 星期一
“源2.0-M32”开源大模型发布
数学竞赛、科学推理榜单得分超LLaMA3

    科技日报讯 (记者操秀英)记者6月1日获悉,浪潮电子信息产业股份有限公司近日发布“源2.0-M32”开源大模型。“源2.0-M32”在“源2.0”系列大模型基础上,创新性提出和采用了基于注意力机制的门控网络技术,构建包含32个专家的混合专家模型(MoE),大幅提升了模型算力效率。模型运行时激活参数37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

    据介绍,针对MoE模型核心的专家调度策略,“源2.0-M32”采用的新型算法结构——基于注意力机制的门控网络,关注专家模型之间的协同性度量,可解决传统门控网络下选择两个或多个专家参与计算时关联性缺失问题,大幅提升专家之间协同处理数据的水平。

    据悉,“源2.0-M32”以“源2.0-2B”为基础模型设计,沿用并融合局部过滤增强注意力机制。通过“先学习相邻词之间的关联性,再计算全局关联性”的方法,它能更好地学习自然语言的局部和全局语言特征。

    在数据层面,“源2.0-M32”基于超2万亿token(文本中最小的语义单元)进行训练,覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。在算力层面,“源2.0-M32”为硬件差异较大的训练环境提供了一种高性能训练方法。

    基于在算法、数据和算力方面的创新,“源2.0-M32”性能大幅提升,在数学竞赛、科学推理榜单上的得分超过700亿参数的LLaMA3开源大模型。

    浪潮电子信息产业股份有限公司人工智能首席科学家吴韶华表示,大模型在性能不断提升的同时,也面临着所需算力大幅攀升的问题。“源2.0-M32”将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。“‘源2.0-M32’开源大模型配合企业大模型开发平台,将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业发展提供坚实底座,加速产业智能化进程。”他说。

京ICP备06005116