Copyright 2018-2025 报纸迷 版权所有 京ICP备2018136890号
10月28日报道,10月25日,蚂蚁集团在arXiv上传了一篇技术报告,一股脑将自家2.0系列大模型训练的独家秘籍全盘公开。

今年9月至今,蚂蚁集团百灵大模型Ling 2.0系列模型陆续亮相,其万亿参数通用语言模型Ling-1T多项指标位居开源模型的榜首;Ling-mini-2.0总参数160亿,每个Token仅激活14亿参数;Ling-flash-2.0总参数1000亿、激活仅6.1B,性能媲美400亿级别参数模型……
这些模型的表现,标志着大模型发展从单纯堆参数迈向以高效方式实现智能的新阶段,而这一转变的核心支撑正是Ling 2.0技术体系,此次蚂蚁技术报告对此进行了全盘解读。
Ling 2.0的核心亮点清晰聚焦:依托高稀疏度混合专家设计、推理导向的数据流水线、多阶段对齐策略,以及基于FP8的万亿级训练基础设施,无一不是在为通用推理模型搭建具备可扩展性的坚实技术底座。
当我们将目光放大至整个行业,可以发现,大模型的竞争力正向用最少的资源解决最多的场景问题转变,而Ling 2.0面向模型架构、预训练、后训练、基础设施各个环节的深度融合创新,正在为其提供切实可行的技术路径。
在这一背景下,围绕Ling-min-2.0、Ling-flash-2.0、万亿参数非思考模型Ling-1T三款模型的具体性能,以及蚂蚁新技术报告,我们将拆解大模型时代当模型架构、训练数据、训练策略与基础设施深度融合后,模型智能会如何飞跃。