Copyright 2018-2025 报纸迷 版权所有 京ICP备2018136890号
华为在大模型训练上搞了个大动作:用自家的昇腾芯片和鲲鹏芯片,把AI训练里的老大难的问题一通爆改,训练速度更快,成本还省了不少。
那到底他们是怎么做到的?
首先,在AI大模型里,现在很流行一种叫MoE(专家混合模型)的架构。这个模型好比是“专家问诊”系统:每次输入一个问题,只找一部分最合适的专家来回答,省下其他专家休息,不用每次都让所有人上阵。这样既能做大模型,又能节省一些计算。
但问题来了:
第一,计算调度容易卡壳。 比如有些算子像FlashAttention、矩阵乘法这些特别费时,数据来回搬运、安排顺序的时候很容易堵车,导致芯片没法全速运转。
第二,内存压力巨大。 模型参数太大,训练时产生的中间数据又堆得飞快,昂贵的NPU内存一下子就满了,训练经常被“撑爆”。
针对这两大难题,华为做了两步优化:
第一步:把计算做快点
华为团队专门对最费时间的几类算子做了深度优化:
FlashAttention:优化掉了重复计算,支持不规则输入直接处理,提升前向速度50%。
矩阵乘法:优化了数据搬运和调度,让芯片的计算单元能多干活,利用率提升10%。
向量重排:把多个小算子合并,搬数据的次数减少,速度提升3倍以上!
光是这一轮,训练吞吐量就提升了15%。
第二步:把任务安排更顺点,内存也省下来了
算子下发“零等待”:鲲鹏CPU和昇腾NPU协同配合,像交通管制一样提前安排顺序,不让CPU和NPU相互等待,整体训练速度又提升了4%。
内存精准手术:有些数据先不保存,等用时现算(重计算),再配合智能卸载(Swap),把暂时不用的数据挪到别处存着。整体内存节省70%,彻底缓解爆仓问题。
通过这两大系统优化,华为让超大规模MoE模型训练又快又稳,训练成本大大降低,硬件利用率也提升了一大截。
简单来说:
算力利用更高了
训练速度更快了
内存空间更宽裕了
这背后是华为昇腾+鲲鹏的软硬件协同全链路优化,也是国产AI基础能力越来越硬核的一个缩影。
未来大模型时代,拼的不只是“有多少芯片”,更拼谁能把芯片用得更高效。华为这波操作,给国产AI打了个很好的样板,值得借鉴。