昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA
来源:青橘网 发表于2026-01-13 15:23:46 编辑:沫晓朵
摘要: MLA( Multi-head Latent Attention 多头潜在注意力架构)凭借低秩压缩KV缓存设计,实现长上下文推理的显存与带宽双重优化,其有效性已在 DeepSeek-V2 等模型中得到了

  MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存设计,实现长上下文推理的显存与带宽双重优化,其有效性已在 DeepSeek-V2 等模型中得到了验证。但主流预训练模型如LLaMA、Qwen千问等多基于GQA构建,企业已投入大量工程优化,复用MLA需重训,成本极高。为此,在北京大学 鲲鹏昇腾科教创新卓越中心的算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出TransMLA转化框架,实现了无需重训便可将主流模型向MLA迁移。

  TransMLA针对GQA向MLA迁移的核心痛点,实现四大技术模块的精准破局:一是GQA→MLA结构映射,破解分组KV头与MLA单头潜在表示不兼容问题,通过特定的线性变换,将GQA分组后的K、V向量投影/融合为单一的低秩潜在表示,并配备上投影矩阵保障KV信息精准恢复,筑牢迁移基础;二是提出RoRoPE技术方案,通过创新适配让位置编码顺畅融入低秩压缩流程,解决了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题;三是通过将RoPE中相邻频率的旋转维度进行折叠(Folding)与融合,在降低参数量的同时,更高效地集中和保留关键的位置信息,从而维持模型在长序列下的语义理解能力;四是通过均衡Key和Value矩阵在压缩前的范数分布,提升联合压缩(如PCA)的数值稳定性,减少信息损失。

  在技术落地过程中,昇腾发挥了关键支撑作用。其高效并行计算架构满足结构映射模块的多任务协同处理需求,保障了架构迁移效率;其优化的存储与缓存体系,为 FreqFold 的频率信息处理、BKV-PCA 的范数均衡提供稳定硬件基础,有效提升 KV 压缩的稳定性与资源利用效率,助力 TransMLA 核心技术平稳落地。

  经过实验显示TransMLA的转换过程性能优势明显,裁剪LLaMA-2-7B模型68.75%的KV缓存后无需训练,核心性能仅轻微损失,在32K序列长度、FP16精度下,基于昇腾平台的推理速度较之于业界主流GPU平台有显著提升。依托开放的生态资源,昇腾已推动TransMLA稳定支持主流模型部署并将集成至vLLM/SGLang等高性能推理框架生态,便于用户部署,大幅降低企业落地适配成本。

  TransMLA与昇腾的协同创新,打通了主流模型与MLA架构鸿沟,充分发挥昇腾生态优势。昇腾全链路支持实现TransMLA“零重训、低损失”目标,保留模型参数优势,降低企业基于昇腾的升级门槛。这一软硬件协同典范,为长上下文推理提供昇腾生态解决方案,推动自主计算与前沿AI融合,彰显昇腾核心引领作用,为大模型产业依托自主硬件降本增效提供可行路径。

  推荐阅读:

投稿邮箱:qingjuedu@163.com
相关推荐
昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大
昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大

MLA( Multi-head Latent Attention 多头潜在注意力架构)凭借低秩压缩KV缓存设计,实现长

快资讯25秒前

教育部:2026年将启动新一轮“双一流”高校建设
教育部:2026年将启动新一轮“双一流”高校建设

1月8日召开的2026年全国教育工作会议上提到,2026年,教育部将秉持民生为本 基

快资讯52分钟前

亚马逊推出AI可穿戴设备Bee:个人生活AI助手
亚马逊推出AI可穿戴设备Bee:个人生活AI助手

1月6日消息,亚马逊推出AI可穿戴设备Bee,称为个人生活AI助手,该设备通过实体

快资讯52分钟前

学而思以用户为中心,探索“需求驱动型”服务体系
学而思以用户为中心,探索“需求驱动型”服务体系

在素质教育新业态与行业深度调整的当下,教培机构如何重塑价值,构建面向未

快资讯2026-01-12 11:53:08

山东首个老年教育地方标准发布,推动老年教育规范化
山东首个老年教育地方标准发布,推动老年教育规范化

1月12日消息,近日,山东省市场监督管理局发布公告,正式批准发布《老年教育

快资讯2026-01-12 10:31:06

北京海淀:3所AI教育无界学院今年启动试点建设
北京海淀:3所AI教育无界学院今年启动试点建设

1月12日消息,据北京市海淀区两会,十五五时期,海淀区将持续扩大中学学位供

快资讯2026-01-12 10:30:57

日活过亿的豆包APP,上线了“豆包爱学”
日活过亿的豆包APP,上线了“豆包爱学”

观察到,豆包APP近日上线了AI老师功能,名字就叫豆包爱学。此功能最早于去年

快资讯2026-01-11 18:30:59

【一周连连看】张戈离职,高途或迎组织变化?CES 20
【一周连连看】张戈离职,高途或迎组织变化?CES 20

Hi,周末快乐。 超长工作周结束后,我们迎来了第一个周末。1月即将过半,农

快资讯2026-01-11 14:31:21

又一款无屏故事播放器!希沃推出出海儿童硬件产品
又一款无屏故事播放器!希沃推出出海儿童硬件产品

希沃出海并非新鲜事,但这一次,它选择以一款面向家庭场景的C端无屏儿童硬

快资讯2026-01-10 18:30:57

从"会做题"到"会运用",火花思维"全球小老师"
从"会做题"到"会运用",火花思维"全球小老师"

近日,由火花思维发起的最大的线上数学解题视频集吉尼斯世界纪录挑战已进入

快资讯2026-01-09 18:33:02