切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻 ...
菲龙网编辑部7
有 744 人收听 TA
153988
主题
154005
回复
180391
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/46
TVB终于要播一部自制剧啦‼️但是
0/56
《大理寺画师》《奇衙轶事》中国香港导演王英德阐述创作理念
0/72
王楚然旗袍有多美?她的腰是“夺命的刀”,她的臀是“夺命的魂”
0/47
东北悬疑‼️阵容炸裂‼️双时空推理
0/48
端原生发布新公告:严管单部剧多版本上线播放
0/48
《扫毒风暴》被人民网点评,只字不提演技,却句句说到观众心坎
0/54
这剧太超前了 每年必要重刷一遍❗❗❗
0/45
全程无尿点|新禁忌姐弟恋韩剧杀疯了
0/47
《陷入我们的热恋》:刘浩存王安宇吸睛,张昕懿意外成亮点!
查看TA的全部帖子>>
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
时间:2025-7-18 09:16
0
57
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
超越
Transformer
,谷歌推出全新底层架构——
Mixture-of-Recursions
(MoR),注意不是MoE,它能推理速度提高2倍,而KV内存直接减半!
而且All in One,
首次
在单一框架中实现,用同一组参数处理不同任务的同时,进行动态分配计算资源。
就像给LLM开了个双层增强buff,模型性能和效率全都要。
谷歌DeepMind联合KAIST AI、Mila人团队通过
统一参数共享
、
自适应递归深度
和
高效KV缓存
,在保持大模型性能的同时降低计算和内存成本,形成新的效率最优解。
不少网友甚至将它形容为
Transformer Killer
。
更有甚者表示,该架构的出现或许能代表,潜在空间推理也许将会成为下一个LLM突破所在。
具体MoR创新在哪些方面?下面一一详解。
MoR:首次统一参数共享与自适应计算
Transformer的出现虽然带来了优秀的少样本泛化和推理能力,但随之而来庞大的计算和内存需求还是让训练和部署成为难题。
目前相关优化方法主要是参数共享和自适应计算,但往往只能二选一,无法同时兼顾。
于是研究人员提出了递归混合模型
MoR
,可以在单一递归Transformer中同时融合两个效率维度。
首先采用的递归Transformer,相比通过多个独特层构建token的标准Transformer,其直接将模型划分为递归块,复用一组共享参数池。
主要包含三种参数共享策略:
[ol]
Cycle:循环复用层。
Sequence:连续复用同一层。
Middle变体:保留首尾层独特参数,仅共享中间层。
[/ol]
利用参数共享,可以减少独特参数数量,提升分布式训练效率,并通过连续深度批处理消除计算 “气泡”,提高推理吞吐量。
然后MoR采用
动态路由机制
,通过轻量级路由器为每个token分配不同递归深度,并集中计算在复杂token上,可以分为两种:
Expert-choice路由
:将每个递归步骤视作 “专家”,基于隐藏状态计算分数,通过阈值选择合适的token继续计算,采用层级过滤,优先为复杂token分配计算。
Token-choice路由
:初始阶段为每个token分配固定递归深度,通过softmax/sigmoid确定专家,然后token按分配深度依次完成递归。
另外,MoR本身还借助
KV缓存策略
,管理键值的存储与使用,同时确保内存效率的提升:
Recursion-wise缓存
:仅缓存当前递归步骤中活跃token的KV对,将注意力计算限制在本地缓存,降低内存和IO需求。
Recursive KV共享
:复用首次递归的KV对供后续步骤使用,确保所有token可访问历史上下文,减少预填充操作,而此时注意力计算量下降幅度较小。
在三种策略共同作用下,MoR通过在解码每个token时直接进行潜在思考,路由机制让模型能进行自适应推理,突破了先前固定思考深度的限制,实现了参数效率与自适应计算的统一。
性能超越Transformer
研究人员在135M到1.7B不同参数规模的模型上,就
原始Transformer
、
递归基线模型
和
MoR
进行对比实验。
实验表明,在相同的16.5e18 FLOPs的训练预算下,MoR使用了将近
50%
的更少参数,但实现了更低的验证损失和更高的平均少样本准确率
43.1%
。
而vanilla模型的少样本准确率此时是42.3%,说明MoR拥有更高的计算效率,可以在相同FLOPs预算下处理更多训练token。
在训练固定的20B token时,MoR也减少了
25%
的训练FLOPs,训练时间还缩短了19%,峰值内存减少25%。
另外,通过分析路由策略,发现Expert-choice路由的性能会在一定程度上优于Token-choice路由,说明路由粒度会对性能产生重要影响。
研究人员还对MoR进行了
IsoFLOP分析
,发现在135M、360M、730M和1.7B参数规模,以及2e18、5e18、16.5e18的FLOPs预算下,MoR始终优于递归基线模型。
虽然受递归容量瓶颈限制,在135M时略逊于vanilla模型,但在360M及规模的进一步扩大,MoR性能
接近甚至超过Vanilla模型
,且参数仅为后者的1/3,验证了MoR的可扩展性。
在
推理吞吐量评估
上,360M规模的MoR模型在固定批大小和最大批大小设置下,均优于vanilla。
递归深度的增加让更多token提前退出,KV缓存占用减少,吞吐量显著提升,验证了深度批处理与早期退出结合对部署效率的提升。
谷歌对底层架构的再思考
这已经不是谷歌第一次对底层架构进行重新思考,甚至可以说,谷歌始终希望
利用架构创新重构计算范式
,重新寻找AI新的平衡。
例如
混合专家模型
(MoE)正是这一理念的集中体现。
最早是在2017年,谷歌首次将MoE引入LSTM层,通过稀疏门控机制,仅激活部分专家网络从事输入处理,但仍能让参数量高达137B的模型保持高效训练。
后面推出的
GShard
将MoE与Transformer结合,可实现动态负载均衡,2021年的
Switch Transformer
又进一步地简化了路由机制。
而
Gemini 1.5 Pro
就是采用的分层MoE架构,将专家网络与多模态处理深度结合,可以处理更为复杂的多模态任务,训练和服务效率也得到显著提升。
MoE的底层逻辑设计突破了传统全连接模型的计算缺陷,现在已经成为了许多超大规模模型的优先选择,为应对算力瓶颈提供了新范式。
另外还有像
TokenFormer
等可扩展架构,将模型参数视为可学习的token,通过增量训练无缝扩展模型规模,为未来千亿级模型的低成本迭代提供了可能。
所以有网友认为,关于谷歌如今推出的MoR,会在未来彻底改变AI世界规则,会超越Transformer吗?
一切交给时间验证
。
参考链接:
[1]https://x.com/deedydas/status/1945313404958466519
[2]https://www.alphaxiv.org/abs/2507.10524
[3]https://x.com/reza_byt/status/1945498424536862841
[4]https://arxiv.org/abs/1701.06538
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
中国新闻
菲律宾新闻
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部