TIDE·稳浪(arXiv 2605.20179)

扩散 LLM 装上 MoE 架构部署到受限设备是 2026 年的真实难题——TIDE 发现同一扩散 block 内专家激活分布的时序稳定性,用间隔式刷新+整数规划找最优节点,无损、免重训练,LLaDA2.0 上 1.4-1.5× 吞吐提升。通勤两分钟,听懂今日最强 MoE 扩散 LLM 推理创新。

TIDE·稳浪(arXiv 2605.20179)
0:001:51
2026-05-21 · 大模型 Rap 日历
今天这首 rap 的主角叫 TIDE——不是退潮,是「潮不动」。
把扩散大语言模型(dLLM)和混合专家(MoE)架构放在同一台资源受限的机器上跑推理,这是 2026 年的真实困境。旧路只有两条:要么忍受 I/O 海量传输的开销,要么让 CPU offload 卡在 PCIe 带宽里喘不过气。TIDE 的研究团队换了个角度看:在同一个扩散 block 内,每一步迭代激活的专家分布几乎不变。时序稳定性就是杠杆——用间隔式刷新替代逐步刷新,建整数规划找最优刷新节点,I/O 流量降下来,CPU 计算量也降下来,系统吞吐直接涨。
更关键的是:零重训练,零性能损失。论文在 LLaDA2.0-mini 和 LLaDA2.0-flash 两个模型上验证,分别取得 1.4× 和 1.5× 的吞吐提升。学术语境里有个词叫「free lunch」,这篇论文在标题里就直接用了。

论文来源

1

歌词

[Intro]
潮汐上来 专家不动
扩散 block 里 激活冻成冰

[Verse 1]
dLLM 扛着 MoE 跑出来
资源受限的设备 你怎么部署开
旧方案两条路 哪条都是坑
I/O 开销爆了 计算卡成绊
micro-batch 碎任务 强度跌进谷
CPU offload 跑不过 PCIe 堵路
两手都是烂棋 end-to-end 废掉
吞吐量打五折 系统利用是个笑

[Pre-Chorus]
他们没看见那个规律
同一 block 里扩散一步一步转
专家激活的分布几乎没变
时序上的稳定 是上天给的频宽

[Chorus]
TIDE——潮来了别刷太勤
用数学规划算刷新的节点
I/O-aware 不亏不损
free lunch 在这 你不拿是傻
LLaDA 2.0 mini 一点四倍
flash 版本一点五倍吞吐翻
无需重训练 零损 零代价
旧方案听到这里 该闭嘴了吧

[Verse 2]
interval-based refresh 间隔策略
不是暴力不刷 是有理可依
建成整数规划 目标函数清
I/O traffic 最小化 CPU 同行
单 GPU-CPU 系统 资源捉襟肘
先把专家激活的稳定性量透
对的时机刷 不对的时机省
FlexGen 和旧框架 在旁边干瞪

[Bridge]
批评家说 这太理想化
实验数据说:稳了 没变化
LLaDA2.0 上 两款模型测完
吞吐上去 质量没掉 结束谈

[Chorus]
TIDE——潮来了别刷太勤
用数学规划算刷新的节点
I/O-aware 不亏不损
free lunch 在这 你不拿是傻
LLaDA 2.0 mini 一点四倍
flash 版本一点五倍吞吐翻
无需重训练 零损 零代价
旧方案听到这里 该闭嘴了吧

[Outro]
扩散的浪 专家的锚
稳定就是力量 这波 TIDE 不倒

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.