zbo智博1919com

新闻中心 新闻中心

详解 DeepSeek V4 :Infra 巨鲸 “四连击”,百万高低文走进现实

系统级耦合优化比单点创新更难。

作者 :王筱雯
颁布功夫 :2026-05-14 12:27:58
阅读量 :3

详解 DeepSeek V4 :Infra 巨鲸 “四连击”,百万高低文走进现实

系统级耦合优化比单点创新更难。

访谈丨程曼祺

整顿丨付自文、李清旸

上周五(4 月 26 日)DeepSeek-V4 终于颁布后,《误点聊 LateTalk》第一功夫约请一线 AI 从业者详解 V4 技术汇报。

两位播客嘉宾,一位是 UCLA 在读博士刘益枫,他是模型架构布景,曾在 Kimi(月之暗面)和字节 Seed 实习,参加 K1.5 研发,也自己做过优化器。

一位是开源推理框架 SGLang 主题开发者赵晨阳,他是 Infra 布景,目前已参与 SGLang 背后的商用创业公司 RadixArk AI。他此前也曾在字节 Seed 实习。

这期我们从 V4 切入,天然而然聊地到了 Kimi、Seed、MiniMax、Qwen、智谱等中国其他大模型团队的致力和进展。

关于从字节 Seed 提出的 HC 到 DeepSeek 的 mHC,再到 Kimi 的 Attention Residuals 的会商,还有 Kimi 和 DeepSeek 萦绕 Muon 优化器的改进,又或者是 DeepSeek 对北大团队开源的 TileLang 的深度使用……这些成就相互联系、彼此引发,鲜活地刻画了,肯定的人才密度和竞争烈度后,开源模型社区在正迸发怎么的进取与质变。

而一批中国公司,是开源大模型生态最活跃和坚定的投入者。

从 R1 的一鸣惊人到如今的百花齐放,这一年多产生了太多迭代和变动。V4 的技术汇报是相识这些详细且艰苦致力的一个切片。

不再用 MLA、全新把稳力机制 :“系统级耦合优化比单点创新更难”

误点 :DeepSeek-V4 颁布后,你们的现实使用体感若何???

刘益枫 :数学推理、代码能力和 Agent 指令执行都比 V3 好不少,尤其是幻觉少得多。

代码能力还是比 Opus 4.6 等闭源模型弱,和智谱 GLM-5.1、Kimi K2.6 等开源模型履历相近。

同时 V4 比 V3 大好多(V3 参数为 670 B ,V4 为 1.6T),价值贵了不少。但最近 V4-Pro 输入缓存射中的价值从最初 25% 优惠上又打了 1 折,降价很猛,这让好多用户愿意尝试。

误点 :正好这几天正在开 ICLR (国际学习表征会议,International Conference on Learning Representations,AI 顶会之一), 各人在会场是若何会商 V4 和同期进展的???

刘益枫 :有意思的是,V4 烧毁了从 V2 到 V3 使用的 MLA(注 :多头潜在把稳力,由 DeepSeek 提出),而目前 K 2.6、GLM-5.1 等模型依然选取 MLA。

其实几个月前,各人都以为先进的开源模型架构已收敛到 MLA 了,接下来是一些小改进。而 V4 烧毁 MLA、重回 MQA(注 :多查问把稳力 Multi-Query Attention,是相比原始把稳力更低显存占用和更低推理带宽的一种改进),这注明模型架构还有很大改进空间。

误点 :MLA 和 MQA 的区别是什么???

刘益枫 :单一来说,MQA 更靠近原始多头把稳力(Multi-Head Attention) 。相比 V3 的 MLA,它是一种 token-wise(词元级)的压缩机制,通过混合使用 CSA 和 HCA 实现 4:1 甚至 128:1 的大尺度压缩。这时若是持续保留 MLA,再叠加这些压缩,实现起来会相当复杂。这可能是 V4 没有持续用 MLA 的原因之一。

(注 :CSA 是 “压缩稀少把稳力”,HCA 是 “重度压缩把稳力”。在 DeepSeek-V4 中,CSA 是先压缩序列、再做关键选择,能从长高低文中定位关键信息;; ; HCA 是高度压缩大量 token 信息,保留压缩后的全局感知。二者交替使用,能在大幅削减推算和显存开销时,既相识全局脉络(HCA)又能抓到关键细节(CSA))

误点 :RadixArk.AI 这次同时实现了 SGLang 压缩 token 信息对 V4 的推理 Day-0 适配和全参数 RL Day-0 适配。适配过程中,有哪些对 V4 变动的观察???

赵晨阳 :DeepSeek 仍是 Infra 的巨鲸,每年他们颁布城市为 infra 优化 “续命一年”。好比说去年的 MLA、DeepSeekMoE(DeepSeek 提出的一种 MoE 混合专家模型架构,最早用在 V2 中) 等,我们扎扎实实做了一年,能力在开源框架上跑得比力好。

而 V4 换了一套全新的混合把稳力规划。推理侧,V4 的混合把稳力、双压缩和 HashTop-K MoE,意味着前缀缓存、FlashMLA、投契解码这些链路都要重建。我们团队为接入前缀缓存和投契解码做了大量优化,拿出了 ShadowRadix、HiSparse CPU 扩大 KV,并实现了英伟达 Hopper、Blackwell、Grace Blackwell、AMD、NPU 的全平台适配。

(注 :HashTop-K MoE :哈希路由混合专家模型。DeepSeek-V4 在前几层 MoE 模型中引入的新型路由战术。不再依赖模型推算亲和度,而是直接通过输入 Token 的 ID 推算哈希值来固定分配专家。

FlashMLA :DeepSeek 开源的针对 MLA 的高效推理算子库,专为英伟达 Hopper 架构 GPU 优化。

Blackwell :英伟达最新一代的 GPU 微架构。

Grace Blackwell :英伟达推出的一种新型 “AI 超等芯片” 组合状态。将 Grace CPU 与 Blackwell GPU 物理封装在了一路。)

RL 侧,1.6T MoE 全参数训练对系统要求很高。六种并行战术(DP、TP、SP、EP、PP、CP)的正确性、训练与推理的一致性、indexer replay、FP8/BF16 混合采样——任何一环犯错,嘉奖曲线就起不来。

(注 :indexer replay :在职务被中断后,通过直接回放汗青执行轨;; ;蚋从靡延械 KV 缓存来复原状态,预防冗余推算。

嘉奖曲线 :大说话模型在强化学习阶段的主题监控指标,反映模型在特定工作上的阐发提升过程。)

误点 :总结来说,你们感触 V4 是一个怎么的成就???

赵晨阳 :作为工程师,我惊叹于 DeepSeek 极强的工程能力。训练时把优化器换成 Muon(矩阵级别优化器 ,能对整个参数矩阵进行正交化处置),训练精度推动到 FP4,进一步压缩显存和带宽;; ;推理时引入 DSA(DeepSeek 稀少把稳力)、DeepEP(DeepSeek 通讯效能的底层基础设施库)、Mega MoE 这一整套 Infra。这里面的每一个名词,在工程上都是巨大挑战。这种系统级的耦合优化比单点创新更难,更体现一个团队的工程深度。

刘益枫 :作为算法钻研人员,我更佩服 DeepSeek 的艺高人胆大。不仅引进了 mHC(盛行约束超衔接)、肇始层哈希路由等技术,还斗胆使用了 CSA 和 HCA 等 token-wise 的压缩技术,创新性使用了分歧于通常实际的 Muon 超参数,甚至烧毁了既有的 MLA 架构。同时一如既往地在并行训练、训练精度调节等方面给业界带来新器材。

V4 技术汇报里的中国芯片和 “隐没的成本”

误点 :DeepSeek 从 V3.2 preview 到 V4,中央隔了 7 个多月,但不论是 Kimi、Qwen、GLM、MiniMax 还是 GPT、Claude,主流模型的版本号都切得越来越细,更新很密集。这背后反映了什么分歧思路???

赵晨阳 :OpenAI 或 Anthropic 的版本号更像 “产品说话” :频仍更新是由于重大的用户群必要持续感知模型进取。DeepSeek 版本号更像 “钻研说话”,每次主版本更新都对应一次重大架构变动。

这种差距由组织结构和贸易模式决定。前者要求钻研与产品节拍高度咬合,后者则占有更大的自由度集中力量办大事,但也要求每次出手都足够有分量。

刘益枫 :模型版本定名有两种流派。DeepSeek、Kimi 的大版本号代表模型结构的重大扭转;; ;而 Claude、GPT 等模型的大版本号更多代表职能、能力扭转,好比 GPT-4 融入了多模态能力、GPT-5 提深邃度推理能力。

这背后也反映做模型的两种分歧偏差 :中国的开源模型更追求工程优化;; ;美国的闭源模型更追求提出和启发新的能力方向。

误点 :为什么 V4 的训练功夫比预期更长???据我们相识,DeepSeek 正本但愿春节前后发 V4。

赵晨阳 :具体颁布打算外界无从通达,但从技术上能够揣摩,V4 一次性引入了至少四个相互耦合的新器材 :混合把稳力、mHC、Muon 优化器和 FP4 训练。任何一个单独上线都必要大规模 debug,四个一路上的复杂度更是组合式爆炸。

出格是在如此大规模的 MoE 上不变地跑 Muon,以及真正跑通 FP4 训练,这都是极度前沿的尝试。

这次 V4 博客里的一句话很好 :“率道而行,端然正己! 我还想加上《道德经》里我很喜欢的一句话 :为而不恃,功成弗居。创制万物却不占为己有,功业成就却不自我夸耀。

刘益枫 :这次的一个亮点是 DeepSeek 原生支持国产芯片。从零起头为国产算法编写优化算子的工程量比力大,这可能是他们开发功夫偏长的原因。不外在 V4 训练阶段,外界普遍揣摩他们用的仍是英伟达芯片。

(注 :V4 技术汇报第三节 “Infra” 一章中提到,DeepSeek 在华为昇腾芯片上验证了细粒度并行 EP 规划的技术可行性,这注明 DeepSeek 做了国产芯片的推理适配。原文为 :We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.)

误点 :晨阳提到 “率道而行,端然正己”。他们引用的是荀子《非十二子》,前面还有两句——“不诱于誉,不恐于诽”,不被赞美裹挟,也不惧质疑和品评。

刘益枫 :从 DeepSeek 的称谢名单来看,去职人员比例或许在 5% 左右。相比其他公司,这个流动率挺低。所以我感触 “不诱于誉” 不仅是公经理念,也是 DeepSeek 研发人员的表情。

赵晨阳 :“举世誉之而不加劝,举世非之而不加沮”,是一种很高的境界。

误点 :这次技术汇报和颁布推文中都没再颁布训练成本,为什么???V3 和 R1 引爆市场的关键之一就是 557 万美元的最后一次训练成本。(注 :按参数量和训练数据量粗略估算,V4 的训练推算量可能靠近 V3 的 3 倍)

赵晨阳 :这是一个信号,DeepSeek 不再靠 “成本叙事” 界说自己,而是用模型能力措辞。

刘益枫 :最后一次训练成本往往是总成本的几极度之一。前沿索求和对比验证的尝试成本,人力和数据成本才是重要开支。所以颁布这个成本自身没太大意思。

误点 :R1 其时爆火的另一个原因是,它以开源方式验证了测试时扩大(test-time scaling)的新范式。而这一次,V4 是不是并没有带来这个级此外范式变动???

赵晨阳 :R1 是开源世界里第一个走通 Long Reasoning 这条路的模型。V4 也是 follow 了 R1 的范式,定位是 “在这个范式下解决推算瓶颈”。

我感触 “范式变动” 在 AI 圈被说得太多了,它正本是十年一遇、甚至更稀少的事。Transformer、scaling law、RLHF(基于人类反馈的强化学习,一种对齐方式)、测试时扩大,这些是范式。但每隔半年就要找一个 “新范式” 的行业生怕有些问题。

更值得问的问题是 :沿着此刻的 LLM 范式持续优化,还有几多空间???上限在哪儿???

我判断还有相当大的空间,但每一步都更难。V4 这种系统级耦合的工程优化,会成为接下来一两年的主旋律——各人会竞争谁能把很多分散的优化做成一个能跑起来的整体系统。这很工程,但贸易价值很大。

刘益枫 :与其从步骤论的角度诠释范式变动,不如把它理解为一个新的模型能力领域,好比之前的长文本能力、agent 能力、幻觉节制能力等。

提出新的能力领域,这才是目前大说话模型必要重点做、不休做的事件。此刻的问题不是 “能不能做到”,而是 “我们还不知晓有哪些必要做的”。

从这一点来说,V4 带给我的震撼远不如 R1,甚至不如 Kimi 最早提出长文本能力时带来的感触。

误点 :那你看到了什么此刻还在萌芽、将来可能重要的能力方向???

刘益枫 :好比 AI 的 “自我意识”。目前 AI 还是人类的工具,它是否能占有自己的意识,更自主地行动???

赵晨阳 :我以为有个重要的能力是 “削减推理量” :枚嗍录并不必要那么多推理,token 应该用在更重要的事件上。此刻的模型有点儿被 infra 优化惯坏了,在高低文长度上太铺张浪费。

量化看,机能与效能

误点 :接下来我们来量化看一下 V4。首先是机能上,两位怎么看 V4 的 Benchmark 拔取和分数阐发???

赵晨阳 :V4 显著测了更多和 agentic 有关的 Benchmark,尤其强调工具使用、多步规划等。整个行业从去年年中起头就有这个转向 :做事和实现工作比 “答得对” 更重要。

这里也正好诠释一下,Benchmark 或许有几种逻辑 :一是离线 Benchmark,测一个问题模型怎么回覆,给答案打分;; ;二是在线 Benchmark,把统一个问题或工作发给两个匿名模型,让用户判断哪个模型更好,这通常被叫做 Arena(竞技场)。

DeepSeek-V4 的技术汇报里就提到,他们做了一个内部在线评测 :公司里的工程师能够自行选择模型实现工作、给模型反馈。他们比力了好多模型——Claude Opus 4.5、4.6,OpenAI GPT-5.5 等。V4 的分数或许在 Opus 4.5 左右,和 Opus 4.6、GPT-5.5 还是有差距。有 9% 的 DeepSeek 工程师暗示,不会将 V4-Pro 作为首选模型。这很坦诚,公司内部的选取意愿极度重要。

这也引出另一个问题,可能是所有优化编程能力的模型团队都要思虑的——这世界上只有极少数的公司在编程上罕见据飞轮,而获取数据的最佳方式是 “被使用”。

刘益枫关于数据飞轮,我有个问题想问晨阳。美国以闭源模型为主,中国以开源模型为主,这是否意味着,好多用户可能会自己部署开源模型在本地使用,中国团队更难获取现实使用数据???

赵晨阳 :其实不是的???茨P蜕狭送蛞诓问婺 :,部署成本很高,小我无法职守,小我不成能有 H200、B200 或 910B 这种 GPU。大无数模型哪怕开源,也是 host 在第三方云上,性质还是走 API,在第三方会留下痕!2煌饩菸宜,国内还是大量在用美国的闭源模型(来编程)。

刘益枫目前 Chatbot Arena 上 DeepSeek-V4-Pro 排名或许在 23 ,比 GLM-5.1 和 K2.6 等都低;; ;在 Artificial Analysis 的 Intelligence Index 的分数为 52 ,也比 Kimi、Mimo 低。晨阳怎么看这个阐发???

(注 :访谈产生于 4 月 28 日,到 5 月 1 日,V4-Pro 在 Chatbot Arena 上的排名为超过了 K2.6,仍低于 GLM-5.1。)

北京功夫 5 月 1 日 19 点,Chatbot Arena 的排名。

赵晨阳 :选择某款模型是必要肯定信仰的,我愿意为了我的信仰忽视这些分数。(笑)

刘益枫 :的确,刷榜不是主张。

赵晨阳 :体感上,一流模型的能力已经很难分辨。在极度细小的差距里排先后意思不大。

我一向用 Claude Code,有一天我们公司的 Claude 因账单原因被下线,我就去用了 Codex。我发现,脱离了 Claude,外面的世界齐全没有下雨。

误点 :前面我们会商了机能,效能上,V4 技术汇报里提到 :在百万级高低文中,DeepSeek-V4-Pro 的单 token 推理 FLOPs(衡量推算量,对应推算资源) 是 V3.2 的 27%,KV 缓存占用(对应存储资源)是 V3.2 的 10%。这个效能提升水平属于行业正常水平还是比力惊人???

赵晨阳 :V3.2 颁布时,DeepSeek 提到,即便大幅降价,他们自己的推理服务仍有利可图。

不外必要把稳的是,这种提升有一个重要前提 :高低文越长、优势越显著。若是只是几千 Token 的输入输出,效能提升并不显著。当然,此刻的现实使用中,几千 Token 可能连 system prompt 都打不住,所以日常使用的感触应该挺显著的。

误点 :这是不是也意味着,V4 的效能优化对 Agent 场景很有效???由于处置多步复杂工作的 Agent 框架是必要很长高低文的。

赵晨阳 :是的,Agent 会很有收益。

刘益枫 :不外,也有效户反映,V4 在解决统一个问题时,token 亏损比之前要大了。这部门抵消了效能优化的体感。

误点 :这就是晨阳刚才说的他以为必要提升的能力 “削减过度推理”。为什么模型更新后,解决统一问题的推理 token 亏损反而变多了???

赵晨阳 :我之前在小红书发过一篇文章,说此刻的 token 浪费有种 “拿高压水枪浇花” 的美感。

模型会恳切地反映训练数据,token 亏损变多,注明在训练中的确存在用更长高低文解决一样问题的情况,这些吐出来的回覆可能又成为训练的资料,这就形成坏循环,解决统一个问题必要的 token 越来越多。

刘益枫 :其实这个问题一向存在,之前各人就在想解法,好比 K1.5 的汇报里的 “长度惩!,当回覆统一问题时,会惩治更长的回覆。但即便如此,这个趋向仍不成逆地发展,由于对各个团队来说,优化模型解决问题的能力还是会优先于优化推理的简洁。

V4 的具体创新和改进 :Infra 巨鲸的四连击

整体思路 :极致的稀少

误点 :DeepSeek-V4 依然是一个 MoE 模型,但前面也提到,这次模型架构和 Infra 都有较多变动。你们怎么理解 V4 的整体架构思路???

赵晨阳 :V4 整体保留了 DeepSeekMoE 框架和 MTP (Multi-Token Prediction,即 “多 token 预测”,允许模型一次性预测多个 Token)战术,但在四个层面做了刷新 :把稳力,用了混合稀少把稳力;; ;残差,使用了 mHC;; ;优化器,在这么大的模型规模上使用了 Muon;; ;以及 infra 的变动,其中两个关键词是 TileLang 和 FP4。

这四件事的共同主题是 :让 1M 高低文从 “理论可行” 造成 “成本可接受”。

刘益枫 :V4 进一步提高了稀少比,这对算法和底层算子开发,尤其是训练阶段的算法和算子提出了相当高的要求。它必要保障 MoE 的各专家之间训练水平的平衡及 token 路由的平衡。

别的一个创新是在前几层 MoE 中用了哈希路由,来分配 token 到各专家,从算法上预防前几层专家路由高度集中的问题。

此外,DeepSeek 这次没有在 V4 上利用 Engram(DeepSeek 2026 年 1 月提出的前提影象技术)。一方面可能是由于 Engram 对机能的提升有限,但对部署又有较大挑战。另一方面,基础模型在训练过程中也会自动学习 N-gram(陆续 N 个 token 组成的部门片段,能够理解成一些常见表白、固定搭配,模型训练中会天然学到这些短程高低文) 能力,Engram encoder 更多起到辅助和信号加强作用。

赵晨阳 :这次 V4 的激活比(激活参数比模型总参数)的确是这一波模型里最低的。V4-Pro 是 1.6T 总参数下,激活参数 49B,也就是约 3%,比先前已经很低的 Kimi K 2.6 更低。

总参数越大、模型容量越高;; ;激活参数越小、推理成本越低。MoE 的主题价值就是把这两个量解耦,而 V4 把这种解耦推到了目前业界最激进的地位。

误点 :正好这里补充一组数据,在激活参数比总参数的比例上,DeepSeek-V4-Pro 刚超过 3%,而 V3 时是 5.5%。其他近期模型中,K 2.6 是 3.2%,MiMo-2.5-pro 是约 4.1%,MiniMax M2.7 是 4.35%,GLM 5.1 是 5.3%。

赵晨阳 :这一连串数,各人可能听起来像在雕花,但很反映工程能力,从 4% 降到 3%,比从 5% 降到 4% 要可贵多。不是说其他团队做不到,而是大部门团队会选择稳扎稳打,DeepSeek 选择持续推到极限。

当然,激活比也不是越低越好。比例太低会带来负载不均、专家训练不充分、路由抖动等问题。DeepSeek V3 就会商过,路由负载平衡是否应该纳入 loss(损失函数)。能把 3% 的激活比例不变训下来,自身是工程能力的证明。

把稳力机制 :CSA 和 HCA 若何组合工作

误点 :2025 年岁首 DeepSeek 提过 NSA(原生稀少把稳力),同年 9 月又在 V3.2 上用了 DSA,这次则是使用了组合 CSA 和 HCA 的新的混合把稳力机制。这次的主题改进是什么???重要解决什么问题???

刘益枫 :V4 的每一层都同时跑滑动窗口把稳力(SWA)和一种长距把稳力(CSA 或 HCA)。CSA 是稀少路线,在序列维度做 4:1 压缩后再做 top-k 拔取;; ;HCA 更激进,做 128:1 的压缩,但维持浓密把稳力。(4:1、128:1 是指把 4 个 token 聚合成一个暗示和把 128 个 token 聚合成一个暗示,所以说 HCA 的压缩更激进)

每层用 CSA 还是 HCA 是预约义的,因而面对统一个长高低文,分歧层会从分歧视角去看——稀少层(CSA)精确锁定关键 token,浓密层(HCA)提供整体语义概览。

误点 :这套新确把稳力机制对 Infra 的影响是???

赵晨阳 :扭转还是挺大的。对 RadixArk 和 SGLang 来说,适配这个混合规划的复杂度重要是前缀缓存的一致性。所以我们设计了 ShadowRadix 来应对——三个异构 KV 池(SWA / C4 / C128)加两个压缩状态池,要在预填充、解码、投契解码三个阶段维持同步。这是 V3 时期不必要解决的问题。

(注 :预填充,Prefill,指在推理的初始阶段,模型一次性并行处置用户输入的整段 prompt,推算并天生已知文本的 KV 缓存,急剧吃透内容。

解码,Decode,是通例天生阶段。模型用预填充阶段产生的缓存,起头自回归地天生回覆,通常解码是逐个 token 吐出的,这是推理的速度瓶颈。

投契解码,Speculative Decoding,是加快解码的技术。它不再逐个 token 天生,而是一次性 “猜” 出多个将来的 token 并交由主模型批量验证,可大幅提升速度。)

此外,我们最近发的 HiSparse 把稀少把稳力的 KV 卸载到主机内存,在长高低文场景能拿到 5 倍吞吐。V4 这种把推算 / 显存成本压到 27% / 10% 的模型,要在出产环境跑出贸易价值,就必要 ShadowRadix、HiSparse 这类底层能力的同步推动。

优化器 :Muon 已成检验大模型团队工程能力的试金石

误点 :V4 里还有两个很重要的变动,一是残差上,使用了 DeepSeek 去年底提出的 mHC,一是业内此刻已用得比力多的 Muon。

先说优化器。从前大模型训练的主流优化器是 AdamW,但从去年到今年,Muon 起头被越来越多的前沿模型选取——OpenAI 在 2024 年底招募了 Muon 的开发者 Keller Jordan;; ;Kimi 2025 年岁首起头颁布 Muon 的改进版。能否先单一诠释一下,优化器在大模型训练里起什么作用???Muon 相比 AdamW 的主题优势是什么???

刘益枫 :通常深度学习网络的训练过程,就是让模型通过损失函数的梯度降落信号不休更新权重,当权重更新到一个状态,模型能不变达成设计指标了(好比预测),就是训完了,得到了不变的权重。

但由于模型结构、数据散布等差距,通常梯度降落不太适合大说话模型这类深度神经网络,所以来来出现了 Adam、AdamW 等带头量和预前提机制的优化器来援手训练。

AdamW 性质上结合了动量和更新量归一化两类技术。动量能够让更新更滑润,归一化能够让每一步更新的 scale 更统一,从而不变训练。但 AdamW 是元素级此外优化,也就是对每一个参数单独更新。

Muon 的主题区别在于,它是矩阵级此外优化。对于线性层这类二维参数,它性质上是矩阵乘法,Muon 会把整个矩阵作为整体进行归一化和优化,这能更好地利用矩阵中分歧元素之间的联系,让矩阵内分歧元素的优化措施更一致,进一步提升训练效能和推理能力。

误点 :从 Keller Jordan 在 2024 年 10 月提出 Muon 到它后来变得更主流,这个过程是怎么的???

刘益枫 :2024 年底 Muon 刚被提出时,对使用者并不敦睦。它必要针对分歧???,如线性层、输入嵌入层别离调学习率(learning rate,节制模型每次更新参数幅度的主题超参数,太大容易不收敛,太小则训练极慢),我们其时也第一功夫跟进了。

到 2025 岁首,Kimi 提出 Moonlight 的改进。由于 Muon 是基于矩阵更新的(矩阵是二维的)所以训练时涉及一维参数的部门仍会用 AdamW,这就有一个二者之间的学习率的比例问题。

最初 Jordan 没有确定 Muon 和 AdamW 的学习率比例。Moonlight 的重要贡献是把这个比例根基确定为 0.2,这样使用者只需设置一个学习率超参数就能适配整个模型。这让 Muon 从理论创新走向了大规模利用。

误点 :能够说,是 Kimi 的 Moonlight 和 MuonClip(在 2025 年年中的 K2 中,Kimi 进一步改进 Muon 的版本)改进让业界起头更宽泛使用 Muon 了???

刘益枫 :对。DeepSeek V4 的进一步改进是,它没有效 Kimi 找的超参数 0.2,而是自己算了一个更精确的 0.18。

Muon 最起头用的是牛顿-舒尔茨五次迭代(一种用于矩阵归一化或求逆的数值迭代步骤),这是一个近似过程。而 V4 选取了十次迭代近似。每多一次迭代会提高推算亏损,但精度会更高,整体速度可能反而更快。

误点 :优化器的变动必要 infra 上做什么调整和共同???

赵晨阳 :推理侧不必要关切,由于不涉及参数更新;; ;训练侧肯定要做适配,并且是大工程,整个开源链条要从英伟达的 Megatron 或 Megatron-Bridge(英伟达颁布的工具库,重要用于在 Hugging Face 和 Megatron Core 体式之间无缝转换大模型权重,并提供高机能散布式训练框架)这一层起头改,再一层层往下传。闭源训练引擎怎么实现 Muon 我就不分了然。

刘益枫 :Muon 是矩阵层面的优化,会涉及大量矩阵乘法。若是某个矩阵很大,就必要大量拆分,甚至散布式训练。AdamW 不一样,它是每个元素单独更新,元素自身能够无限拆分。所以这是 Muon 特有的 infra 问题。

别的,预训练和后训练的优化器根基要维持一致。而后训练的 infra 结构更复杂,可能单机装不下,所以来训练适配 Muon 会带来更多结构批改。

误点 :此刻还没有效 Muon 的大模型,是以为 AdamW 仍有优势,还是没来得及改???

刘益枫 :大部门模型都改用 Muon 了,但也有一部门不太明显。好比千问就没有出格提及用的什么优化器。

我小我以为,没改的是没来得及改。尤其是后训练要若是要用 Muon,infra 会很难改 :笱盗访桓某,又会导致预训练就也只能用 AdamW。

误点 :是否使用 Muon,是现阶段判断一个模型团队 infra 能力的指标之一吗???

刘益枫 :能够这么说。但即就是用 Muon 的模型,在输入和输出这种???榛故堑糜 AdamW。

赵晨阳 :我极度认可益枫说的,优化器是检验一个团队工程能力的试金石。

但关于 AdamW 需不必要拆分倒不愿定,这取决于模型体量。模型大到肯定水平,不成能齐全数署在职何一个节点上,所以 Muon 和 AdamW 都必要复杂的并行战术,Muon 只会更复杂。

AdamW 会同时守护动量和速度两个 state,好多操作是元素级别(element-wise)的,切分相对单一。好比 ZeRO stage(显存优化技术)、FSDP(将模型参数、梯度和优化器状态齐全打散分配到整个 GPU 集群中的训练技术)、TP 对齐(确保被切分的矩阵维度巨细可能被参加并行的显卡数量整除的技术) 的逻辑都更单一。

Muon 的优势是砍掉了二阶动量,optimizer state (优化器在更新权重时必要持续纪录的内部汗青数据)从两倍降到一倍,能节俭相当多显存。但它在动量上跑完牛顿-舒尔茨迭代后,还要做正交化。这就不是逐元素过程了,而是更复杂的矩阵推算,必须拿到齐全的二维权重。若是参数已经被 TP 或 FSDP 切碎,就要先聚合回来再推算,涉及好多散布式道理。所以能够看到,Kimi 的 K2 只在数据并行(data parallelism)层面做切分,没有在张量并行上做切分。

此刻优化器层已经进入一个非;; ;旌、复杂的状态,有 Muon 也有 AdamW。Muon 不是单一代替 AdamW,而是用大量人力和工程复杂度换取大量显存和收敛效能。这笔账值不值得,取决于团队的工程水平、显卡数量和模型规!

刘益枫 :而这里每个专有名词背后都能够对应一篇文章。

残差衔接方式 :Seed、DeepSeek、Kimi 的引发与碰撞

误点 :聊完优化器,来聊聊 V4 的残差衔接方式。这次 DeepSeek 引入了 mHC,这是一个怎么的改进???

刘益枫 :mHC 之前,字节 Seed 先提出了 HC(Hyper-connection,超衔接),思路是扩大层与层之间的信息流宽度。以前的 Transformer,层之间只有 d 维的信息流宽度;; ;但此刻是 d 维上加了 channel 维,信息流宽度造成 d x c,推理能力显著提升。

不外正本 Hyper-connection 的数学道理导致梯度回传和训练不不变,所以 Seed 发了这个成就后,社区反映并不强烈。

而 DeepSeek 的 mHC 参与了 Sinkhorn 算法(一种数学归一化算法),重要用于约束路由和把稳力散布,使其更平衡、数值更不变,能在肯定水平上改善训练过程的不变性。

这个改进既必要对 HC 的潜力判断和详细分析,又必要基于内观指标,如梯度的 scale、激活值,从景象倒推怎么解决这个问题。

补充一点,Kimi 也刚刚在 3 月初提出了 Attention Residual,它有点像 DenseNet(重要用于 CNN 卷积神经网络的一种密集衔接结构,每层与之前所有层直接衔接),直接跨层相连,第一层能够直接影响最后一层。

mHC 和 Attention Residual 步骤分歧,但有异曲同工之妙——都是 layer-wise(层级别)地改进信息流。

误点 :这两种步骤的区别是什么???你以为哪种上限更高???

刘益枫 :尝试室更偏差搞 mHC,由于资源有限,mHC 的 Infra 实现更单一。

Attention Residual 对 Infra 的要求更复杂,它对每层之间关系有一个更精确的描述,我以为它的上限可能更高。

误点 :mHC 对推理框架的影响是什么???

赵晨阳 :mHC 把单一增长残差这件事造成了一个必要混合 GEMM(通用矩阵乘法,深度学习中最主题、最密集的数学操作)和 Sinkhorn 归一化的复杂操作。

带来的挑战是 :先前的算子对于 mHC 不够高效,我们必要为 mHC 单独写一些新的 kernel(算子核,能够单一理解为直接给 GPU 发的指令代码,通知芯片底层怎么做基础运算)。为新算法定制新 kernel 在 V3 之前并不频仍。但比力欣喜的是,我们此刻有了更多、更好的工具,如 TileLang。

Infra 两个关键词 :TileLang & FP4

误点 :正好你提到了 TileLang,接下来就是想聊 DeepSeek-V4 汇报里 infra 部门使用的 TileLang 说话和 FP4 训练精度。单一来说,这两个器材是什么,作用是什么???

赵晨阳 :先说 TileLang,我喜欢叫它 “太浪”,听起来像拳击大家的名字。

infra 要做的是在推算蹊径一样的情况下加快推算。好比写 kernel,就是结合底层硬件个性优化推算。同样一个 4096 乘 4096 的矩阵,能够按 128 拆,也能够按 256 拆。分歧硬件的显存、带宽分歧,适合的拆分方式也分歧。总之 kernel 就是让底层的矩阵推算更快。

写 kernel 的说话,通常各人会对比 CUDA、Triton 和 TileLang :

CUDA 是英伟达的护城河,机能最高,但开发和守护成本也最高。

Triton 由 OpenAI 开源,它降低了写 kernel 门槛,但就义了一些表白能力和机能。统一个 kernel 用 Triton 写,效能可能比 CUDA 低不少。

TileLang 走在中央,是北大团队提议的一个项目 :它比 Triton 更底层、表白能力更强,又比 CUDA 更好用,是国内发展起来的优良开源项目。

V4 汇报提到,他们能够用 TileLang 把一些 kernel 的启动开销压缩到微秒级,也提升了 “位级可重现”,就是一个 prompt 输入给 V4 后,若是用 TileLang,两次前向推理(神经网络从输入到输出的推算过程)的了局更容易复现,这对推理工程师 debug 很有援手。

TileLang 的持久价值是大大降低了为新算法急剧开发新 kernel 的边际成本。

DeepSeek 提出 mHC 时也写到,他们为 mHC 做了一版 TileLang 的 kernel。我们 SGLang 团队也针对推理场景的小批量解码做了 split-K(把矩阵乘法中的 K 维度拆开并行推算,以提升小批量场景下的硬件利用率)的 TileLang 版本。最近一年半,TileLang 已起头被全球前沿 lab 当作算法实现的默认选择之一。

以前做编译器这一层很苦,但此刻各人也看到了它的重要性。

误点 :你提到编译器和 DSL 底层说话,让我想到五年前采访鸿蒙其时的掌管人王成录,他提到十年前想做操作系统时,在国内很难招到会汇编说话的人才。

赵晨阳 :做编译器一向是极度伟大的事业,但也很苦、离贸易远、不被关注。

误点 :TileLang 最初是北大杨智教员团队提议的,后来也有好多社区贡献。那若是 TileLang 这类开源生态越来越繁华,和 CUDA 持久会是怎么的关系???是更丰硕 CUDA 的生态还是形成竞争???

赵晨阳 :很难说。就像模型厂商会发技术汇报,各人彼此借鉴,但也存在竞争。

刘益枫 :TileLang、Triton 和 CUDA 的关系,有点像 C++ 和汇编说话,或者 Python 和 C 的关系,是分歧层级的说话,CUDA 更底层。

误点 :那 TileLang 也能够用在其他芯片厂商更底层的软件系统上???

赵晨阳 :是的,事实上好多中国硬件厂商正在自动支持 TileLang 生态。

误点 :能够说 DeepSeek 在 TileLang 的投入比别人更多吗???V3.2 里就起头用了。

赵晨阳 :只能说他们投入好多,但不愿定比其他人更多。其他公司披露的内部技术实现有限。

误点 :这次的另一个变动是训练时的浮点数精度体式从 V3 的 FP8 造成了 V4 的 FP4。这是怎么的演进思路???

赵晨阳 :FP4、FP8、BF16、INT4 等等都是数值体式,数字代表存储位宽。好比 BF16 就是用 16 位存一个浮点数,FP4 只用 4 位。

DeepSeek-V3 是第一个把 FP8 做到大规模模型上的工作,到了 V4,他们又实现了 FP4。再往下会不会有更激进的优化和压缩???极度值得等待。

削减存储位宽的益处是削减峰值算力,同时提升显存容量和数据读取效能。但位宽太小也会导致训练中梯度溢出或归零。

DeepSeek 为相识决 FP4 训练问题,在预训练和后训练上都用了好多工程巧思。我比力熟悉的是 QAT 量化感知训练(训练时仿照量化误差以适应低精度部署)。DeepSeek 在后训练里做了 quantization-aware training,即训练时仿照量化、采样时真实量化。

强化学习能够当作两个阶段 :先采样,模型天生回复;; ;再打分,把了局拿去训练。训练阶段,优化器维持 FP32 主权重,推算前先压缩到 FP4 领域,再无损反量化回 FP8 推算。这个伪量化过程没有真正前向推算,但会体现量化误差。之后再用 block-wise 的 scale points(缩放系数点,用来校准量化领域)兜住离群点(数值异常偏大的参数或激活),让模型提前适应低精度损失。采样阶段则做真实 FP4 量化,把 FP4 权重真正用于采样,降低访存瓶颈,实现物理提速。更重要的是,这和后续模型部署一致。此刻 DeepSeek 颁布的 checkpoint(模型权重文件)也是 FP4,训练中采样用的权重就是最终颁布权重,而不是先训练 FP8 再量化成 FP4。这样损失更小,也提升了强化学习效能。

强化学习里,模型越大、token budget(单次推理可天生的最大 token 数量上限)越长,采样越重,可能占到 70% 以上功夫。采样时降低位宽和显存读取压力,对速度提升很显著。所以训练时伪量化、采样时真实量化,在 DeepSeek 论文里有很强体现。Kimi 的 K2 也用了类似思路。

我们 SGLang 的 RL 团队去年也做了两个有关工作 :FP8 全流程强化学习,训练和推理都用 FP8;; ;还有 INT4 的 QAT。INT4 和 FP4 不齐全一样,但也属于激进压缩规划。

疑神疑鬼地说,在开源领域,我们团队的量化 RL 做得比力当先,但和 DeepSeek 还有差距。zbo智博1919com INT4 量化感知训练,采样做的是 W4A16,也就是权重 4 位、激活值 16 位,DeepSeek 做到了更极限的 W4A8。极致机能上,他们走得更远,这也是我们接下来要持续攻坚的方向。

误点 :若是 DeepSeek 把官方推理框架开源,它和其他开源推理框架会是什么关系???

赵晨阳 :这涉及开源和闭源推理框架的哲学区别???赐评砜蚣苁侵诳谝,不只支持 DeepSeek,也要支持小米、智谱、MiniMax、Kimi 等模型。这种整合性,是它和闭源内部推理引擎的重大区别。

误点 :它给开发者或用户的价值是什么???

赵晨阳 :最大价值是满足好多公司本地部署推理引擎的需要,而开源推理引擎的机能提升,也会反过来推进闭源推理引擎。

训练上也类似。闭源仍当先不少,但开源能让整个领域更通明。以前开源框架对 RL 的适配负 :苤,一个模型 2 月上线,可能到 5、6 月才有开源 RL 框架能跑起来。这次 SGLang 在颁布当天就支持了 V4 RL 适配。

RL 和推理关系很近。推理是不带参数回传的前向传布,强化学习则重在采样,采样后做参数回传。我们还是很欣喜能在这么大的 MoE 模型上同时做好推理和 RL,并把一致性做到极致。

我也预感到,FP4 已经正式走出硬件厂商的 PPT,成为开源说话模型世界里真正跑通的工业尺度。

误点 :目前在这么大规模的开源模型里,FP4 是不是只有 DeepSeek 用了???

赵晨阳 :OpenAI 的开源模型 gpt-oss 也是,但各人技术选择不齐全一致。只能说 FP4 是全世界都在致力的方向。

刘益枫 :英伟达的开源模型也用 FP4 。Blackwell 卡也是支持 FP4 的。

后训练 :多专家训练 + 蒸馏的后训练

误点 :DeepSeek-V4 汇报最后两部门讲了训练过程,蕴含预训练、后训练和测评。这个部门有什么亮点吗???

刘益枫 :一个亮点是预训练先割裂专家,再做 on-policy distillation(在线战术蒸馏,指在当前模型现实采样散布上进行蒸馏,而不是只依赖离线固定数据)。最近各人又都在钻研 on-policy distillation,但各家做法差距很大。

蒸馏的话,之前 DeepSeek-V3 和 R1 都实际过,但 V4 是先训练一些小专家,再把这些专家学到的技术蒸馏出来,节俭参数量。训练中,专家越多,容量越大,但参数量和显存要求也越高。所以先让专家学好,再提取专家精华,从而提高最终模型能力。

赵晨阳 :他们做的是多专家训练,性质是在解决多指标优化问题。而同时优化指标的个数,是智力上限的体现。结合训练就相当于在多指标 loss surface(损失曲面,损失函数在参数空间的几何状态)上找 Pareto 最优(帕累托最优,无法在不侵害其他指标的前提下进一步改善肆意指标的状态),但工程里很难同时找到,由于梯度走向复杂,指标矛盾严重。好比一味 push coding 能力,数学可能变差;; ;数学修好了,指令遵循可能又受影响。

此刻先割裂再蒸馏的做法是 :在各个指标上找部门最优,再让一个学生模型拟合多个老师模型的输出散布。这有点像数学插值,把复杂 loss surface 上的结合优化,造成在已收敛离散点之间做插值,工程上更不变可控。

业界之前也有类似尝试。Qwen 在 post-training 阶段提过 multi-stage(多阶段训练或聚合)的专家聚合,学术界也一向有模型聚合、模型 Spawn(从已有模型派生或扩大新模型)这类技术。硅谷前沿闭源模型或许率也有类似思路,只是披露有限???瓷钦庖徊ㄖ泄⑹允叶 AI 领域的内容贡献。

误点 :关于测评部门,前面已有部门会商,还有什么补充吗???

赵晨阳 :有一位 NLP 领域很驰名的钻研者说过一句话 :We cannot optimize what we cannot evaluate,“若是一个器材我们无法评估,我们就无法优化它”。所以我更愿意把这件事叫 eval(评估),而不是 benchmark(测评)。测评面向的是具体工作,颁布一两年后就可能过期。但评估始终存在。

此刻评估也越来越难,由于场景越来越复杂。好比 Claude Code 更新后,常有人说某些方面变差了。我也在想,这类工具到底怎么评估一个 feature 要不要更新???由于做 Agent 的人有好多设法,每个听起来都有意思,但不成能全都满足。器材加得太多,履历反而变差。

整个行业必须把评估做好,不然很容易陷入自欺欺人的循环。

误点 :Opus 4.7 更新后,好多人还是以为 4.6 更好用。

赵晨阳 :此刻有个词叫 vibe checking 或 vibe benchmarking。各人已经很难判断模型曲直,只能凭据有限几次对话说 :以前 4.5 能做的工作,为什么 4.7 做不好???

我们已经进入 benchmark 的可信;; ; :枚嗄P驮 benchmark 上都是 90 多分,但现实差距很大。所以这一代针对智能体能力的评估还没有形成共识,行业还必要更好的评估基建。

刘益枫 :我感触更重要的是发现和提出新的领域能力,好比 Agent、长程把稳力能力。

误点 :V4 是不是没有提出什么新的领域能力???

刘益枫 :对,这也是它没有那么令人震惊的一点。

赵晨阳 :但有一点值得欣喜 :这几代模型没有显著退化,之前做得好的工作,后面没有变差,这很难,价值是模型高低文长度已非???浯蟆

讲到测评基准,去年 DeepSeek-V3 颁布时,我有一篇 ICLR 论文,评估说话模型在 GitHub 上面对刁钻审核者,提交 PR 并归并的能力。它和数学较量、SWE-bench(主流代码能力基准)很不一样,这个工作在实现编码后,还要和审核者做多轮批改沟通,再把代码归并进去。

我很欣喜自己做的 benchmark 得到了更多认可,即便今年已经被刷满了,但至少成为了 ICLR oral paper(会议口头汇报论文,代表较高认可度)。

好比最近我比力关注的一个基准是 ClawBench,就是评估 OpenClaw 场景下,用户对模型的中意度。我也但愿到明年,这种类似小我编程助手的 benchmark 能被刷满。之后注定还会有新挑战和利用。

美国追新能力、高定价;; ;中国追性价比、工程极限

误点 :最近模型更新密集,从 3 月底到此刻,有小米 MiMo 2.5、GLM 5.1、MiniMax 2.7、K 2.6、Opus 4.7、GPT-5.5 等等。你们感触各人此刻致力的共性是什么???

刘益枫 :开源模型的步骤和架构在趋同;; ;际 MLA,优化器也类似,之前各人用 AdamW 或者 AMSGrad(Adam 的一个变体,通过保留汗青二阶矩估计的逐元素最大值,限度自适应学习率颠簸,从而改善收敛不变性),此刻陆续转向 Muon 或基于 Muon 微调。

在能力上,Agent 是开源和闭源模型共同器重的方向。各人发现,将来模型贸易化可能更多是给 Agent 提供 token,而不是只靠订阅。

赵晨阳 :到底做订阅制,还是 token by token 计费???我更偏差订阅制,同时额度用完再收 token 费。现实上大部门用户用不完订阅额度,所以订阅制可能更赢利。

刘益枫 :但好多公司转向按 token 计费,也是由于此刻订阅的价值真的扛不住。高了没人买,低了又亏。

赵晨阳 :这的确没有定论。好比 Claude Code 这么成功,但到底盈利情况若何???

误点 :若是今年底 Anthropic 真启动 IPO,应该能看到财政数据。此刻好多视频天生产品是你说的订阅加现实亏损,订阅满额度后再额外买积分。影视从业者有刚需,客单价也比设想中高好多。

赵晨阳 :贸易上我很喜欢视频天生的生态。但坏新闻是,开源视频天生模型和闭源差距很大。

误点 :如同也没有太多人愿意开源视频天生模型,这是不是侧面注明它的确挺赢利???迄今比力先进的开源视频天生模型仍是阿里的通义万象。

赵晨阳 :我最近做语音天生模型,也发现开源模型相比 GPT-4o 那个时期的模型仍有不少差距。这些模型可能是很赢利。

刘益枫 :视频模型用户粘性也出格大。相比说话模型,视频天生模型可能更适合订阅制。

误点 :此刻关注度根基被 coding、通用 Agent 吸走了,由于竞争焦灼,也都是大公司。但视频或更广义的 AIGC 可能更创业敦睦。语音也是,像 ElevenLabs 也在自己的空间里持续发展。以上是各家大模型的共性。那你们观察到各家的差距是什么???

赵晨阳 :开源模型里,DeepSeek 和 Kimi 取向比力靠近,工程和创新性都做得比力极限,好比大 MoE、低激活、长高低文和极致成本优化。

GLM、Qwen、MiniMax 则在 RL 训练端、长高低文落地上有扎实堆集;; ;褂行∶,MiMo-V2.5-Pro 在 Arena 上的分数比 V4 还高。竞争极度强烈,当然这也给开源推理引擎带来很大工作量。

误点 :阶跃和混元呢???

赵晨阳 :阶跃在多模态上发力很早,并且我以为多模态远没有饱和。

混元最近由姚顺雨掌帅,新模型固然还不在 1T 以上模型的牌桌上,但在 300B 规模上做得很扎实。此刻是 3.0 Preview,若是之后上 Pro、进微信端,格局会很有意思。

误点 :中美之间的区别是什么???

刘益枫 :总体来说,美国模型更追求领域创新,好比长高低文、多模态融合、Agent 能力,或者像 OpenAI 刚发的 image-2 这种跨跃机能提升。

中国模型更侧重性价比。一致能力下,中国模型收费比美国模型低一个数量级。这和中国充足的技术人员储蓄、有限的算力资源都有关。

赵晨阳 :我之前在 Amazon AGI SF Lab 实习过,也和益枫在字节 Seed 实习过。美国这一代模型的重点是面向智能体的长程工作能力,好比 Claude Code,在多轮 agentic coding 上进取很大??D芄幌爰 RLHF、RLAIF(基于 AI 反馈的强化学习,用 AI 天生的评价或偏好信号来训练、对齐模型)这些对齐步骤经过几年堆集,已经形成很强的数据闭环。

中国团队的强项是架构创新密度和工程实现度。V4 汇报里一次性把混合稀少把稳力、mHC、Muon、FP4、TileLang 这么多事件全数换掉并跑通,这种刻意和执行力很罕见。中美蹊径微风格分歧,但行业在螺旋上升。

误点 :美国模型如同没有做得那么稀少,他们不太追求这个。

刘益枫 :美国算力相对多,也不愿定要这么稀少。太稀少会就义一些能力上限。

赵晨阳 :这也和美国短缺高质量的工程人才有关。

误点 :所以美国 AI lab 更偏差于先冲机能。归正模型贵也有人买,之后再思考降成本。

赵晨阳 :对 :枚嗳似菲乐忻来蟾 AI 较量,但我感触很遗憾,只有中美能搞较量,没有其他国度玩得起这一波角逐了。

误点 :V4 或最近这些新模型,会对你们接下来的钻研方向和具体工作产生什么影响???

刘益枫 :若是在公司实习,我会想做 CSA、HCA 这类 token-wise 压缩的长文本方向。但尝试室资源有限,很难做长文本,所以我偏差钻研 Hyper-Connection、 Kimi 的 Attention Residual。这可能类似从 ResNet(残差网络,通过跨层捷径衔接缓解梯度隐没问题的经典视觉架构)到 DenseNet 的变动。对 Transformer 架构来说,也可能会出现提高层间信息流动的新趋向。

别的我也在做优化器。DeepSeek-V4 选取了分歧超参数。Muon 怎么进一步改进、超参数怎么设定,都值得钻研。Keller Jordan 的五步牛顿-舒尔茨迭代,和 DeepSeek-V4 的十步牛顿-舒尔茨迭代哪个更好,值得持续索求。

赵晨阳 :我之前的一个钻研是评估多轮 Agent 在 GitHub 上提交 PR 时的真实阐发。此刻我必要把它用起来。由于守护开源工具时,会收到好多 AI 天生的 PR,我必要把钻研里的尺度内化到工作中,判断哪些 PR 靠谱、哪些应该毙掉。

别的我最近做语音模型,它的工程优化比说话模型差好多,好多说话模型里的工作都能够在语音模型上重试一次。DeepSeek 这版做了很优良的 PD 分离(Prefill-Decode 分离,将推算密集的预填充阶段与访存密集的解码阶段分配到分歧硬件以提升整体吞吐)、MTP 等工作。语音模型不定用得上 PD 分离,但 MTP 很关键。好比此刻和豆包语音对话,它语音吐出的速度很快。但开源模型在这方面还没做到这么好。

误点 :最后想问两位,再过一两年来看,V4 最可能被记住的是什么成就或者思路???

刘益枫 :从算法层面看,可能是 token-wise 的极致压缩。之前各人更多是在 KV-cache 上做单 token 降维,好比 MLA 的先降维再升维。但 token-wise 压缩,应该是 V4 首先利用到了工业级模型上。

赵晨阳 :我和益枫概念类似。长高低文、极致低激活比例、低单 token 成本这个组合,无论从架构层面还是基础设施层面看可能都是 V4 的悠久遗产。

具体到 mHC 或混合把稳力,不定会一向以此刻的方式。它们可能像 MLA,是某个阶段的最优解,过一两个周期后会被更优雅的规划代替,当然硬件也会反过来推动迭代。

但 DeepSeek-V4 率先验证的这套工程配方,会成为后续好多开源大模型的默认起点。在这个意思上,DeepSeek 一向是开源模型的参考基准。

更多技术会商,可联系两位播客嘉进一步互换 :

赵晨阳(wechat :LoveDeathAndLLM)、刘益枫(wechat :lauyikfung20)

题图起源 :PinkPantheress-Romeo

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、互换您的概念。

最新文章

热点文章

随机推荐

【网站地图】