zbo智博1919com

起源:一步一跪一磕头只为求你安然作者

起源:一步一跪一磕头只为求你安然作者: 黄肇治:

DeepSeek过于朴素了

出品|虎嗅科技组

作者|宋思杭

编纂|苗正卿

头图|视觉中国

“不诱于誉,,,不恐于诽,,,率道而行,,,端然正己。。。。”

这是4月24日,,,DeepSeek在颁布V4预览版时写在公家号文章末尾的话。。。

放在当下的语境,,,来解读这句话的意思是,,,无论外界若多么候 、、若何猜测,,,DeepSeek仍按自己的节拍走,,,不被赞美裹挟,,,也不被感情推着走。。。

甚至相比于其他几家基座模型公司,,,DeepSeek显得过于朴素了——不刻意刷榜 、、不思考贸易化 、、不优化用户履历,,,只是充任好一个“修路人”的角色。。。

功夫拨回至R1颁布当天,,,行业迅速沸腾,,,而在往后的这459天里,,,各人一壁等待着DeepSeek的新模型,,,一壁见证了智谱和MiniMax两大国产模型纷纷登陆本钱市场,,,两家市值均一度冲破3000亿元。。。

就在DeepSeek正式颁布V4后的几分钟,,,本钱市场再次给出反馈。。。约上午11时05分,,,港股大模型板块急剧震荡,,,智谱与MiniMax双双跳水,,,盘中一度别离跌超10%和12%。。。

这是从前一年行业最鲜明的变动之一:国产模型初次被本钱市场定价,,,也让DeepSeek被不休投射为下一次行业变量。。。

与此同时,,,Kimi 、、Minimax 、、Qwen和智谱等模型再三登顶,,,但在此期间,,,DeepSeek却一向悄无声息。。。

而今天DeepSeek的新模型终于来了,,,但从这个新模型V4来看,,,它并不属于公共所理解的”行业顶尖“,,,至少这个“当先”不是榜单所界说的。。。

据 Artificial Analysis 数据,,,V4 Pro 在世界知识类 benchmark 中已跻身全球前列,,,仅次于 Gemini-Pro-3.1。。。综合阐发来看,,,DeepSeek V4 已当先无数开源模型,,,整体机能起头逼近顶级闭源模型。。。

也就是说,,,若是依照各人等待,,,V4应该会是再一次震惊行业的“顶尖”模型,,,但这不是DeepSeek给自己的界说。。。它给自己的界说一向都是追求性价比。。。

和其他基模公司比,,,DeepSeek过于朴素

在几家头部大模型公司里,,,DeepSeek一向有一种很出格的气质:朴素。。。

这种朴素,,,不是指产品单一或者技术激进与否,,,而是它很少像一家尺度AI创业公司那样,,,被融资节拍 、、贸易化压力和市场感情推着走。。。某种水平上,,,它不急着证明自己能赚几多钱,,,因而反而更有空间去做自己真正想做的事。。。

虎嗅对比了几大基座模型的技术路线后发现,,,和DeepSeek最类似的就是Kimi了。。。

两家公司都带有鲜明的技术梦想主义色彩,,,也都曾凭借模型能力在行业里打出辨识度。。。就在V4颁布前两天,,,Kimi刚刚推出K2.6,,,并称其为颁布以来最好的代码模型。。。与此同时,,,DeepSeek在V4颁布文章中也提到,,,他们内部同样在将V4作为公司内部员工使用的 Agentic Coding 模型。。。

这意味着,,,两家公司都把代码能力视作模型价值的重要方向。。。

类似点还不止于此。。。这次V4的另一大特点,,,是原生支持1M高低文,,,并强化长链路推理能力。。。而长高低文 、、复杂工作处置,,,同样是Kimi从前一年持续强化的标签。。。

若是只看代码 、、长高低文 、、复杂工作这些理论能力天堑,,,Kimi与DeepSeek似乎正在越来越靠近,,,甚至能够说,,,两家齐全撞车。。。

但若是仔细拆开,,,会发现两家公司走的其实是两条齐全分歧的技术路线。。。

Kimi从前持久强调的,,,是线性把稳力路线。。。它的主题思路,,,是让模型在超长高低文 、、多步骤工作中,,,把推算成本节制在可接受领域内,,,再叠加Agent系统 、、工作编排 、、多轮挪用等能力,,,让模型像一个能够持续工作的执行系统。。。

而DeepSeek V4这次在技术汇报中强调,,,使用的是混合把稳力架构(Hybrid Attention):通过 CSA(Compressed Sparse Attention,,,压缩稀少把稳力)与 HCA(Heavily Compressed Attention,,,重度压缩把稳力)交替共同,,,对汗青高低文进行分层压缩和选择性读取,,,在维持百万级高低文能力的同时,,,大幅降低推理成本。。。

汇报数据显示,,,在100万token场景下,,,DeepSeek V4-Pro 的单token推理 FLOPs 降至上一代模型的27%,,,KV Cache占用降至10%。。。

单一来说就是,,,Kimi的思路,,,更像是把一个复杂工作拆成好多步骤,,,再组织多个智能体合作实现;;;DeepSeek的思路,,,则是先把底层存在的问题先一点点解决掉,,,把地基搭好,,,让模型在底层推算结构上先变得更高效。。。

这两者看起来是,,,一个是在职务层做加法,,,一个是在系统层做减法。。。

但若是依照这个逻辑来看,,,能够得到一个结论是,,,在面对统一项复杂工作时,,,Kimi往往会亏损更多token。。。

原因并不复杂。。。由于当模型起头承担真实工作流程时,,,token亏损不再只是用户输入与最终输出,,,还蕴含工作拆解 、、中央推理 、、多轮挪用 、、工具返回了局 、、谬误修改以及多个Agent之间的高低文同步。。。用户只输入一句话,,,后盾可能已经实现了十几轮运算。。。

当然,,,这并不料味着Kimi的技术路线有问题。。。尤其是在当下,,,AGI的技术路线并未收敛确当下,,,任何一种技术路线都有各自的曲直势。。。

那么,,,作为一家更强调贸易化落地的公司,,,Kimi做的事件是优化用户履历,,,首先让好多企业和小我用户愿意为Kimi付费。。。某种水平上,,,它已经靠近“可交付的出产力工具”。。。若是一个模型多亏损一些token,,,却替用户节俭了3小时工作功夫,,,这笔账不定不划算。。。

也就是说,,,Kimi追求的,,,是token被亏损后的产出效能;;;而DeepSeek追求的,,,则是token自身的推算效能。。。

这两种选择背后,,,极度鲜明地体现出两家公司分歧的底色。。。

DeepSeek背后的母公司幻方量化,,,性质是一家量化机构。。。量化买卖天然强调两件事:效能与收益率。。。任何战术都要推算投入产出比,,,任何系统都要追求速度 、、不变性与资源利用率。。。在这种文化下成长出来的团队,,,会很天然地关注大模型的效能问题。。。

这也诠氏缢为什么DeepSeek总在做一些看起来没那么热烈 、、却极其关键的事件,,,好比MoE 、、推理优化 、、把稳力重构 、、算力利用率提升。。。

由于对幻方来说,,,大模型不定是一门独立生意,,,但它首先必要是一套提升钻研效能 、、分析效能与决策效能的基础工具。。。

换句话说,,,梁文锋也许并不关注DeepSeek能为他带来几多收入。。。他有更长的功夫尺度,,,也更能接受先做难而慢的事。。。

Kimi则分歧。。。月之暗面从缔造第一天起头,,,就是一家尺度意思上的AI创业公司。。。它必要融资,,,必要增长,,,必要向市场证明模型能力最终能够转化为真实业务。。。杨植麟当然有很强的AGI梦想主义色彩,,,但Kimi必须同时面对贸易化的现实问题。。。

这也决定了,,,Kimi会更积极地靠近用户需要 、、代码需要 、、Agent需要和付费需要。。。它的模型迭代节拍 、、产品节拍 、、组织节拍,,,更像一家必要持续驰骋的创业公司。。。

所以,,,看起来都在做长高低文 、、代码模型和复杂工作,,,两家公司却在解决齐全分歧的问题。。。

这也是为什么DeepSeek总显得“不焦急”。。。

国产代替,,,仍在路上

在V4颁布前,,,外媒曾屡次“预报”DeepSeek将齐全切换至国产模型训练,,,并逐步脱节对英伟达的依赖。。。

然而,,,从V4颁布的技术汇报来看,,,这一新闻不定是真的。。。

DeepSeek仅在汇报中强调了,,,其已经验证了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上验证了 EP(专家并行)规划。。。但并没有明确提到DeepSeek已经切换至华为昇腾芯片上做训练,,,

更正确地说,,,它注明的是,,,DeepSeek已经在系统层面实现了跨平台适配,,,至少让V4这类MoE模型可能同时运行在英伟达与昇腾两套硬件架构之上。。。但这并不直接意味着,,,其主题训练工作已经脱离英伟达。。。

换句话说,,,DeepSeek极有可能依然依赖于英伟达芯片做训练,,,而用国产芯片实现推理工作。。。

这其实也是当前行业更现实的蹊径。。。

原因并不复杂。。。预训练阶段对芯片生态要求极高,,,涉及大规模并行训练 、、通讯带宽 、、编译器成熟度 、、故障复原能力以及持久不变性。。。相比之下,,,推理环节对算力的要求更分散,,,也更适合率先实现国产代替。。。因而,,,很多公司采取的并不是“一步到位切换训练底座”,,,而是先从推理侧起头迁徙。。。

有多位行业人士在虎嗅交谈时暗示,,,“若是真的彻底切换至国产芯片,,,V4可能不会这么快到来。。。。”

然而,,,比切换至国产芯片上训练更值得关注的是,,,DeepSeek这次在工具链层面的变动。。。

从前,,,DeepSeek曾因深度使用 PTX 编程说话而受到关注。。。PTX能够理解为英伟达GPU生态中的底层中央说话,,,靠近汇编层,,,可能极致榨取单卡机能,,,但天然绑定英伟达系统,,,开发门槛高,,,可迁徙性也有限。。。

而在V4汇报中,,,DeepSeek不再强调PTX,,,而是提到了 DSL(Domain-Specific Language,,,领域专用说话),,,例如其选取 TileLang 这类面向AI算子优化的DSL,,,以平衡开发效能与运行效能。。。

两者的区别在于:PTX是一种直接操作英伟达机械的底层说话,,,追求极限机能,,,但强绑定英伟达;;;DSL则更像是一层中央抽象,,,让团队在维持机能的同时,,,更快开发算子 、、更容易适配分歧芯片平台。。。

这意味着,,,DeepSeek固然不定已经实现国产芯片训练代替,,,但它至少已经起头让自己的模型不再强绑定英伟达,,,将来有可能逐步切换到国产芯片上训练。。。

不做被等待的DeepSeek

DeepSeek并不筹算成为外界等待中的那个DeepSeek。。。

从前一年,,,DeepSeek被行业赋予了太多角色。。。有人等待它再次复制R1时刻,,,颁布一款重新震荡行业的顶尖模型;;;有人等待它成为中国大模型脱节英伟达依赖的象征。。。

但V4的颁布证明,,,DeepSeek并没有被打乱节拍。。。

它依然是一家萦绕着“效能”做模型的公司,,,例如,,,混合把稳力架构 、、KV Cache压缩 、、百万高低文推理成本降落 、、专家并行优化 、、跨平台Kernel设计,,,这些内容并不算“性感”,,,但都极度重要。。。

但这些不算性感的工程化改进,,,正在逐步解决大模型目前依然存在的bottleneck。。。

从这个角度看,,,DeepSeek和其他基座模型公司已经不站在统一维度上了。。。当不少公司还在抢夺入口 、、抢夺用户时,,,DeepSeek更关切的是,,,怎么把单元智能的成本持续压低,,,怎么让同样的能力亏损更少算力。。。

所以,,,“不诱于誉,,,不恐于诽,,,率道而行,,,端然正己”,,,放在V4结尾,,,与其说是一种姿势,,,不如说是向公共表态——DeepSeek选择持续做那个更默默的DeepSeek。。。

本文来自虎嗅,,,原文链接:https://www.huxiu.com/article/4853463.html?f=wyxwapp

@倪秀琴:www女自慰被噜噜游戏,,,俄军事专家预测俄军新年攻势
@陈萱珍:结合国回应美关闭委内瑞拉是否违法
@侯柏宇:孙颖莎回应角逐拖场

【网站地图】