zbo智博1919com

新闻中心 新闻中心

Claude、、、GPT、、、Gemini 全灭 ,SWE-Bench作者新作把AI圈干寡言了

编纂|Sia

作者::娄冠宇
颁布功夫::2026-05-14 22:06:38
阅读量::46

Claude、、、GPT、、、Gemini 全灭 ,SWE-Bench作者新作把AI圈干寡言了

编纂|Sia

SWE-Bench 的创建者 ,刚刚又放出了一个地狱级新 benchmark。。 。

了局相当震撼::

Claude Opus 4.7、、、GPT-5.4、、、GPT-5 mini、、、Gemini 3.1 Pro、、、Gemini 3 Flash——这一代险些所有最强的一线模型 ,全数 0% 实现率。。 。

没有一个模型 ,可能真正齐全重建一个软件项目。。 。

这意味着什么?

今天的大模型 ,已经很会写代码了 ,但依然不会做软件工程。。 。

最近 ,Meta FAIR 结合斯坦!!、、、哈佛等机构颁布了一项很有意思的新 benchmark ,性质上是在重新界说 AI Coding 的评估方式::

ProgramBench: Can Language Models Rebuild Programs From Scratch?

从前的大模型编程 benchmark ,大多测的是部门能力::补全函数、、、修复 bug、、、实现 feature……性质上 ,依然是在已有代码结构里做部门批改。。 。

而 ProgramBench 第一次把问题推动到了真正的软件工程层面::若是只给 AI 一个法式的职能描述和 usage docs ,它能不能像真正的工程师一样 ,从零起头 ,重新构建一个真实、、、可执行的软件系统?好比 ffmpeg、、、SQLite、、、ripgrep。。 。

并且——不能联网。。 。

换句话说::模型到底有没有工程智能?

为了测试这一点 ,钻研团队直接删除了原始源码和测试 ,只保留 executable 和 usage docs ,模型必要自己决定说话、、、架构、、、模块拆分、、、数据结构甚至整个 repo 的组织方式。。 。

更关键的是 ,ProgramBench 不再依照源码类似度打分。。 。它选取的是 behavioral equivalence ,行为等价。。 。也就是说 ,你能够用齐全分歧的说话、、、算法、、、架构 ,甚至齐全分歧的工程实现。。 。只有最终输入输出行为与原法式一致 ,就算通过。。 。

钻研团队甚至使用了 agent-driven fuzzing ,自动天生大量端到端行为测试。。 。

这是第一次 ,一个 benchmark 真正起头逼近现实世界的软件工程 ,而不再只是代码做题。。 。了局出来之后 ,整个 AI 圈都寡言了。。 。

所有模型::0% 实现率。。 。

Table 2 掌管束作震撼 ,那么 Figure 4 掌管诠释震撼背后的细节。。 。它通知我们 ,模型并不是齐全不会做 ,而是时时能做出一部门 ,甚至在少数工作上靠近实现;但只有要求 100% 行为等价 ,所有模型城市倒下。。 。但这最后一公里 ,正是软件工程和通常代码天生最大的区别。。 。别的 ,若是矮子里面拔将军 ,Claude 系列(尤其是 Opus 4.7 和 4.6)阐发相对最好。。 。

即便论文专门增长了一个Almost指标——统计那些实现度超过 95% 的工作。。 。目前阐发最强的 Claude Opus 4.7 ,也只有 3% 的工作靠近实现。。 。

论文里 ,有一句出格关键的话::

Models favor monolithic, single-file implementations that diverge sharply from human-written code.

翻译过来就是::模型极端偏差于天生单体化代码。。 。大量逻辑被塞进单文件;目录结构极浅;模块拆分极少;函数超长;整个 repo 看起来像一坨巨型剧本。。 。

这和优良人类工程师的习惯 ,险些齐全相反。。 。

后者往往讲求模块和关注点分离 ,会把代码拆得很优雅——配置放config.json ,工具函数放utils.py ,数据库操作放db.py ,而后通过import相互挪用。。 。

这其实露出出了一个非:V魈獾奈侍::AI 善于的是部门代码天生 ,但不善于全局系统规划。。 。而真实的软件工程 ,性质上刚好是后者。。 。

这也是为什么模型在 LeetCode、、、SWE-Bench、、、Copilot 场景里已经极度强 ,一旦进入真实世界的大型工程系统 ,就会迅速掉进深水区。。 。

当前 AI Coding 的真正瓶颈已经不再是代码天生能力 ,而是持久的软件系统构建能力。。 。

另一个很有意思的了局 ,是分歧说话之间的阐发差距。。 。

钻研团队别离统计了模型在 C/C++、、、Go、、、Rust 等分歧说话项目上的阐发。。 。能够显著看到 ,传统 C/C++ 项目实现度最高 ,而 Rust 阐发最差。。 。

分歧模型在职务难度上的排序高度一致::nnn、、、fzf、、、gron 这类相对单一的 CLI 工具 ,模型普遍能拿到更高通过率;但 FFmpeg、、、php-src、、、typst、、、ast-grep 这类复杂系统 ,险些所有模型都很难推动。。 。这注明 ProgramBench 测到的不是某个模型无意失手 ,而是复杂软件系统自身对当前模型形成了不变压抑。。 。

这其实并不让人不测。。 。

互联网里关于 C/C++ 的汗青代码、、、工程实际和 Stack Overflow 内容切实太多了 ,模型已经被这些模式浸泡了好多年。。 。

而 Rust 的工程哲学自身就更强调模块化、、、ownership、、、trait system 和持久可守护性 ,这些刚好是当前模型最不善于的器材。。 。

某种意思上 ,Rust 测出来的 ,其实不是代码能力 ,而是工程能力。。 。

随着 ProgramBench 引发热议 ,萦绕这项 benchmark 的争论也起头迅速扩散。。 。其中最重要的质疑之一是::这不就是在考模型有没有背过 FFmpeg 吗?终于 ,ProgramBench 里的好多项目自身就是公开开源软件。。 。

对此 ,驰名硅谷投资人 Deedy Das 专门发文回应::任何 benchmark 都可能被 overfit。。 。

SWE-Bench 能够被记住 bug ,LeetCode 能够被背题 ,甚至 ARC-AGI 将来也可能通过暗藏题库来预防泄漏。。 。单纯会商是否存在影象自身 ,其实并不能否定 benchmark 的价值。。 。

他以为::若是模型真的试图用 brute force 的方式去硬背这些法式 ,它往往会在此外处所显著退化。。 。

由于真正的大模型训练 ,并不是单一把整个 FFmpeg 塞进参数里。。 。更何况 ,钻研人员还能够通过比对天生代码与原始源码的类似度 ,去检测是否存在直接 memorization。。 。

他真正想强调的 ,从底层重建一个真实世界的软件系统 ,自身就是一种高 utility、、、长功夫跨度的复杂工作。。 。若是模型真的可能推理并实现这类工作 ,那么这种能力很可能会泛化到大量其他工程场景中

另一类争议则更有意思。。 。有人吐槽说::连人类都不成能从零重写 FFmpeg ,这 benchmark 底子不合理。。 。

Deedy Das 回应 ,那又怎么?今天好多 LLM 能做到的事件 ,人类均匀水平也做不到。。 。

benchmark 的指标 ,从来不是仿照通常人的均匀能力 ,而是推动模型向更高档次的智能逼近。。 。人类做不到 ,并不料味着 benchmark 没价值。。 。

好比 ,AlphaGo 下棋超过绝大无数人 ,并不影响它推动了 AI;同样 ,一个远高于通常工程师能力天堑的 benchmark ,也可能是将来 Agent 系统必须攻克的问题。。 。

当然 ,他也认可 ,ProgramBench 依然存在不少缺点。。 。好比 ,目前它没有测试 Claude Code、、、Codex 这类齐全的 agent harness;只统计是否实现 ,没有更细粒度地衡量进展。。 。

同时还限度了联网能力 ,以预防一些显著舞弊行为。。 。

Deedy Das 赞成 ,这可能导致模型为了在特定指标上得分而走偏(Hill-climbing on the wrong thing)。。 。不外 ,人们也随时能够增长一项在有网络接见权限下的机能测试作为对比。。 。

还有人建议::为什么不用真正没人解决过的新问题?对此 ,Deedy Das 暗示 ,由于那会让 benchmark 险些无法构建。。 。

你很难为一个没有尺度答案的问题设计完整测试;也很难判断工作是否真的属于现实世界工程工作 ,还是钻研者凭空凭空出来的 challenge。。 。

但这些问题 ,其实都能够随着 benchmark 演进持续修改。。 。

真正重要的是::ProgramBench 第一次把 AI Coding 的评估 ,从函数级拉到了系统级。。 。它露出出的 ,也是整个行业当前最大的断层::真正的软件开发 ,从来都不是写一个函数 ,而是若何做出一个能被守护、、、被扩大、、、被团队合作的工程系统。。 。

今天的大模型 ,已经极度擅永天生部门代码。。 。但依然不足持久、、、一致、、、不变地守护复杂系统的能力。。 。

所以你会发现 ,最近整个行业都起头疯狂钻研另一批关键词::memory、、、agents、、、repo-level reasoning、、、long-horizon planning、、、autonomous software engineering。。 。

由于下一阶段的竞争 ,可能已经不再是谁能一次性天生更长的代码 ,而是谁能在长功夫、、、多轮交互、、、复杂高低文中 ,持续不变地守护一个在世的软件系统。。 。

论文链接::

https://programbench.com/static/paper.pdf

 

文章点评

未查问到任何数据!!!

颁发评论

◎欢迎参加会商 ,请在这里颁发您的见解、、、互换您的概念。。 。

最新文章

热点文章

随机推荐

【网站地图】