起源::11月中纪委传递6名中管干部
港科大联手社区开源StarVLA::一个框架揭秘所有主流VLA
若是说 2017 年的 PyTorch 让深度学习从 "少数派的炼丹炉" 造成了 "人人可用的工程平台",,,那么具身智能(Embodied AI)正在期待属于它自己的 "PyTorch 时刻"。。
从前两年,,,VLA(Vision-Language-Action,,,视觉-说话-作为)模型险些是机械人领域最火热的方向::从 Google 的 RT-2、、Physical Intelligence 的 π?,,,到 NVIDIA 的 GR00T、、OpenVLA、、Cosmos…… 险些每隔几周就有新模型刷屏。。但走进任何一个机械人尝试室你城市发现一个狼狈的现实::
想复现一篇论文??代码不全、、数据接口对不上;;想平正对比两种步骤??训练和谈、、评估基准各搞一套;;想换个作为头试试??整个工程险些要重写一遍;;想知晓 "VLM 主干" 和 "World Model 主干" 到底谁更强??没有人在一致前提下比过。。
整个 VLA 领域看似繁华,,,实则像是一个个 "黑箱" 散落在分歧尝试室里。。
最近,,,来自港科大和开源社区团队推出了StarVLA盛开钻研平台。。与其说他们创制了一个全新的 VLA 模型,,,不如说他们做了一件更 “基础设施” 的事::将当前主流的 VLA 范式、、作为头、、训练战术和评估基准,,,统一整合到统一个开源框架中,,,让所有尝试都能够在平正、、通明、、可复现的前提下进行。。
值得一提的是,,,StarVLA 并非一挥而就的新品,,,它早已在社区中经过充分检验,,,占有超过 2.2k的 star,,,并获得了宽泛认可,,,一向是社区最盛行的框架之一,,,仅次于美国 NVIDIA 和 Physics Intelligent,,,在国内同类项目中中断档当先。。
这或许正是 VLA 领域所必要的 “PyTorch 时刻”—— 不再只是比谁的 demo 更炫,,,而是让钻研者们站在统一条起跑线上,,,将 VLA 真正作为一门能够科学验证的学科来深刻钻研。。
论文标题::StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing论文::https://arxiv.org/pdf/2604.05014代码::https://github.com/starVLA/starVLA支持基准::LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...
一、、为什么说 VLA 必要一个 "PyTorch 时刻"??
回首深度学习的发展史,,,会发现一个法规::任何一个领域真正发作,,,都离不开一个统一的、、盛开的、、可复现的尝试平台。。
推算机视觉之于 ImageNet + Caffe / PyTorch;;天然说话处置之于 HuggingFace Transformers;;大模型微调之于 LLaMA-Factory、、DeepSpeed。。
而 VLA 目前正处在 ImageNet 之前的 "前夕"::模型好多、、demo 很炫、、论文产出很快,,,但没有人能通知你,,,在严格节制变量的前提下,,,哪种设计真的更好。。
举几个具体的 "魂灵拷问"::
自回归作为分词(FAST)、、并行回归(OFT)、、Flow Matching(π?)、、双系统(GR00T)——这四种作为头在统一个主干下的阐发到底差几多??VLM 路线(RT-2、、π?)和 World Model 路线(Cosmos,,, DreamZero)——真的是两条性质分歧的路,,,还是只是 "辅助信号" 的选择分歧??多模态协同训练、、跨具身结合训练 ——到底有没有效??提升有多大??在 LIBERO 上 SOTA 的步骤,,,到 RoboCasa、、RoboTwin, Behavior 上还能打吗??
在 StarVLA 之前,,,这些问题险些没有人能给出系统性答案—— 由于底子没有同时支持这所有的统一平台。。
二、、StarVLA 是什么??一个 "全栈式" 的 VLA 尝试平台
StarVLA 的设计哲学非??朔::不发现新步骤,,,而是把别人发现的好步骤,,,统一搬到一个屋檐下。。
整个框架由四层可插拔??樽槌::
每一层都能够自由代替、、自由组合。。 想做 "换作为头不换主干" 的对比??改一行配置。。想验证 "协同训练" 的成效??改一个开关。。想把 LIBERO 上训好的模型搬到 RoboTwin 上跑实机??统一个接口。。
这就是为什么我们说它是 VLA 领域的 "PyTorch 时刻"——它把之前必要重写整个工程能力做的事,,,造成炼一行配置文件的事。。
三、、广义 VLA 视角::所有步骤,,,其实是一个公式
在统一这些步骤的过程中,,,作者还提出了一个极度美丽的理论观察。。
VLA 看似门户众多 —— 有的基于说话模型,,,有的基于视频天生模型;;有的自回归,,,有的扩散;;有的单系统,,,有的双系统 —— 但当你把它们都塞进统一个框架后会发现,,,它们在数学结构上能够用统一个公式表白::
分歧步骤的性质区别,,,仅在于选用什么 "预训练模型初始化" 以及 "辅助训练的信号" 是什么::
VLM 路线::辅助信号是说话推理(让模型持续 "会措辞");;World Model 路线::辅助信号是将来画面预测(让模型持续 "会设想");;极简路线::索性没有辅助信号,,,纯作为监督。。
作者把这个统一视角称为"广义 VLA"(Generalized VLA)。。它意味着::与其纠结 "该选哪条路线",,,不如思虑 "该选什么样的辅助信号"。。这一视角,,,为后续 VLA 的系统性钻研提供了一个清澈的理论坐标系。。
VLM to VLA 和 World-Model to VLA 的统一架构
四、、几个 "反直觉" 的尝试发现
固然 StarVLA 主打 "平台" 而非 "刷榜",,,但作者在搭建过程中也 "顺手" 做了一批严格节制变量的尝试,,,了局颇有意思::
发现 1::极简设置就能打出强基线
不做任何数据加强、、只用基准原始数据和公开预训练权重,,,StarVLA 在 LIBERO 上仅用 30K 步就达到了 98.8% 的成功率,,, 在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大厂的模型拥有极度靠近的成效。。
而前人代表步骤 OpenVLA-OFT,,, GR00T, PI 等 在统一基准上必要 175K 步 ——训练步数削减了 6 倍。。
这注明::以前好多论文堆的 "训练 trick",,,可能并没有设想中那么必要。。一个干净、、统一的工程实现自身,,,就能开释出巨大的机能空间。。
发现 2::数据 "杂" 反而更强 —— 通用模型超过专用模型
把 LIBERO、、SimplerEnv、、RoboTwin、、RoboCasa 四个基准的数据混在一路训练统一个模型,,,了局在难度最高的类人操作基准RoboCasa-GR1 上,,,成功率从 48.8% 提升到了 57.3%。。
这意味着::跨工作、、跨状态的多样化数据并不会 "互有关扰",,,反而会带来正向迁徙。。这是支持 "机械人大一统模型" 路线的一个重要经验证据。。
发现 3::VLM 主干 vs World Model 主干,,,差距没有设想中大
在统一个 OFT 作为头下别离接入 Qwen3-VL(VLM 路线)和 Cosmos-Predict2(World Model 路线),,,两者的机能相当靠近。。
这是一个极度重要的初步结论::业界一向在争论的 "哪条路线才是 VLA 的将来",,,可能自身就是个伪命题—— 真正决定机能的,,,也许并不是主干的 "血统",,,而是辅助信号、、训练战术和数据组合。。
发现 4::不做协同训练,,,VLM 会在几千步内 "失忆"
把一个预训练好的 VLM 微调成机械人战术时,,,它在几千步内就会迅速迷失原有的视觉理解和说话推理能力—— 物体鉴别变差、、空间定位崩坏、、指令理解退化。。
而参与多模态协同训练后,,,模型能够同时保住 "动脑" 和 "着手" 两种能力。。这一景象在论文中以清澈的曲线图出现,,,给所有想要微调 VLM 做机械人的钻研者提了一个醒。。
五、、为什么这件事 "值得被看见"??
VLA 是当前最受本钱和学术界关注的具身智能方向之一,,,但它也是最容易陷入 "内卷式刷榜" 的方向::每家都汇报自己 SOTA,,,但没人能在平正前提下被验证。。
StarVLA 的意思刚好在于突破这种困境::
?对钻研者::终于有了一个可复现、、可节制变量的尝试平台,,,做消融、、做对比不再必要从零造轮子;;
?对工程师::??榛杓 + 统一接口,,,从 "换主干" 到 "换基准" 再到 "上实机" 全数买通;;
?对整个领域::当所有步骤都能在统一个框架里被平正地 "摆出来",,,VLA 的发展就从 "比谁声音大",,,进入到 "比谁经得起验证" 的科学阶段。。
这正是一个领域走向成熟的标志 —— 也正是我们说它是具身智能的"PyTorch 时刻"的原因。。
六、、开源信息
StarVLA 由香港科技大学团队结合开源社区共同推出,,,目前全数代码、、训练剧本、、评估接口与预训练权重已开源,,,并将持续迭代。。
论文::https://arxiv.org/pdf/2604.05014代码仓库::https://github.com/starVLA/starVLA (目前已经 2.2k star, 感激各人)已支持基准::LIBERO、、SimplerEnv、、RoboTwin 2.0、、RoboCasa-GR1、、BEHAVIOR-1K已集成步骤::[QwenVL and Wan] X [FAST、、OFT、、π?、、GR00T] 形形色色的 backbone X action header …
若是你正在做 VLA 钻研、、想搭一套机械人战术基线、、或者只是想搞明显 "这些花里胡哨的 VLA 模型到底差在哪"——这个仓库,,,值得 Star 一下。。
本文报道由港科大 StarVLA 团队提供素材,,,面向关注具身智能与机械人大模型的读者。;;队 GitHub 上参加会商与共建。。
@吴佳琳::世界杯手机怎么下注,,,冷空气即将来袭@许智怡::纯炒作?滨崎步“一人演唱会”不实
@毛大纶::男子被狗咬等6小时才打上疫苗你咋看
热点排行
- 1 DafaBet888黄金
- 2 世界杯买球赢最大的人
- 3 鸿博体育app官网入口
- 4 kok软件体育
- 5 皇冠比分网90vs足球指数
- 6 威尼斯澳门人官方
- 7 小金库app最新版
- 8 澳门挂牌网最新网址
- 9 51红馆干嘛的