发布日期:2026-04-06 11:16 点击次数:158

Harness(把持)的风,终究如故从大模子,吹到了机器东谈主!
刚刚,英伟达开源了一个全新的机器东谈主操控框架——
CaP-X。
基于这一框架,机器东谈主能盯着录像头看懂环境,然后现场写一段 Python 代码来收场我方。
要害,这还不是一次性的。如若某段代码告捷完成任务,它会被自动存进手段库,并且适用于不同执行、形态的机器东谈主系统。
(是不是很像龙虾的 Skill?)
最离谱的是,这一框架还能把具身大模子(比如 VLA)动作 API 来用,平直一个大脑 harness 千般小脑(感知与收场)。
在实测施展中,基于这一框架打造的CaP-Agent0,在 7 项中枢任务中,有 4 项告捷率追平致使逾越东谈主类众人手写表率。

即便濒临 OpenVLA、Pi 系列等基于预检修的端到端大模子,CaP-X 这种"靠逻辑取胜"的有计议也展现出了旗饱读极端、致使更最初的性能。

英伟达机器东谈主总管Jim Fan平直下论断:
智能体机器东谈主(Agentic robotics)的期间,来了!

如若说 Harness 之于大模子,是把引擎装进一辆车;
那么 CaP-X 之于机器东谈主,等于让这台引擎学会了把柄路况我方写驱动表率,并随时给我方升级"代码外挂"。
这一框架的发布,标记着机器东谈主鸿沟负责迎来了属于我方的" Harness "期间。
对此,UCB 讲授Ken Goldberg批驳谈:
对机器东谈主「代码即政策」(CaP)的远景感到相称昌盛!

从"东谈主工脚手架"到"代码即政策"
要默契 CaP-X 在作念什么,我们先浅易回来一下面前机器东谈主收场的主流作念法。
在传统的机器东谈主收场中,工程师得逐行编写感知、谋划和响应逻辑(比如经典的 TAMP 框架),也等于所谓的 Human-in-the-loop(东谈主工烦闷)。
这种顺序诚然精确透明,但泛化性极差——常常是"换个杯子,代码重写"。
其后,受到大模子 Scaling Law 的启发,机器东谈主鸿沟运行遴荐基于数据驱动范式的、端到端的视觉 - 讲话 - 动作(VLA)模子。
在昔日的一年里,VLA 架构(视觉 - 讲话 - 动作)战绩斐然,机器东谈主运行能叠一稔、干杂活。
但问题在于,VLA 是个"黑盒",一朝出错很难调试,并且遭受新任务还得从头汇集数据检修。
也就在最近,受到龙虾(OpenClaw)、Claude code 等一系列编程智能体进展的启发。
接洽东谈主员运行念念考,能否用 Gemini、GPT 这么的大模子来替代传统收场中工程师的脚色,用 Python 代码平直调用机器东谈主的接口?

而这,等于 CaP-X 产生的布景,它让大模子从"锋芒毕露的指点官",形成了"能写代码的表率员"。
更进一步,在 CaP-X 框架里,连 VLA 政策也仅仅一个可以被随时调用的 API。
浅易来说,以往的 VLA 是机器东谈主的"全脑",从看图像到脱手指全靠它。但在 CaP-X 里,VLA 形成了代码里的一瞥函数。
比如,当机器东谈主需要"把盖子拧开"这种极高频、重手感的精细活时,编程智能体不再我方写复杂的几何坐标,而是平直调用 VLA,让 VLA 来实行精细的复杂操作。
就这么,CaP-X 用通用的编程智能体取代了东谈主类工程师,配都了全套的感知和驱动接口,致使能在干活的历程中自动合成手段库,调用专攻操作的具身模子。
接下来,我们具体来看。
具身智能的 Harness
CaP-X 本质上不是一个模子,而是一整套把持框架,包括:交互式检修环境CaP-Gym、层级化基准测试CaP-Bench、无需检修的智能体框架CaP-Agent0和强化学习进化算法CaP-RL。
CaP-Gym
作为扫数这个词框架的中枢,CaP-Gym是一个基于圭臬 Gymnasium 接口构建的层级化收场框架。
它将数字大脑和物理体魄献媚起来,大模子每写出一瞥代码,物理天下(模拟器或真机)就会及时给出响应。
在框架上,CaP-Gym 结伴了感知基元与收场基元:
在感知方面,智能体通过模块化的感知基元从环境中获得数据,这些基元将原始传感器数据综合为结构化的语义对象。
它内置了SAM3(语义分割) 和Molmo 2(点选) 等器具,把原始图像平直形成"这里有一个苹果"、"那边有一个杯子"这种结构化的语义对象。
在收场方面,智能体起义直发布要津空间动作提醒,而是调用畅通谋划器或逆畅通学(IK)解算器(如 PyRoki)自动处理碰撞检测和旅途谋划。
也等于说,无论是单手合手取、双臂互助如故挪动机器东谈主,CaP-Gym 提供了一个让大模子能平直在笛卡尔空间里进行"逻辑编程"的交互式沙盒。
CaP-Bench
在 CaP-Gym 的基础上,UEDBETapp下载接洽还推出了 CaP-Bench,用来臆测模子能不成"把持"机器东谈主。
它成心用来测试当模子被推到第一线去"写动作代码"时,它的代码质地、逻辑严实性以及濒临物理响当令的纠错智商到底怎样。
CaP-Bench 主要从三个维度进行测试:
综合层级(Abstraction Level): 将动作空间从东谈主工想象的宏敕令(高层)调度为原子级的基本基元(底层);
时期交互(Temporal Interaction): 对比零样本单轮表率生成与多轮交互,以量化故障复原和迭代推奢睿商;
感知落地(Perceptual Grounding): 评估不同形态的视觉响应怎样影响智能体将任务相干的视觉特征转机为代码生成的智商。
在对 12 个早先进的大模子(包括 OpenAI o1、Gemini 3 Pro 等)进行单轮盲测后,扫尾标明:
跟着东谈主类先验(脚手架)的移除,扫数前沿模子的性能断崖式下降,莫得一个能在底层基元上达到东谈主类众人的零样本告捷率。

这讲明了:如若莫得好用的接口,现在强如 GPT、Gemini 3 Pro 的模子,在底层动作逻辑面前一经会"合手瞎",离东谈主类众人的水平还差得远。
CaP-Agent0
基于 CaP-Bench 的失败模式与训诫,接洽又进一步推出了CaP-Agent0。

CaP-Agent0 通过成心的多轮推理轮回和动态合成的手段库增强了基础模子,中枢组件如下:
多轮视觉相反比对(VDM): 模子平直看原始图像雷同会"瞎",VDM 能将前后帧的视觉相回转机为结构化的当然讲话响应,智能体再基于讲话响应进一步修改代码。
自动合成的耐久化手段库: 当模子在底层瞎摸索随机告捷后,CaP-Agent0 会自动索求这段告捷的代码,封装成一个可复用的"手段(Skill)"。跟着尝试的加多,它我方攒出了一个宏大的手段库,把复杂问题越作念越浅易。
并行集成推理: 遭受穷苦,同期生成多种有计议并行尝试,在每一轮中,同期采样多个候选有计议。
此外,团队还推出了CaP-RL,平直诈欺环境响应的告捷与否作为可考证奖励,用强化学习(GRPO)来后检修编程模子本人,让它的写码直观越来越准!
实验论断
如着手所说,在 CaP-Bench 的 7 项中枢任务中,即便剥离了扫数高档接口、只给最底层的原子基元,CaP-Agent0 依旧施展优异。
在统统 7 项任务中,不仅在 4 项任务上的告捷率追平,致使还卓绝了东谈主类众人写的参考表率。
而在 LIBERO-PRO 的长程任务中,濒临提醒或位置的立地干扰,无需检修的 CaP-Agent0 展现出了比 OpenVLA 等端到端模子更遒劲的鲁棒性。
此外,由于 CaP-RL 是在代码逻辑层进行强化学习,而非像素层,这种智商还可以平直零样本(Zero-shot)无损转移到着实天下的机器东谈主上。

在论文的终末,团队也坦诚地共享了现在的鸿沟:
诚然表率化收场(CaP)在长程推理和逻辑谋划上恶果可以,但在需要极高频视觉响应和精采触觉感知的"精细活儿"上(比如倒水、精确插拔),现在的纯代码有计议还显得有些脆弱。
一个极具远景的标的是CaP – VLA 羼杂政策:
由编程智能体解决高层任务逻辑和误差复原,而将底层实行交付给 VLA 模子。
从机器东谈主技巧的角度来看,通过引入基于优化的收场基元(允许智能体指定任务级握住并推敲避障),可以进一步栽种鲁棒性。
代码即政策
真话说,代码即政策(Code as Policy)的念念路,其实并不是什么簇新玩意。

早在 2022 年,谷歌就建议了 CaP。
(是的,Physical Intelligence 的 CEO Karol Hausman 亦然当年这篇论文的作家之一。)
CaP 的中枢念念想是:不要让大模子只输出"下一步作念什么",而是平直让它把机器东谈主实行的 Python 代码写出来。
也等于说,不同于以往把大模子动作高层谋划器,先输出综合要领,再由其他模块实行的顺序,CaP 平直生成更接近最终收场层的政策代码 。
这么作念有两个不问可知的平正:
一是代码自然相宜抒发条款判断、局部响应回路和精确数值收场。
二是也更容易把"联接极少""快极少"这类浮泛提醒转成具体动作参数 。
频年来,沿着这全部径的探索好多,但大巨额接洽雷同难以很好地永诀:
到底是模子本人机灵,如故工程师想象的接口提前把活儿给干了一泰半?
除此除外,各人也没搞泄露,如若让模子多念念考眨眼间、多调试几次(也等于测试时筹算),能不成弥补它在底层操作上的稚童。
而 CaP-X 就像是这条阶梯的加强版,它讲明了:
具身智能的冲突,大略不需要无停止地堆砌着实的遥操数据。
伴跟着让模子在推理时多动脑子、用编程智能体代替东谈主类在环的风潮吹向机器东谈主鸿沟,CaP-X 给出了一个新解法:
给大模子一个合理的"把持框架(Harness)",让它在代码的虚构沙箱中自我试错、自我提真金不怕火,它就能进化出顺应一切物理天下的智商。


参考绽开
[ 1 ] https://capgym.github.io
[ 2 ] https://arxiv.org/abs/2603.22435
一键三连「点赞」「转发」「提神心」
接待在批驳区留住你的目的!
— 完 —
� � 谁会代表 2026 年的 AI?
龙虾爆火,带动一波 Agent 与养殖居品波浪。
但真适值得长期温雅的 AI 公司和居品,大略不啻于此。
如若你正在作念,或见证着这些变化,接待讲述。
让更多东谈主看见你。� � https://wj.qq.com/s2/25829730/09xz/
一键温雅 � � 点亮星标
科技前沿进展逐日见UEDBETapp
开云app登录入口