代理服务器 ip设置方法
近日,全球物理空间智能AI应用领航者拓元智慧(X-Era AI)联合中山大学、鹏城实验室等顶尖科研机构重磅发布分层推理具身基础模型RoBridge。该模型在保持VLM语义理解优势的同时,成功将强化学习的过程技能成功率提升至新高度。
在开放式场景的机器人操作研究中,传统端到端视觉语言动作(VLA)模型虽能实现指令理解与动作输出的直接映射,却面临训练成本高昂(通常需要数十张GPU数周训练)、认知与执行割裂等根本性缺陷。针对这一核心问题,由梁小丹、林倞等知名学者提出的分层推理的具身基础模型RoBridge,仅需单张A100训练一天即可突破两大技术瓶颈:其创新设计的分层结构通过认知规划与物理执行的解耦,在保持VLM语义理解优势的同时,成功将强化学习的过程技能成功率提升至新高度。该架构由三级模块构成——基于视觉语言模型(VLM)的高级认知规划器(HCP)实现任务语义解析,不变可操作表示(IOR)构建符号化中间层,通用具身代理(GEA)负责物理执行。实验表明,RoBridge零样本泛化即可达成75%的新任务成功率,仅需5个真实样本即可实现模拟到现实(Sim2Real)的泛化成功率(83%),相较RDT、π0等基线%,为破解机器人知行合一难题提供了更高效可靠的解决方案。
为了获得根据指令操纵对象的能力,RDT和π0等VLA模型通常采用数据驱动的轨迹拟合方法。然而,当面对环境变化时,包括波动的照明条件、相机姿态偏差和环境变化,这些方法经常遭受灾难性的性能下降。强化学习虽然稳健,但具有试错性和低学习效率的特点,使其在实际环境中的适用性较低。
最近的工作将视觉语言模型 (VLM) 集成到机器人系统,如 ReKep和 OmniManip,它们使用多模态大模型来生成开放域任务的操作指令。虽然这些模型在理解方面表现出色,但它们缺乏具体经验,并且需要将输出限制为可执行动作。这种方法迫使语言模型在没有物理直觉的情况下处理时空推理,这通常会导致难以置信的任务规划。例如,在任务 “将块 A 放在块 B 上” 中,对空间的理解不足往往会导致这种方法产生致命缺陷的动作序列。
本文提出的RoBridge框架如图所示,主要包括三个核心组件:高层认知规划器(High-level Cognitive Planner, HCP)、不变可操作表示(Invariant Operable Representation, IOR)和通用具身智能体(Generalist Embodied Agent, GEA)。整体流程如下:首先,HCP根据观察信息和任务指令将复杂任务分解为多个原子动作;其次,针对每个原子动作,HPC结合基础模型生成IOR表示;最后,GEA基于该表示执行具体操作,整个过程通过闭环控制进行调节。各部分说明如下:
HCP由视觉语言模型(如GPT-4o)和基础模型API(如GroundingDINO、SAM和Track-Anything)构成。给定当前RGB图像 和指令 ,通过VLM将任务分解为若干原子动作 ,其中表示动作类型为操作对象,为目标位置(可选)。如图示例中,任务被分解为抓取黄色圆柱体、移动至圆形插槽等四个原子动作。HCP通过基础模型API进行对象分割,并结合传感器数据生成IOR表示。
其中:Mi 包含夹爪、操作对象和目标的三视角掩膜 。Di 包含对应的一视角掩膜深度信息 。Ci 包含末端执行器位姿和运动方向约束
通过GroundingDINO和SAM实现对象分割,结合VLM进行对象选择。对于存在方向约束的任务(如打开抽屉),HCP提供归一化方向向量 代理服务器 ip设置方法。IOR表示具有领域不变性,可有效降低环境变化对模型的影响。
在每个时间步t生成更新后的,通过策略函数映射为机械臂动作。针对“reach”类动作采用运动规划,其他复杂动作结合强化学习与模仿学习进行训练。
我们为每个任务单独训练强化学习专家策略,采用DRQ-v2算法进行训练。输入包含RGB图像、机器人本体感知和任务独热编码,输出低层级动作。通用智能体采用与DRQ-v2相同的网络架构,输入为不变可操作表示(IOR),其中原子动作采用独热编码表示。
真实实验采用Kinova Gen3机械臂,配置两个Realsense D435i相机:腕部相机提供第一视角,固定相机提供第三视角。 设计四类任务:(1)物体抓取, (2)平面清扫 ,(3)按钮按压, (4)抽屉开启。前两类测试未见物体,评估泛化能力。另设计多阶段积木插槽任务,评估长时程任务处理能力。
在Metaworld和Robosuite仿真环境中进行测试。Metaworld选取50个任务,在零样本泛化测试中35个用于训练,5个用于零样本测试任务。
下表显示在Metaworld基准测试中,RoBridge平均成功率82.12%,较最优基线%。在背景/光照/色彩/视角变化下均表现最佳鲁棒性。
下表显示在真实任务中,RoBridge平均成功率83.3%,长时程任务平均完成阶段数3.0(表3)。可视化结果显示相比π0和ReKep,本方法能稳定处理复杂物理交互。
下表显示在5个全新任务(物料分拣/物体取出/手柄按压/托盘滑动/清扫入库)中,RoBridge平均成功率75%,展现优异的零样本迁移能力。
本文提出了RoBridge,一种基于分层认知架构的机器人操作基础模型,通过突破端到端VLA模型的瓶颈,以单张A100仅需1天训练的高效范式实现三大突破:其一,通过分离高层语义理解与底层物理控制,将VLM的开放场景认知优势与强化学习的精确操作能力深度融合;其二,创新引入不变可操作表示(IOR)作为符号化中间层,有效解决传统模型因跨模态特征错位导致的脑手不一问题;其三,零样本泛化即可达成75%的新任务成功率,仅需5个真实样本即可实现模拟到现实的泛化成功率(83%),相比RDT、π0等基线%。该架构通过高级认知规划器(HCP)、IOR符号桥梁和通用具身代理(GEA)的三级协同,在显著降低训练成本的同时,显著提升开放式任务的操作鲁棒性,为破解机器人知行合一难题提供了可扩展的技术路径。
拓元智慧(X-Era AI)由AI技术领域国际知名专家团队创立于2022年。公司聚焦于研发新一代物理空间智能引擎,打造线下零售、空间设计、工业制造领域的AI应用与新生态,构建具身智能通用能力。公司秉持技术与业务闭环的双轮驱动,以“端云协同”的服务框架,推动AI模型从数字空间迈进物理世界,拓展人机共荣的新纪元。