高德披露 ABot-World,具身世界模型开始把物理一致性和 VLA 闭环一起往前推
2026 年 4 月 21 日,量子位披露了高德 ABot-World 世界模型的更多细节。这套体系和常见的视频生成路线不太一样,重点不是把画面做得更像,而是把物理一致性、动作条件化推演和机器人执行闭环一起塞进同一套训练基座里。高德给它的定位也很重,直接把它当成机器人世界的操作系统内核来看。
从公开信息看,ABot-World 由两部分组成。一部分是 ABot-3DGS,用高精度数字孪生场景去扩充训练数据;另一部分是 ABot-PhysWorld,把末端执行器位姿、夹爪状态和物理约束一起带进推演过程。文章里提到,这套模型已经不只输出像素结果,还会隐含质量、惯性张量和接触力场这类物理状态,用来支撑更可控的动作预测。
这条路线的意义,在于世界模型开始更直接地往机器人控制问题上靠。公开视频生成模型常见的问题是画面能看,但一到抓取、接触、受力和连续动作,就很容易出现物体穿透、无接触抓取和动作不连贯。ABot-World 试图先把这些地方补上,所以它的目标更接近可执行性,而不是单纯的视觉演示。
量子位文中还提到,ABot-World 在物理合规性、动作可控性和零样本泛化几个维度上拿到了较高表现,并把 WorldArena、Agibot World Challenge、WorldScore 等评测一起放了出来。对普通用户来说,这类消息离日常工具还比较远,但对导航站后面补具身智能、机器人训练和世界模型专题时很有参考价值。后面再看这类产品,重点也该放在它能不能支撑真实动作链,而不是只看生成画面好不好看。