银河通用机器人推出 LDA：全域数据、跨本体隐式世界-动作基座模型

http://www.gkong.com 2026-04-29 11:20 来源：银河通用机器人

在语言模型的发展历程中，GPT-2 之所以成为一个关键里程碑，并不只是因为模型本身能力的提升，更因为它第一次系统性地定义了一个问题——如何让模型有效利用互联网规模的异构数据。

从那一刻起，语言模型不再依赖少量高质量标注数据，而是开始以“全量数据”为燃料，进入持续 Scaling 的时代。

但在具身智能领域，这个问题从未被真正解决。

不同来源的数据彼此割裂：机器人数据与人类数据难以统一，真实与仿真难以融合，有动作标注与无动作视频难以协同，高质量与低质量数据往往被割裂使用。这些结构性的断层，使得具身智能始终停留在“数据稀缺驱动”的阶段，难以走向规模化学习。

近日，银河通用机器人发布的跨本体「隐式世界-动作基础模型」LDA，正是对这一问题的正面回答。

其核心突破不单在于模型能力的探索，而在于世界范围内首次在数据层面实现：虚实共融、人机混合、质量参差、有无动作标签的数据统一有效利用。

换句话说：一个模型，开始能够“吞吐全部数据，并让所有的数据各尽其用”。

这也意味着，具身智能第一次真正具备了类似 GPT-2 的能力——进入以数据规模驱动性能持续提升的新阶段。

具身数据范式新标准：从“筛选数据”到“组织数据”

在具身智能中，数据问题从来不是“有没有”，而是“能不能被统一利用”。

长期以来，不同类型的数据彼此割裂：真实机器人数据规模有限，遥操作数据成本高昂，人类视频缺乏动作标注，互联网数据难以对齐物理世界，而仿真数据又始终面临真实性约束。这使得具身智能始终依赖少量高质量数据驱动，难以走向规模化。

银河通用的解决方式，是构建完整的数据基础设施——银河星数（AstraData），并在 LDA 中实现对全类数据的统一完整运用。

围绕这一体系，银河通用构建了一个自下而上的数据结构（五层金字塔）：

互联网图像/视频/文本数据（底层）：规模最大、成本最低，用于构建基础感知与语义理解能力，但与具体动作执行相关性较弱

人类行为数据（次底层）：提供动作先验与任务理解，将“视觉认知”连接到“行为语义”

多本体合成仿真数据（中间层，银河自研合成数据管线产出）：以物理一致性为约束，大规模生成可控、多样的机器人交互数据，实现从认知到执行的关键过渡

真实遥操作数据（高层）：提供高质量动作示范，但规模与采集效率受限

真实机器人自主运行数据（顶层）：来自真实部署环境的闭环数据，直接反映系统在现实世界中的运行表现，并持续驱动强化学习与系统优化

高质量专家数据：同时用于策略与动力学建模，定义“最优动作”

低质量与噪声数据：用于前向与逆向动力学学习，刻画真实世界演化

无动作标注视频：用于视觉预测，提取行为结构与潜在意图

在这一框架下，数据不再被简单划分为“有用或无用”，而是被系统性重组进统一的世界-动作模型之中。

这一范式在 LDA 中首次展现出清晰的规模化特征：随着数据规模从数千小时扩展至数万小时，模型性能持续稳定提升。

尤其关键的是：即使引入大量低质量甚至失败数据，模型性能不降反升；在高质量动作数据耗尽后，仅依赖无动作标注的人类视频，模型依然可以持续进步。

这意味着，低质量数据与无动作数据，同样可以驱动具身模型的持续 Scaling——这一点，是传统行为克隆（BC）及既有世界模型方法难以实现的。

从这个角度看，LDA 不仅是一个模型突破，更是「银河星数」数据体系在模型层的关键闭环——标志着具身智能开始真正进入以数据驱动的规模化发展阶段。

具身模型范式统一：从 VLA， World Model 到 World Action Model

如果说数据决定模型能学什么，那么模型结构决定它如何理解这些数据。

传统机器人模型，本质上是从感知到动作的映射，其能力边界在于：它可以执行动作，但并不真正理解“动作之后世界会发生什么”。

LDA 在这一点上进行了根本性改变。

银河通用提出并实践的，是将 World Model（世界模型）与 Action Model（动作模型）统一的框架，即 WAM（World-Action Model）。

在模型层面，LDA 并不是一次结构创新，而是银河通用长期技术路线的自然延伸。

银河通用提出并实践的，是将World Model（世界模型）与Action Model（动作模型）统一的框架，即 WAM（World-Action Model）。

这一方向如今已成为具身智能领域的研究热点，但早在 2025 年 3 月，银河通用发表了 DyWA: Dynamics-adaptive World Action Model，在全球范围内首次对 WAM 的概念进行结构化定义，并在接触动力学复杂的任务实现了成功的验证。

2025 年 3 月银河通用团队率先对 World-Action Model 展开前沿探索

在论文中，团队对 WAM 进行了系统性的定义

从这一时间节点来看，团队并非在跟随趋势，而是在这一关键范式尚未形成行业共识之前，就已经完成了前瞻研究。

也正是在这一技术路径的持续演进下，LDA 得以在同一模型中统一学习策略、动力学与视觉预测能力，形成真正闭环的“世界—行动”联合建模框架，使模型从“执行动作”走向“理解并作用于世界”。

在这一框架下，模型在同一体系中同时学习：

策略学习（Policy Learning）：从当前观测生成动作

前向动力学（Forward Dynamics）：预测动作将如何改变世界

逆向动力学（Inverse Dynamics）：从结果反推中间行为

视觉预测（Visual Forecasting）：在无动作条件下推演世界未来

这些能力不再彼此割裂，而是在同一表示空间与训练过程中协同优化，形成一个完整的“感知—决策—反馈”闭环。

这带来了以往模型难以实现的能力跃迁，换句话说，在「银河星脑」的整体架构中，LDA 让机器人第一次具备了这样一种能力：既能行动，也能理解行动如何改变世界。

这一步，使机器人从“执行任务的工具”，开始迈向“理解世界的系统”。

视觉表征统一和动作对齐：面向规模化的系统解法

World Action Model 类方法通常使用 VAE 派生的像素级表示进行动力学预测。这条路看似合理，却暗藏一个结构性缺陷：VAE 潜空间将外观、几何、动力学混杂在一起，不同机器人平台、不同光照场景的数据在这个空间里难以对齐，导致动力学学习受到严重干扰，更重要的是——难以随规模扩展持续收益。

论文数据直接说明了这一点：将 UWM 从 0.1B 扩展到 1B，RoboCasa-GR1 成功率仅从 14.2% 提升至 19.3%，即使替换为 MM-DiT 也只有 20.0%，Scaling 几乎停滞。

LDA 的核心选择，是放弃 VAE，转向 DINO 结构化潜空间。DINO 通过自监督预训练，天然过滤光照、纹理等外观冗余，保留物体级语义与空间结构。在这个空间中，不同机器人、不同环境的数据具有一致的表达形式——外观差异被压制，物理相关信息被突出，使跨本体的动力学学习真正成为可能。

而仅有视觉统一还远远不够，真正阻碍具身大模型扩展的另一堵墙，是动作空间的割裂。

不同机器人本体往往拥有完全不同的执行器形式：两指夹爪、多指灵巧手、吸盘、剪刀式末端执行器……如果仍然沿用各自独立的关节空间（joint space）建模，动作语义天然无法共享，数据规模再大，也只是分散在彼此孤立的数据孤岛中。

LDA 首次系统性地提出了一套统一的 hand-centric action space，将所有动作统一映射到“手如何作用于世界”这一物理本质上，而不是机器人自身的关节定义上。

具体来说，动作由两部分组成：

其一，是末端执行器的 delta wrist pose，即手腕在连续时刻之间的位姿变化（位置 + 姿态）；这部分刻画的是操作意图本身，例如靠近、推拉、插入、翻转、对齐等跨本体共享的核心操作语义。

其二，是 finger configuration，即手部接触形态。对于 parallel-jaw gripper（平行夹爪），使用单自由度的 gripper width 表示开合状态；而对于 multi-finger dexterous hand（多指灵巧手），则使用在 wrist 坐标系下定义的关键点（keypoints）来描述手指构型，而非依赖不同本体各异的关节参数。

这一设计的关键突破在于：它不再让模型学习“某台机器人怎么动关节”，而是学习“手如何与物体发生作用”。

这意味着，夹取、旋转、插入、剪切这类操作，不再被绑定在某一种机械结构上，而能够在不同本体之间共享动力学规律。无论是仿真中的双指夹爪，还是真实世界中的多指灵巧手，模型看到的都是统一的物理交互语言。

超强真机表现：跨本体、少样本、长程灵巧操作

LDA 在真实世界中展现出强大的泛化与执行能力，模型在全部任务类别上稳定超越 GR00T-N1.6 和 π₀.₅，展现出更强的泛化与适应能力。

GROOT-N1.6、π0.5、LDA 三项工作在各类任务中使用二指夹爪操作的成功率对比

GROOT-N1.6、π0.5、LDA 三项工作在具体任务中使用灵巧手操作的成功率对比

少样本跨本体泛化

从工业场景中的物体搬运，到零售环境中的取放操作，再到家庭中的日常任务，LDA 能够在多种场景下稳定执行任务。

值得强调的是，所有测试所使用的机器人本体，均未出现在预训练数据中。

在这一严格设置下，在 Pick-and-Place 任务中进一步引入多种分布外扰动，包括未见位置、新物体以及背景变化。

结果表明，LDA 在各类扰动下仍能保持较高成功率，而仅依赖行为克隆（BC）的基线模型性能则出现显著下降。

这表明，LDA 学到的不只是“动作模仿”，而是能够跨本体迁移的世界-动作结构。

长程灵巧操作

在更具挑战性的长程任务与高自由度操作中，LDA 同样表现出色。例如，模型可以完成“煎牛排”“叠纸杯塔”等复杂操作，这类任务既需要长时序规划能力，也依赖精细的接触建模与控制能力。

在 LDA 驱动下，机器人可以胜任煎牛排这一长程任务，即便中途受到干扰（打断现有任务，发布新任务），机器人依然可以随机应变，按照指令理解并行动

失败数据让性能再提升

一个更具启发性的现象来自低质量真机数据。

在相同的数据设置下，将这部分包含大量失败和不稳定操作的数据加入训练：对于 π₀.₅，性能明显下降；而对于 LDA，性能反而持续提升。

这表明，LDA 并不是简单依赖“干净数据”，而是能够从失败中学习世界的真实动力学，将原本被视为噪声的数据转化为有效信号。

具身基础模型进入“可规模化时代”

LDA 的突破，意味着具身智能的 scaling 路径正在发生根本性变化：它不再依赖稀缺而昂贵的专家示范数据作为唯一燃料，而是开始向更广泛、更真实、更复杂的数据来源全面打开——包括业务回流数据、低质量操作轨迹，以及大规模人类行为视频。

在这一范式下，数据不再被严格筛选为“可用”与“不可用”，而是被统一纳入模型对世界的建模过程之中。真正决定能力上限的，不再是数据是否完美，而是模型是否具备从异构数据中抽取结构、规律与因果关系的能力。

从这个角度看，LDA 回答的并不只是“如何构建一个更强的模型”，而是一个更基础的问题：机器人，是否可以像语言模型一样，从海量异构数据中持续学习世界本身？

而 LDA 给出的答案正在变得清晰：当动力学学习、策略学习与视觉预测被统一到同一表示空间，当低质量甚至失败数据也能转化为有效监督信号，具身智能就第一次具备了“从真实世界持续学习”的基础条件。

在这一进程中，银河通用将 LDA 的核心算法与代码体系全面开源，希望推动行业从封闭优化走向开放共建，加速基础能力的整体跃迁。

更重要的是，这一能力并非孤立存在，而是嵌入在「银河星脑（AstraBrain）」的完整技术体系之中：从「银河星坊」所构建的数据基础设施，到跨本体的世界-动作基础模型，再到面向真实场景的持续部署与反馈学习闭环，正在形成一条完整的具身智能技术管线。

接下来，这一体系将进一步向真实应用场景延展，从工业制造、零售服务，到复杂开放环境中的自主作业能力，推动具身智能从“可演示能力”，走向“可持续运行能力”，并最终成为新一代生产力基础设施的一部分。

银河通用机器人推出 LDA：全域数据、跨本体隐式世界-动作基座模型

相关新闻

编辑精选

工控原创