北大发布 ManualVLA：首个长程「生成–理解–动作」一体化模型

更新时间：作者：小小条

视觉–语言–动作（VLA）模型在机器人场景理解与操作上展现出较强的通用性，但在需要明确目标终态的长时序任务（如乐高搭建、物体重排）中，仍难以兼顾高层规划与精细操控。

针对这一问题，北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。

论文题目：ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation论文链接：https://arxiv.org/abs/2512.02013项目主页：https://sites.google.com/view/maunalvla

不同于 π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题，ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联方案，构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构，在同一模型中统一多专家模块，实现多模态生成与动作执行的紧密协同。

首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书，再通过显式与隐式相结合的「思维链」（ManualCoT）推理，将信息反馈给「动作专家」，为每一步操作提供清晰的显式控制条件的同时，通过潜在表征为动作生成提供持续的隐式引导，实现理解与生成的高度统一。

实验结果表明，ManualVLA 在现实场景任务中表现出显著优势，其平均成功率相较于分层结构的最新基线方法提升约 32%，充分验证了「生成手册–指导动作」这一统一范式的有效性。

一、研究背景与挑战

近年来，VLA 模型在机器人场景理解和泛化操作方面取得了显著进展，推动了通用具身智能体的发展。但当面临需要精确定义最终目标状态的长周期任务，例如复杂的乐高组装或物体重新排列时，现有模型仍然难以协调高级规划与精确操作。

这些任务主要面临两个核心难题：首先，VLA 模型必须执行精确操作以严格对齐预定义的最终场景或物体配置；其次，模型必须有效地将长周期规划与细粒度控制相集成，同时保持对多样化现实世界环境的泛化能力。

现有的分层方法通过依赖人工制作说明书或人类演示视频来模仿这种能力，然而，这些方法通常在泛化到未见过的最终目标状态方面存在局限性，在系统复杂度、部署成本和泛化性之间难以取得兼顾，难以形成一个统一、可端到端训练和部署的体系。

二、ManualVLA 方法陈述

为此，ManualVLA 让模型学会「自己生成说明书，再按说明书去执行动作」。在推理阶段，系统首先接收自然语言指令、当前场景图像和最终目标图像，由规划专家生成包含关键步骤的多模态手册：由文字描述指出要操控哪些物体以及要完成的子目标，像素级坐标给出目标物体在图像中的精确位置，子目标图像则展示子目标完成后的「预期画面」。动作专家在闭环控制中执行这一子目标，直到达到预期状态，再进入下一次手册生成与执行。通过这种逐步推进的方式，原本困难的长时序任务被拆解为一系列可控、可解释的短阶段。

▲ 图 1 | (a) 诸如乐高拼搭或物体重排等具有预定义目标状态的长程任务，对智能机器人构成了重大挑战。(b) 为了解决此类任务，我们提出了 ManualVLA。这是一个基于 MoT 架构构建的统一 VLA 模型，它通过一种精心设计的「说明书思维链」（Manual Chain-of-Thought），实现了多模态手册生成与动作生成之间的紧密协同。

架构设计

ManualVLA 将 Janus-Pro 1B 拓展到 MoT 架构，形成统一 VLA 模型并集成「规划专家」和「动作专家」，实现了多模态手册生成和动作执行之间的连贯协作。

规划专家：处理图像信息时，ManualVLA 采用了基于 VQ 的视觉分词器 (VQ-based vision tokenizer)，该分词器遵循 VQ-GAN 的编码器-量化器-解码器架构，对子目标图像进行离散化建模。动作专家：采用基于扩散去噪的方法进行动作建模，通过两层 MLP 构建将噪声动作注入动作专家的噪声编码器，以及用于从潜在表示中预测噪声的噪声解码器。在动作生成的视觉输入上，ManualVLA 采用了 SigLIP-large，从 384×384 输入图像中提取高维语义特征。

ManualCoT 思维链机制

该机制从显式与隐式两条路径影响动作生成。

显式路径：模型把规划专家预测的目标位置以 visual prompt 形式叠加在当前图像上，构成带有明显操作区域提示的「提示图」，动作专家直接以此作为视觉输入之一，仿佛在图像上用荧光笔圈出了「请在这里操作」。隐式路径：手册生成时产生的内部特征——无论对应文字描述、坐标还是子目标图像——都通过专门设计的注意力掩码被动作专家读取，相当于在看不见的空间中不断提醒动作模块「当前在做什么、应该做到什么程度、做完以后世界会是什么样」。消融实验表明，去掉任一路径都会显著降低长任务中的成功率，说明只有显隐结合，才能兼顾精度与稳健性。

▲ 图 2 | (a) 该框架包含两个专家模块：负责生成多模态「说明书」的规划专家，以及负责预测精确动作的动作专家。规划专家处理人类指令、当前图像和最终目标图像，生成结合了下一步图像、位置坐标和子任务指令的中间手册。我们引入了一个显式思维链 (Explicit CoT) 推理过程，其中每个位置指示符都作为一个视觉提示 (Visual Prompt) 嵌入到动作专家的观测输入中。(b) 结合跨任务共享注意力机制和专门设计的 Attention mask，生成的「说明书」token 也被用作动作生成的条件信号，从而实现了一种能有效引导动作专家的隐式思维链 (Implicit CoT) 推理过程。

三阶段训练

第一阶段：基于互联网机器人数据集，筛选与装配和重排相关的轨迹，构建超过 40 万条示例的预训练集，只更新动作专家，学*抓取、搬运和放置技能。第二阶段：利用基于三维高斯表示的数字孪生工具，对乐高板、单块积木和常见桌面物体进行三维重建，在虚拟空间中反复随机排列组合，自动渲染每个中间状态的图像并记录对应的位置和文字描述模板，为每个任务合成上万帧带有精确标注的手册数据，用于训练规划专家。第三阶段：在真实双臂平台上通过遥操作采集每个任务 100 条专家示范轨迹，自动抽取关键帧生成与真实执行过程一致的手册–动作配对，在此基础上对规划与动作两个专家进行联合微调，使模型在真实环境中的规划–执行闭环更加贴合物理世界。

▲ 图 3 | 数字孪生示例 (a) 我们重建了 3D 高斯溅射表征，随后将其分解为乐高底板和单个积木。(b) 我们逐步地将积木放置在底板上/将物体放置在盒子上。

三、真机、模拟器、泛化性实验

真机实验

在 Franka 双臂平台上，ManualVLA 测试了三个需要明确目标状态的长周期真实世界任务——2D 乐高组装、3D 乐高组装和物体重新排列。在手册生成方面，规划专家在 300 个未见过的测试样本上生成了令人满意的中间图像（例如 2D 乐高组装的 PSNR 达 29.01），低 FID 分数（例如物体重新排列为 24.46）证实了生成图像的真实性和保真度，而极低的 MAE 分数（例如 2D 乐高组装为 3.23）则突显了模型在预测目标对象位置方面的精确性。

▲ 图 5 | 「规划专家」逐步生成 ManualCoT「说明书」，Pred 指代模型生成的预测结果，GT 指代真实图像。

▲ 表 1 | 在三个长程任务上，ManualVLA 生成的中间目标图像与 UV 坐标的质量的量化结果。

动作生成结果

ManualVLA 在所有三个真实世界长周期任务中均取得了最高成功率，相比最强的分层基线 (VLM + π0.5)，最终任务完成率提高了 15% 到 30%，平均成功率高出 32%。基线模型通常难以在整个长序列中保持性能，但 ManualVLA 通过 ManualCoT 策略有效地将复杂任务分解并锚定到精确动作中，缓解了性能随步骤数增加而下降的问题。

▲ 表 2 | 我们使用 20 个模型均未见过的目标状态进行测试，得到完成长程任务的操作成功率与关键中间步骤的成功率。

仿真实验

ManualVLA 在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率，超越了 SOTA 方法 π0 的 63%，进一步验证了 ManualCoT 策略在指导精确动作生成方面的优势，在通用原子任务上也能表现出良好效果。

▲ 表 3 | ManualVLA 与各 Baseline 模型在仿真环境 RLBench 上各项原子任务的成功率与方差。

消融与泛化实验

消融实验证明，说明书中所有模态信息（文本、图像、UV 坐标）和隐式 CoT（潜在空间中的条件信号）推理对于解决长周期、目标明确的操作任务是不可或缺的，两者结合才能达到最佳性能。同时，ManualVLA 在未见过的背景、物体形状和光照变化下也表现出鲁棒的泛化能力。

▲ 表 4 | 我们探究了如下因素对任务成功率的影响：(a) 说明书中包含的信息；(b) 显式与隐式的 ManualCoT 思维链机制；(c) MoT 架构与 action 生成范式。

▲ 表 5 | 在明显变化且模型未见过的背景、物体形状和光照变化下，ManualVLA 的任务成功率。

上一篇：中考后择校新思路：西安这些职高升学班，让升学路越走越宽

下一篇：高考中，日语比英语简单太多，用日语考的大学含金量高吗？

美国留学