稚晖君推具身基座模型！智元新人形机器人即将发布

访客 2025-03-10 12:47:38 82727

默认

摘要： 作者 | 许丽思编辑 | 漠影机器人前瞻3月10日报道，今天，智元机器人发布首个通用具身基座模型——智元启元大模型Gen...

作者 | 许丽思

编辑 | 漠影

机器人前瞻3月10日报道，今天，智元机器人发布首个通用具身基座模型——智元启元大模型Genie Operator-1（GO-1）。该模型提出了Vision-Language-Latent-Action(ViLLA)框架，该框架由VLM(多模态大模型)+MoE(混合专家)组成，具有采训推一体，小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等突出优势。

另外，智元还预告了，未来几个月会推出基于强化学习的仿真模型，新的人形机器人也即将亮相。

一、小样本快速泛化，快速适配不同本体

ViLLA框架包含了VLM(多模态大模型)+MoE(混合专家）。

具体来说，VLM作为通用具身基座大模型的主干网络，继承开源多模态大模型5-2B的权重，利用互联网大规模纯文本和图文数据，让智元机器人的Genie Operator-1（GO-1）具备了通用的场景感知和理解能力。

MoE中的隐动作专家模型是整个大模型中隐式的规划器，作为第一个专家模型，它利用到了互联网上的大规模人类操作和跨本体操作视频，让模型具备动作的理解能力。

MoE中作为动作预测器的动作专家模型，利用高质量的仿真数据、真机数据，让模型具备了动作的精细执行能力。

Genie Operator-1有五大方面特点：

采训推一体：搭配智元软硬件一体化框架，可以实现数据采集、模型训练、模型推理的无缝衔接。

小样本快速泛化：具有强大的泛化能力，使得后训练成本非常低，能够在极少数据甚至零样本下泛化到新场景、新任务。

一脑多形：是一个通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体。

持续进化：搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习。

人类视频学习：可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解。

二、吸纳海量知识数据，一句语言指令让机器人直接执行任务

智元机器人的Genie Operator-1（GO-1），基于具身领域的数字金字塔所构建：

底层是互联网的大规模纯文本与图文数据，可以帮助机器人理解通用知识和场景。

在这之上是互联网的大规模人类操作/跨本体视频，可以帮助机器人学习人类或者其他本体的动作操作模式。

更上一层则是仿真数据，用于增强泛化性，让机器人适应不同场景、物体等。金字塔的顶层，则是高质量的真机示教数据，用于训练精准动作执行。

在此基础上，机器人就可以成全面的“基础教育”和“能力培训”，天然能适应新的场景，可以轻松面对多种多样的环境和物体，快速学习新的操作。

GO-1所采用的由VLM+MoE组成的ViLLA框架，可以将输入的多相机的视觉信号和人类语言指令，直接输出机器人的动作执行。和与Vision-Language-Action（VLA）模型相比，ViLLA通过预测Latent Action Tokens（隐式动作标记），弥合了图像-文本输入与机器人执行动作之间的鸿沟。

比如，用户用平常讲话的方式告诉机器人要做的事情，比如“挂衣服”，模型就可以拆解成一些几个步骤来处理：

首先，模型可以根据看到的画面，以及所学习过互联网的大规模纯文本和图文数据，能理解“挂衣服”在此情此景下的含义和要求；

其次，模型学习过互联网的人类操作视频和其他机器人的各种操作视频，所以能知道挂衣服这件事通常包括哪些环节；

然后，模型学习过仿真的不同衣服、不同衣柜、不同房间，模拟过挂衣服的操作，所以能理解环节中对应的物体和环境并打通整个任务过程；

最后，因为学习过真机的示教视频，机器人就能精准完成整个任务的操作。

GO-1可以让机器人应用到更多的场景中。早上刚起床，机器人会帮忙倒上一杯水、烤下吐司，还可以去一些活动现场，负责检票、发放物料的活。

在商务会议中，面对人类发出的“帮我拿一瓶饮料”“帮我拿一个苹果”的语音指令，GO-1可以让机器人快速相应。

值得一提的是，GO-1还可以通过数据回流，持续进化：比如，机器人做咖啡的时候不小心把杯子放歪了，后续就可以从遇到这个问题数据中持续进化学习，直到成功完成任务。

结语：具身智能加速迈向通用化、开放化与智能化

一直以来，具身智能面临着场景和物体泛化能力不足、缺乏语言理解能力做不到指令的泛化、无法快速学习新技能、实现跨本体的部署等问题。

GO-1的出现，为机器人代替人类完成工作生活中的各种事情，提供了强大的脑力支持。从准备餐食、收拾桌面这样的家庭场景任务，到接待访客、发放物品这类办公和商业场景的常见工作，再到工业等更多场景的其他操作任务，通用具身基座大模型都可以快速实现。这也意味着具身智能从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化加速迈进，让机器人走向更多不同场景、适应多变的真实世界。

标签：模型机器人