本文作者:访客

稚晖君推具身基座模型!智元新人形机器人即将发布

访客 2025-03-10 12:47:38 82727
稚晖君推具身基座模型!智元新人形机器人即将发布摘要: 作者 | 许丽思编辑 | 漠影机器人前瞻3月10日报道,今天,智元机器人发布首个通用具身基座模型——智元启元大模型Gen...

作者 | 许丽思

稚晖君推具身基座模型!智元新人形机器人即将发布

编辑 | 漠影

机器人前瞻3月10日报道,今天,智元机器人发布首个通用具身基座模型——智元启元大模型Genie Operator-1(GO-1)。该模型提出了Vision-Language-Latent-Action(ViLLA)框架,该框架由VLM(多模态大模型)+MoE(混合专家)组成,具有采训推一体,小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等突出优势。

另外,智元还预告了,未来几个月会推出基于强化学习的仿真模型,新的人形机器人也即将亮相。

一、小样本快速泛化,快速适配不同本体

ViLLA框架包含了VLM(多模态大模型)+MoE(混合专家)。

具体来说,VLM作为通用具身基座大模型的主干网络,继承开源多模态大模型5-2B的权重,利用互联网大规模纯文本和图文数据,让智元机器人的Genie Operator-1(GO-1)具备了通用的场景感知和理解能力。

MoE中的隐动作专家模型是整个大模型中隐式的规划器,作为第一个专家模型,它利用到了互联网上的大规模人类操作和跨本体操作视频,让模型具备动作的理解能力。

MoE中作为动作预测器的动作专家模型,利用高质量的仿真数据、真机数据,让模型具备了动作的精细执行能力。

Genie Operator-1有五大方面特点:

采训推一体:搭配智元软硬件一体化框架,可以实现数据采集、模型训练、模型推理的无缝衔接。

小样本快速泛化:具有强大的泛化能力,使得后训练成本非常低,能够在极少数据甚至零样本下泛化到新场景、新任务。

一脑多形:是一个通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。

持续进化:搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。

人类视频学习:可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

二、吸纳海量知识数据,一句语言指令让机器人直接执行任务

智元机器人的Genie Operator-1(GO-1),基于具身领域的数字金字塔所构建:

底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景。

在这之上是互联网的大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式。

更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等。金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。

在此基础上,机器人就可以成全面的“基础教育”和“能力培训”,天然能适应新的场景,可以轻松面对多种多样的环境和物体,快速学习新的操作。

GO-1所采用的由VLM+MoE组成的ViLLA框架,可以将输入的多相机的视觉信号和人类语言指令,直接输出机器人的动作执行。和与Vision-Language-Action(VLA)模型相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。

比如,用户用平常讲话的方式告诉机器人要做的事情,比如“挂衣服”,模型就可以拆解成一些几个步骤来处理:

首先,模型可以根据看到的画面,以及所学习过互联网的大规模纯文本和图文数据,能理解“挂衣服”在此情此景下的含义和要求;

其次,模型学习过互联网的人类操作视频和其他机器人的各种操作视频,所以能知道挂衣服这件事通常包括哪些环节;

然后,模型学习过仿真的不同衣服、不同衣柜、不同房间,模拟过挂衣服的操作,所以能理解环节中对应的物体和环境并打通整个任务过程;

最后,因为学习过真机的示教视频,机器人就能精准完成整个任务的操作。

GO-1可以让机器人应用到更多的场景中。早上刚起床,机器人会帮忙倒上一杯水、烤下吐司,还可以去一些活动现场,负责检票、发放物料的活。

在商务会议中,面对人类发出的“帮我拿一瓶饮料”“帮我拿一个苹果”的语音指令,GO-1可以让机器人快速相应。

值得一提的是,GO-1还可以通过数据回流,持续进化:比如,机器人做咖啡的时候不小心把杯子放歪了,后续就可以从遇到这个问题数据中持续进化学习,直到成功完成任务。

结语:具身智能加速迈向通用化、开放化与智能化

一直以来,具身智能面临着场景和物体泛化能力不足、缺乏语言理解能力做不到指令的泛化、无法快速学习新技能、实现跨本体的部署等问题。

GO-1的出现,为机器人代替人类完成工作生活中的各种事情,提供了强大的脑力支持。从准备餐食、收拾桌面这样的家庭场景任务,到接待访客、发放物品这类办公和商业场景的常见工作,再到工业等更多场景的其他操作任务,通用具身基座大模型都可以快速实现。这也意味着具身智能从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化加速迈进,让机器人走向更多不同场景、适应多变的真实世界。

阅读
分享