李飞飞炉边谈话 | Behavior能否成为具身领域的ImageNet

在具身时代,李飞飞也延续了这个思路,发起了behavior基准和挑战赛,但这次她是否能成功呢?

作者: 具身纪元
分类:产品趋势
31 次阅读

近日,Jim Fan和英伟达Omniverse的Edmar做了一期访谈,关于李飞飞团队做的Behavior benchmark和挑战项目

在CV领域,她最具影响力的贡献是创建了 ImageNet —— 一个包含超过1400万张标注图像的开放数据集。ImageNet在2009年发布后,成为深度学习革命的关键催化剂:2012年,AlexNet模型在ImageNet竞赛中以巨大优势获胜,正式开启了以深度学习为核心的AI新时代。李飞飞因此被视为“让AI真正看懂世界”的推动者之一

在具身时代,李飞飞也延续了这个思路,发起了behavior基准和挑战赛,但这次她是否能成功呢?

本文分为两个部分,第一部分是访谈的原文;第二部分是关于behavior项目的介绍image.png图注:对谈截图

访谈内容

总结:

为什么有imagenet:李飞飞强调,当年建立 ImageNet 并非为了“重塑AI”,而是出于对视觉智能核心问题的好奇。它符合她的两条研究主线:视觉智能和“大数据”将改变机器学习的范式的假设
Behavior项目的初衷:解决具身研究的三个困境
第一、任务缺乏标准化,研究往往依赖随机设定,导致不同论文之间难以比较。
第二、缺乏统一的任务体系,很多研究任务非常短、非常局限。
第三、缺乏训练数据。这其实和ImageNet诞生前的计算机视觉很像。
Behavior项目是如何选择任务的:任务来源:借鉴美国劳工局“时间使用调查”,分析人类日常活动,从2000多个候选中筛选;以人为本的定义方式:通过上千人问卷调查,“你希望机器人帮你做什么?”
Behavior项目是如何设计交互环境的:
两个关键点:一是“可交互的场景”,二是“可交互的物体”。
规模:50个高保真场景(办公室、餐厅、公寓等);约10,000个可交互物体(可动、可变形、可受物理影响)。
大多数机器人学习论文的实验环境只有一两个桌面级的小场景,而Behavior把规模提升了两到三个数量级
Behavior的数据:
两类数据——仿真数据和真实数据;选择仿真数据是因为可扩展、安全高效、更容易标准化;也提出要解决sim to real需要从仿真端优化也要结合真实世界数据;硬件端的巨大进步使得真实世界数据采集数据变得更容易;
仿真与英伟达合作,OmniGibson 来支持物理、渲染、交互复杂性(刚体、柔体、液体等)
具身领域的benchmark:李飞飞强调其实就算是LLM或视觉领域的基准,也还没有真正完全统一;机器人的难度更大原因是任务定义困难、应用广

主持人 Edmar:

欢迎大家来到今天这场特别的直播。这是一次与李飞飞博士和Jim Fan博士的炉边对谈,我们非常兴奋他们都在现场。

今天,我们希望和大家深入探讨一个话题——Behavior,这是一个为了推动具身智能(Embodied AI)发展的大规模基准与挑战项目。本次对话将介绍Behavior背后的科学愿景与研究动机,阐释它如何在真实家庭场景中连接感知、推理与行动,并解释Behavior挑战的设计思路。同时还会讨论评估方法、标准信息与特权信息赛道的区别,以及仿真在机器人研究中的作用。

通过这次对话,我们希望大家了解Behavior是如何联合学术界与产业界的力量,共同打造稳健、以人为中心的智能体。首先让我们介绍今天的特别嘉宾,然后我就暂时退到幕后。

Jim,非常感谢你今天参加这次直播,我听说你是李飞飞博士的博士生,对吗?

Jim Fan:

是的,没错!能参加这次对话真的很荣幸。先向大家介绍一下我自己吧,我是英伟达的机器人总监,我的团队正在推进一个名为Project GR00T的项目,目标是为整个生态系统打造机器人基础模型。今天非常荣幸能和飞飞一起直播。

过去我在斯坦福读博期间是她的学生,能够成为第一个和她一起直播的学生也很特别。在斯坦福的几年中,飞飞的指导让我重新塑造了自己作为年轻科学家的思维方式。

我见证了实验室从计算机视觉(Computer Vision)到具身视觉与机器人(Embodied Vision Robotics)的转型。飞飞的指导一直是我科研道路上的北极星。谢谢你,飞飞,不仅让我成为更好的研究者,也让我成为更好的思考者,甚至更好的主播。

李飞飞博士:

哈哈,我可没教你直播,不过你太客气了。其实,能与像你这样聪明又出色的学生共事,对教授和导师来说才是真正的荣幸。你绝对是其中最优秀的一位。

主持人:

谢谢两位。飞飞博士,能不能请您也简单介绍一下自己和背景?之后我就把主持权交给Jim,让你们开始正式讨论。

李飞飞博士:

好的,我是李飞飞,斯坦福大学计算机科学教授,同时也是斯坦福人本智能研究院(HAI)的联合创始人兼联合主任。目前我还是一家创业公司的联合创始人兼CEO,这家公司叫World Labs,专注于空间智能(Spatial Intelligence),致力于从虚拟世界到具身智能世界的能力赋能。

主持人 Edmar:

太棒了,我已经迫不及待想听接下来的内容了。我会和观众一起观看。直播大约持续半小时,之后我再回来讲新闻。祝你们讨论愉快!

回顾ImageNet

Jim Fan:

太好了,那我就直接开始吧。飞飞,你的成就数不胜数,其中最广为人知的就是ImageNet。回过头看,ImageNet不仅定义了视觉模型的基准,更可以说定义了整个AI历史上的一个时代。当年你创建ImageNet时,是否曾想过它会如此彻底地重塑AI领域?

李飞飞博士:

谢谢你的提问,Jim。老实说,我当时完全没想到ImageNet会“重塑”什么。我只是被好奇心驱动。当时我有两个交织在一起的研究方向:  

第一个是科学问题层面——视觉智能(Visual Intelligence)中最核心的科学问题是什么?如果能破解这个问题,就能在很大程度上打开视觉智能的大门。视觉智能非常复杂,但其中确实存在一些关键问题。ImageNet就是在这样的背景下,将“目标识别(Object Recognition)”,特别是“分类(Classification)”定义为最基础的问题。它就像一颗“北极星”,指引着整个领域。  

第二个方向是技术层面——大数据(Big Data)在机器学习中的作用。当时大家对大数据的意义还不清楚,但我们提出了一个假设:大数据将从根本上改变机器学习与统计学习的方式。

后来事实证明确实如此。ImageNet与神经网络(尤其是卷积神经网络CNN)的结合,再加上英伟达GPU的算力,真正开启了深度学习时代。在那之前,神经网络并没有被普遍认为是主流方法,而大数据的作用也未被广泛理解。ImageNet正是在这两个层面上同时下注——既是技术上对“大数据”的一次冒险,也是一场对视觉智能核心任务的探索。

Behavior项目的初衷

Jim Fan:

我觉得这个世界确实需要更多的“ImageNet”。那我们今天的主角是Behavior——你团队新推出的机器人基准项目。能和大家介绍一下Behavior项目是什么吗?它和ImageNet之间又有什么联系或启发?

李飞飞博士:

当然可以。我们最近刚正式发布了Behavior 1K,也就是Behavior 1000挑战。这是一个面向具身智能与机器人研究的综合仿真基准与训练环境。它包含了1,000个任务,主要聚焦在日常家庭环境中的“长时序任务”(long-horizon tasks),也就是需要多个动作步骤才能完成的真实任务。Behavior为全球研究者提供了一个开放源码的训练与评测平台,让不同机构可以在相同标准下训练算法、进行比较和评估。

创建Behavior的灵感来自我们在机器人学习中遇到的三个主要痛点:

  • 第一,任务缺乏标准化,研究往往依赖随机设定,导致不同论文之间难以比较。
  • 第二,缺乏统一的任务体系,很多研究任务非常短、非常局限。
  • 第三,缺乏训练数据。这其实和ImageNet诞生前的计算机视觉很像。

因此我们想要建立一个标准化、可扩展的机器人任务体系。Jim,当年你还在实验室,我记得那时候我们刚开始设计Behavior,你虽然忙着博士论文,但对这个项目也很感兴趣,还给团队很多鼓励。

Behavior项目是如何选择任务的

image.png左图:展示了根据 1,461 名参与者的调查结果,对 2,090 项活动的人类偏好得分排序。分布结果表明,人类的需求与偏好多样而广泛——一个全面的基准应能反映这种多样性。 中图:为部分示例活动。可以看到,繁重劳作类活动得分最高,而愉悦性活动得分最低。 右图:展示了在我们高保真仿真环境 OMNIGIBSON 中生成的前 8 项活动中的两个可视化示例。

Jim Fan:

是的,我记得当时Behavior刚起步时就很激动。能看到它一步步发展到现在,有这么多博士生投入其中,最终形成包含上千个任务的完整挑战,真的令人兴奋。我想请你多讲一点Behavior的结构,你提到它有三个核心部分——能不能详细解释一下?

李飞飞博士:

当然。你刚才提到一个关键点——“怎么选出那1000个任务”。这让我回想起当年设计ImageNet分类体系的过程。定义一个问题的分类结构,本身就是一门科学。ImageNet的对象类别可以通过语义词汇定义,但机器人学习更复杂——它模仿的是人类行为,而人类行为并不总能用词语表达。比如刚才我被提醒麦克风摩擦到拉链,于是我用手指捏住线往上提一点,这个动作用哪个词来描述呢?这就是机器人任务定义的挑战。 但我们必须从某处开始。很多现有任务都是“短时序任务”,比如“抓起一个积木放到桌上”或“开抽屉”。这些任务当然重要,但我们希望Behavior更大胆、更有野心,去探索那些真正复杂且与人类生活相关的任务。  

于是我们参考了人类的时间使用数据。像美国劳工局(American Labor Bureau)就有一个“美国时间使用调查”(American Time Use Survey),它把人们的日常活动和工作分解成上千个任务。

我们仔细分析了这些数据,从中筛选出两千多个候选任务。接着我们思考:哪些任务是真正值得机器人社区去攻克的?这个问题不能由某个科学家单独决定,于是我们采用了“以人为本”(Human-Centered)的方式,发起了一项覆盖上千人的调查,来自不同地区和人群,问他们:“你希望机器人帮你做什么?”结果非常有趣——从拆圣诞礼物、打壁球、清理宠物,到擦地板、铺床,人们的回答五花八门。比如几乎没人希望机器人帮自己拆礼物(笑),因为那太有人情味了,我们愿意留给自己。还有一个问题是“让机器人帮你挑婚戒”,我们当然希望没人真这么做(笑)。调查的结果显示,大家最希望机器人帮忙的前三项是:清洁浴室、拖地板,以及在派对结束后打扫房间。听上去也非常符合现实——这些确实是人们最不想亲自干的事。

Jim Fan:

我完全同意,而且我也投三票(笑)。我太希望这些事情能尽快实现了。

李飞飞博士:

Jim,你到底有多少次“狂欢派对”啊?Jim Fan:

太少了,因为太忙了。李飞飞博士:

那等哪天我们真的有机器人了,你就能多开几场派对了——不过听起来还是挺怪的(笑)。总之,这一千个Behavior任务,都是通过人工调查选出来的,是人们最希望机器人能帮忙完成的那些任务。

Behavior项目是如何设计交互环境的

Jim Fan:

是的。说到机器人任务,其实和计算机视觉那种静态数据集不同,机器人任务必须存在于交互式的环境或仿真中,否则无法执行。飞飞,你能不能讲讲这些交互环境是怎么设计的?你们选择的仿真框架又是什么?

李飞飞博士:

这个问题其实正好引出了我们与英伟达的合作。我记得当时和你们的首席科学家,以及英伟达机器人团队的几位科学家聊天,大家都有一个共同的愿望——想推动机器人学习的前进。为了模拟机器人行为,我们必须构建“可交互的环境”。

这里有两个关键点:一是“可交互的场景”,二是“可交互的物体”。  

最终,Behavior项目收集了50个高保真、全交互的场景,覆盖了从办公室、餐厅到公寓等多种空间。在这些场景里,我们整合了约1万个可交互物体——这些物体真实、符合家庭尺度,有的可动,有的可变形。这些我们称为“资源资产(assets)”。  

对学术界或开源研究来说,这样的规模已经非常大了。要知道,大多数机器人学习论文的实验环境只有一两个桌面级的小场景,里面也就几十个甚至更少的非交互物体。而Behavior把规模提升了两到三个数量级。  

当然,交互环境和物体还要遵守物理规律:物体需要有碰撞、受重力影响、能被加热、甚至能被水弄湿。这些都依赖仿真引擎来实现。我们这部分的合作伙伴是英伟达的Omniverse平台,以及其中的Isaac Sim引擎。通过这次合作,我们开发了Behavior的仿真引擎,命名为OmniGibson,以致敬合作。

这个引擎不仅支持刚体物理,还能处理布料、织物等可变形物体,以及液体交互,如制作果昔等;还能模拟复杂的物体状态,比如加热、冷却、切割等等。

Jim Fan:

拥有这么多物体和场景,这个基准的规模几乎是前所未有的。

李飞飞博士:

我完全同意。这让我们非常兴奋。学术界和开源社区太渴望“规模”了。这几年我们都学到一件事:Scaling Law真的很重要。Behavior会成为一个极具价值的开放资源。

Behavior项目的数据

Jim Fan:

刚才我们聊了任务和环境,接下来我想问关于“数据”的问题。机器人数据很复杂,不像视觉那样只需标注猫、狗或飞机。Behavior的数据是怎么采集的?你怎么看待机器人学习中的数据收集?

李飞飞博士:

这是个非常复杂的话题。我们先从“仿真数据”和“真实数据”两类说起。要让机器人像今天的大语言模型或视觉模型那样具备通用能力,能够解决Behavior 1000中的各种任务,我们必须结合两类数据——仿真数据和真实数据。

仿真数据的重要性有几个原因:

第一,它更具可扩展性。光是我们这50个高保真环境和1万个可交互物体,考虑到每个物体的多种状态组合,已经能形成海量的潜在交互场景。这种“大数据量”在机器人学习中同样关键。

第二,仿真更高效、更安全。很多物理数据采集难度大、成本高,甚至有安全风险。比如模拟“切割”“火焰”“清扫派对现场”等情况,用真实机器人去做显然不安全,但在仿真中可以放心开展。

第三,仿真标准化更容易,而且我们还可以通过VR等方式,把人类的行为数据也带入仿真中,实现虚拟与真实的融合。

当然,仿真与现实之间仍然存在“仿真差距(Sim2Real Gap)”,包括感知差距、物理交互差距和物理规律差距。要缩小这个差距,一方面要从仿真端努力,比如利用3D视觉与生成式AI的进步,现在我们已经能生成非常逼真的立体视觉和视频场景。另一方面也要结合真实世界的数据——随着机器人硬件性能提升,远程操作(teleoperation)等数据采集方式比以往更容易。

Jim Fan:

我看过你们World Labs的演示,那些生成的3D世界太震撼了,几乎真假难辨。

李飞飞博士:

哈哈,谢谢!听到你这么说真开心。当然我们还有很长的路要走,但确实在快速缩小仿真差距。上次我去你们的Gear Labs,看到了硬件端的巨大进步,采集真实数据变得比几年前容易多了。Jim Fan没错。下次我再去你们实验室,希望机器人能把我的书递给我,然后请你签个名(笑)。李飞飞博士哈哈,没问题!不过签名这一步还是该由人来完成。

具身领域的Benchmark

Jim Fan那我们往上看一点,从更宏观角度谈Benchmark。语言模型社区已经有了像MMLU、SWE-Bench这样的统一基准,不同公司和团队都认可。而机器人领域似乎还没有形成共识。我很希望Behavior能成为那个统一的力量。你觉得为什么机器人学界一直难以在基准上达成一致?

李飞飞博士这个问题非常好。先说一句“热观点”——其实就算是LLM或视觉领域的基准,也还没有真正完全统一。学术界确实有一些标准数据集,比如ImageNet、COCO、MMLU或SWE-Bench,它们都很好。但当AI落地到产业应用时,这些学术基准并不总是最佳标准。比如医疗领域的大模型,用MMLU就不太合适。 放到机器人领域,我们当然需要一定的标准化,特别是在还远未实现“家家有机器人”的早期阶段。统一的任务标准能推动整个社区向前。这也是Behavior让我最兴奋的地方——它代表着“北极星任务(North Star Tasks)”。 为什么机器人基准这么难?

第一,定义任务本身就极难。不同于图像的“类别”,机器人的行为很难建立完备的“动词分类体系”。我记得在ImageNet之后,我一度对“动词”产生兴趣,研究语料库中人类常用的高频动词,发现其实常用动词只有几百个,比如“拿”“放”“做”等,但这些词在不同语境下的意义几乎无限多。对机器人来说,任务的定义更复杂——要怎样分类、怎样标准化?这就是我们后来参考美国劳工局的“时间使用调查”,用人类社会真实活动来定义任务体系的原因。

第二,机器人应用太广。它不像语言那样有一个几乎通用的问答范式。我们这些搞机器人的人其实很羡慕语言模型研究者(笑),他们的问题更统一。

Jim Fan:

我也是(笑)。

李飞飞博士:

图灵在70多年前就为语言智能奠定了问答的标准,但视觉和机器人都没有类似的“图灵时刻”。我们也许正需要一个类似“ImageNet时刻”的统一节点,而Behavior可能会成为这个转折点。

Jim Fan:

我也希望如此。Behavior或许就是机器人领域的“ImageNet时刻”。飞飞,你是具身智能领域的思想领袖,这无疑是迈向正确方向的一大步。希望Behavior能成为推动整个社区前进的统一基准。谢谢你,飞飞!出于时间考虑,我们接下来请主持人挑一两个观众提问吧。

Q&A

主持人 Edmar:

好的,真是一场精彩的对话。我们收到了很多问题,先挑一个来自LinkedIn的。问题是:在人类价值观和伦理约束方面,像GR00T或Behavior这样的机器人模型,是如何在训练中防止出现意外或危险的行为的?

李飞飞博士:

我先回答Behavior的部分,Jim你可以讲GR00T。 在Behavior中,我们从一开始就坚持一个核心信念:AI和工具是用来增强和赋能人类的,而不是取代人类。因此我们非常有意地挑选了那1000个任务——这些任务都是经过大规模用户调研后选出的,是人们希望机器人帮忙的事情,比如清洁、拖地、洗碗等,而不是让机器人去完全替代人的活动。

这种任务选择方式本身就是以人为本(Human-Centered)的,也体现了伦理与价值观的考虑。 当然,Behavior的训练环境目前还不算大——我们只有50个场景,涵盖办公室、餐厅等8种类型。未来我希望这些训练环境能更加多样化,覆盖社会中更多样的文化与生活方式。

总体来说,将人类价值观嵌入大模型(无论是机器人、视觉还是语言模型)不是靠一个“银弹”就能解决的问题。不能只靠数据、也不能只靠应用层。必须在整个研发管线上,从数据收集、算法设计到应用场景,全程注入以人为本的价值观。这需要团队共识,也需要整个团队真正相信这些价值体系。

Jim Fan:

我完全同意。对于像GR00T这样的模型来说,它们是从数据、任务和环境中学习的。所以如果模型在Behavior上训练,它就会继承Behavior团队在设计中所注入的价值观与先验偏好。换句话说,模型的行为是由数据与基准共同塑造的。无论使用哪种基准,都会引导模型朝着那些目标行为方向发展。模型本身其实是“次生的”,真正决定它行为特征的是数据和任务。

主持人(Mark):

非常好。我们时间不多了,这里有一个来自YouTube观众Chris的问题:对于那些正在搭建强化学习仿真环境的创业公司来说,最关键的仿真要素是什么?

李飞飞博士:

这是个很有意思的问题,其实要看你在模拟什么。比如,如果你的场景涉及可变形物体或流体,那和刚体仿真完全不同;如果应用是导航,那又和操控(manipulation)截然不同。所以核心还是要看你的任务类型——不同任务决定了仿真要关注的重点。Jim,你怎么看?

Jim Fan:

完全同意。关键还是取决于任务类型。不同任务对应的仿真系统优化方向也不同,有的强调系统吞吐量(throughput),有的强调物理精度(fidelity)。有些任务的“仿真到现实差距”很大,有些则相对较小。就像飞飞说的,如今生成式AI的工具越来越强大,正在不断帮助我们缩小这些差距。

主持人 Edmar:

太棒了,这真是一场非常精彩的对话。过去半小时的内容极具启发性。非常感谢两位今天的分享——感谢你们向机器人开发者社区传授知识、经验和洞见。现在有很多人正在观看直播,如果你是中途加入的,可以在YouTube上NVIDIA Omniverse频道回看完整视频,它会永久保留。飞飞博士、Jim,非常感谢你们的时间。临走前你们还有什么想对观众说的吗?

李飞飞博士:

我真的非常开心今天能和Jim以及大家共度这段时间。学生毕业后见面的机会越来越少,每次和他们交流我都能学到新的东西。Jim也是如此。更让我兴奋的是,我们正处在一个文明性的转折时刻:语言、空间、视觉、具身智能等多种AI技术正在融合,并开始真正改变人类社会。只要我们始终把“以人为本”放在心中,这些技术就能成为造福人类的力量。

Jim Fan:

我也同样激动。谢谢飞飞,再次为这一新时代树立了北极星方向。

主持人 Edmar:

谢谢两位的到来,也感谢所有观看的朋友。

Behavior 项目介绍

Behavior 1k

Behavior 1k的原始版本是Behavior,团队定义了100个日常家务活动(如清洁、烹饪、维护等)作为 benchmark 的核心活动集合。

BEHAVIOR-1K 是一个2024年推出的扩展版本,目标是 1,000 个日常活动。在构建任务集时,它依然保留“以人为中心”的原则:那些通过调查问卷(时间使用调查 + 人类偏好调查)得分高、被人们真正想让机器人做的活动则会优先纳入

Behavior 1K:包含 1,000 个家庭场景任务,这些任务被实例化在 50 个完全可交互的仿真场景中,环境中拥有超过 10,000 个可交互物体资源。左图展示部分高保真场景(卧室、厨房、办公室等),右图展示部分可操控物体(家具、日用品、工具、植物等),共同构成用于具身智能训练与评测的真实世界级任务空间。

Behavior 1k的数据集所有活动定义均用 BEHAVIOR Domain Definition Language(BDDL) 定义,基于谓词逻辑描述任务的初始条件与目标条件,这减少了自然语言中的模糊性

举例来说,烘焙一个派:

(:init (in dough1 fridge1))
 (:goal (cooked pie1))  

意思是初始条件:

dough1(一个面团对象)在(in)fridge1(一个冰箱对象)里面。

目标条件:

pie1(一个派对象)状态为 cooked(被烹饪熟的)。

团队利用WikiHow--一个教人做事的网站来收集“人类日常活动里会出现的物体和动作”,然后映射到Wordnet这个词汇网络中,最终整理出了1,484 个独立的物体类别,每个类别都与一个 WordNet 节点对应,形成机器人的物体知识库

image.png

图注:wikihow

BEHAVIOR-1K 在环境 / 场景 / 物体种类 /状态变换的多样性上都有显著提升。BEHAVIOR-100 使用 iGibson 2.0 构建,但其无法满足更复杂的物理需求。因此团队基于 NVIDIA Omniverse + PhysX 5 开发了 OMNIGIBSON,来支持物理、渲染、交互复杂性(刚体、柔体、液体等)

OmniGibson:在感知、物理与交互方面实现高度真实感的仿真引擎。  图中展示了其可模拟的多种物理属性与交互类型,包括:流体(Fluids)、可变形物体(Deformables)、透明材质(Transparency)、热效应(Thermal effects)、流体交互(Interact with fluids)、布料抓取(Grasp cloth)、刚体抓取(Grasp rigid objects)以及物态变化(Transitions)。

BEHAVIOR-1K中任务是长期 (long-horizon) 的,操作链条更长、步骤更多、操作更复杂。

image.png图注:一些居家的长程任务图注: BEHAVIOR-1K 中两个任务示例。左图 CleanYourLaundryRoom 展示了一个多物体、多状态的长时序清洁任务;右图 CleanTheBottomOfAnIron 展示了一个中等长度的去污任务,定义了初始与目标状态的谓词逻辑描述。

2025 BEHAVIOR 挑战赛

image.png图注:Behavior挑战赛官网截图

为了推动Behavior 1k的普及,李飞飞团队还发起了BEHAVIOR 挑战赛。这是是一项针对日常家庭任务的机器人挑战赛。它是一个大规模、以人为本的基准测试,用于检验机器人在家庭规模场景中的高层推理、长距离移动和灵巧双臂操作能力。

今年的挑战赛特色包括:

从 1,000 个活动集合中选出的 50 个完整的家庭任务,涵盖了整理、烹饪、清洁和安装等多种活动。

10,000 个远程操作演示(总时长超过 1200 小时)可用于训练。

数据集与基线方法

远程操作演示

通过远程操作收集的 10,000 个专家演示(总时长超过 1200 小时):

  • 同步的 RGBD(彩色+深度)观察数据
  • 物体和部件级别的分割
  • 真实的物体状态(Ground-truth)
  • 机器人本体感知和动作
  • 技能和子任务标注

数据集详情 (https://behavior.stanford.edu/challenge/index.html#)

基线方法

预先实现的训练和评估流程,适用于:

  • 行为克隆基线方法:ACT、Diffusion Policy、BC-RNN、WB-VIMA -这些是多样化的模仿学习方法,从提供的演示中学习。
  • 预训练的视觉-语言-动作模型:OpenVLA 和 π0。这些模型通过大量演示数据进行了预训练,为那些需要从零开始训练的模型提供了替代方案。

基线方法详情 (https://behavior.stanford.edu/challenge/index.html#)

评估与规则

挑战赛赛道

  • 标准赛道:仅限于使用机器人上提供的观察数据(RGB + 深度 + 实例分割 + 本体感知)。
  • 特权信息赛道:可以查询模拟器以获取任何信息(如物体姿态、场景点云等)。

🏆 各赛道奖品:

🥇 第一名:* 1,000 美元 + GeForce 5080
🥈 第二名:* 500 美元 + (Jetson Orin Nano Super 或 1000 美元的 Brev Credits)
🥉 第三名:* 300 美元 + 500 美元的 Brev Credits

每个赛道的前 3 名团队将被邀请在研讨会上进行展示!

评估指标

  • 主要指标(用于排名): 50个任务的平均任务成功率。部分完成的任务将根据满足的BDDL(行为领域定义语言)目标谓词的比例给予部分分数。
  • 次要指标(效率):
    • 模拟时间: 总模拟步数 × 每步时间
    • 导航距离: 机器人基座总移动距离
    • 手部移动距离: 手部累积移动距离

评估详情与完整挑战赛规则 (https://behavior.stanford.edu/challenge/index.html#)


本文由公众号“具身纪元”授权AI产品之家转载,原文连接: https://mp.weixin.qq.com/s/1gksvFrksMaPnvqMEiFRKA