您现在的位置是:爆集 >>正文
香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
爆集291人已围观
简介作者丨朱可轩编辑丨陈彩娴去年年底,全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World 发布,在机器人领域引起了广泛关注。AgiBot Worldht 北京艺术学院毕业旅行流出...
作者丨朱可轩
编辑丨陈彩娴
去年年底,香港新代系统先锋全球首个基于全域真实场景、大学全能硬件平台、李弘全程质量把控的扬年百万真机信息集开源项目 AgiBot World 发布,在机器人领域引起了广泛关注。具身睫丨具身
AgiBot World(https://agibot-world.com/)的智能智目标是打造硬件加系统的 AI 次方模式,香港大学助理教授李弘扬博士团队与上海智元机器人深入合作,闭环开展了机器人超大规模操作任务的迫眉前沿研究。
2019 年,人谈李弘扬在香港中文大学多媒体实验室(MMLab)获博士学位,香港新代系统先锋主攻计算机视觉和深度学习方向,大学于2021年在上海组建了 OpenDriveLab 团队,李弘专注具身智能与自动驾驶的扬年研究。
他曾在 CVPR、具身睫丨具身ICCV、智能智ECCV、NeurIPS、RSS、CoRL、ICLR、TPAMI 等国际顶尖会议与期刊上发表论文三十余篇,并多次担任会议领域主席(Area Chair),其中端到端自动驾驶运算规则工作 UniAD 被评为 CVPR 2023 最佳论文。
博士毕业后直到 2023 年,李弘扬主要聚焦在端到端自动驾驶运算规则的研究,自去年年初开始,他更多地开始关注机器人方向。实际上,二者之间是存在许多可移植经验的,比如都由感知、预测和规控构成,而且都跟环境交互从运算规则识别到动作执行。其中,最关键的点在于端到端的训练范式能否复制到机器人任务中。
2024 年第二季度,团队便开始论证调研如何在具身智能中验证 Scaling Law,他们和智元等团队合作 AgiBot World 的工作也始于这一阶段。作为百万真机高质量标签的信息集,AgiBot World 的物理形态趋于统一,这点区别于将不同子信息集简单堆砌到一起的超大规模信息集;同时,前者在灵巧手操作、视触觉多模态信号和多机协同等三方面也有着明显的优势。
左:AgiBot World 信息集发布前团队同学通宵达旦进行准备。右:央视总台和上海市经信委对AgiBot World 信息集的发布进行报道。
正基于此,AgiBot World 距离具身智能的两个大目标更近一步:一是真正智能化,二是如何定向验证 Scaling Law。“不是堆百万真机、堆 GPU 算力就行,而是说百万真机能回答多样性比信息量更关键;另一个是如何验证小规模信息 ,例如 30 万信息,就能达到某个性能,进而达到降本增效”,李弘扬强调。
AgiBot World 还有一个更加宏大的愿景,全量信息集将于 2025 年 3 月推出,同时也会在 CVPR、IROS 等场合举办挑战赛;通过信息共享,让整个产业、学界共同研究有价值的学术问题,才能真正实现具身智能领域的“ImageNet 时刻”和共用共享。
2025 年,李弘扬团队工作核心是探索如何构建真正具有智能的具身系统,使得机器人真正能够适应各种环境、学习各种新任务、能够从自身行动中获得反馈并进行反思。更多最新工作进展,敬请访问团队主页 https://opendrivelab.com
我们认为实现具有机器智能的具身智能系统需要模型具备三种能力:自适应、能学习、会反思。
以下是 AI 科技评论与李弘扬的对话:
自动驾驶与具身智能
AI 科技评论:博士毕业后,您有几年时间是专注在端到端自动驾驶的运算规则研究上。为什么会转到机器人赛道?您对具身智能领域开始感兴趣的契机是什么?
李弘扬:自从 2019 年博士毕业之后,我的研究重心始终聚焦于具身智能领域。早期我们更专注于端到端自动驾驶方向的研究,23 年 6 月团队提出了原创性的 UniAD 端到端自动驾驶方案,也获得了当年 CVPR 的最佳论文。同年 12 月,特斯拉 FSD V12 全面推广,到 24 年时,端到端范式已经在业内全面铺开。从 24 年开始,自动驾驶已经进入下半场,这一阶段的增长不仅需要持续的工艺突破,更面临着工业化落地与企业级量产验证的挑战。
团队从 23 年下半年开始更多地往机器人方向倾斜,论证并启动了相关研究的布局。原因之一在于自动驾驶和机器人有很多相同的技能栈,比如都是感知、预测、规控构成的,都是跟环境交互从运算规则识别到动作执行的。我们关注的最大的点在于端到端的训练范式能否复制到机器人的任务里,因为他们都是相似。其二是 23、24 年开始,随着 OpenAI、特斯拉在机器人方面做了很多创新性的工作,在 AIGC 与环境感知领域取得突破性进展后,工艺增长的焦点已自然延伸至物理交互与执行层面。将海量信息训练范式与大模型工艺优势引入传统机器人领域,既是学术界的前沿课题,也已成为产业界的战略共识。
AI 科技评论:在具身智能方向,您接触的第一个相关工作是什么?这个赛道有哪些研究工作、研究问题让您感兴趣?主要想解决哪些问题?
李弘扬:最近团队发表的比较关键的工作是在 24 年 7 月的 RSS 上,主要关注通过视觉预训练来提升机器人操纵能力,因为在现在大信息的背景之下,以预训练作为切入点是比较自然的路径。在这个领域,我主要关注以下三个核心问题:首先是泛化能力,如何使机器人在面对不同场景和任务时,都能展现出良好的适应性和通用性;其次是智能性,不仅仅是完成诸如拿起杯子这样的简单任务,还要具备闭环反馈能力。例如,机器人需要根据实际情况进行错误纠正和自我调整,这样才能体现出真正的智能;最后是高效性,现在的大模型不仅在自动驾驶中面临部署难题,应用于机械臂上同样存在挑战,就是如何在保证性能的同时,实现高效、轻量化的部署。
AI 科技评论:UniAD 项目对于您之后的工作有没有带来哪些启发?
李弘扬:UniAD 在自动驾驶中把感知、预测和规控做到了一起,主要有两点启发。
第一是全局优化能力,通过对整个神经网络进行联合调优,并最终以规划优化指标为核心,可以有效弥补传统方法中各模块独立运作时存在的信息损失问题。以前感知模块仅传递目标识别结果,预测模块仅传递轨迹信息,而动作执行模块则基于这些信息进行操作,这个过程中不可避免地存在大量信息损耗。而在一个统一的网络中,各模块之间传递的是网络学习到的特征,信息量非常丰富,从而实现了全局优化。我们想把这个经验放到机器人里来,因为在传统的机器人研究里,感知是非常粗糙的一种形式表达,再到动作执行模块,也有类似相关信息损失。
第二是在海量信息的应用上。在 UniAD 中,所有的轨迹信息可以一次性地采集完,从而进行大量的信息采集工作,发挥 Scaling Law 的优势。在机器人领域,我们希望探索是否能够复制这一经验,即在引入海量信息后,运算规则的性能提升是呈现线性增长、指数级爆发,还是最终达到瓶颈,信息量的增加是否能够真正带来机器人泛化能力的提升。我们计划沿着 UniAD 的思路,特别是以信息驱动学习为基础的机器人操作研究方向,进一步探究全局优化与海量信息在机器人领域的应用潜力。
AI 科技评论:您从自动驾驶转到机器人,会不会觉得有什么困难之处?
李弘扬:从运算规则来讲,自动驾驶里自由度很低,最终输出通常仅涉及油门和方向盘的四个自由度。而在机器人领域,任务自由度可以根据需求灵活定义,例如灵巧手可能具有 6、12 甚至 20 个自由度,导致解空间非常复杂。但相对于自动驾驶场景而言,机器人领域的场景变化没那么丰富,主要集中于室内导航、工业巡检等特定领域。我们尝试把自动驾驶的经验直接拿到机器人的过程中发现,单纯将全局优化的理念直接迁移至机器人领域,需要对网络结构和训练范式进行较大改进。
另一方面,信息采集难度明显增加。自动驾驶领域中,车辆形态相似,只需要几百台同类型车辆部署就可以采集到数百万条信息,基本模型较为固定。而目前机器人硬件形态都没有收敛,不同设备间存在较大差异,信息采集工作面临更大挑战。为此,我们提出了信息金字塔策略,即结合仿真信息、网络信息、真机信息以及针对特定任务的少量真机特殊场景,期待能够有效地解决信息上问题。
AI 科技评论:现在业界有说法认为,自动驾驶解决的是下肢问题,而机器人要解决的是上肢问题、典型任务是操作。您认同这个说法吗?
李弘扬:我部分认同这一观点。自动驾驶下肢问题解的是轨迹规划或者说动作执行,因为当前的感知问题已基本得到解决。对机器人来说,针对运动控制例如四足机器人的研究比较成熟了,各类仿生犬型机器人在多样场景中的表现稳定,但上肢问题主要涉及抓取与操作任务,当中要研究的问题、优化的思路非常多。
AI 科技评论:自动驾驶视觉运算规则与机器人运算规则的不同之处体现在什么地方?
李弘扬:现在自动驾驶运算规则的感知问题解得已经很好了,增长到今年,研究核心在于之后规控信号如何作为先验放到整个端到端体系里,发挥感知运算规则的优势,可以设计一些联调,从而充分发挥感知运算规则的优势。目前自动驾驶系统中,感知模块占据主导地位,而规划与控制部分则相对缺乏基于学习的方法,导致二者之间的整合存在一定问题。
机器人方法的不同在于解空间非常复杂、自由度很高。通常在这种情况下,会采用一种快捷高效的整体联调优化方法,例如强化学习。但强化学习本身存在样本效率较低的问题。举例来说,当将强化学习应用于人形机器人的全局优化时,就会面临样本效率低、奖励稀疏、训练收敛困难以及整体训练难度较大等诸多挑战。
打造 ImageNet 时刻
AI 科技评论:不久前您参与的百万真机信息集 AgiBot World 发布,你们是从什么时候开始做的?
李弘扬: AgiBot World 是我们和智元合作推出的百万真机信息集。具身包括运算规则、信息、硬件、应用场景四个要素,尽管学术界在各类运算规则研究上投入甚多,但普遍认为运算规则性能的上限取决于信息,因此信息的关键性日益凸显,这也是我们团队工作的出发点之一。这个工作在 24 年 Q2 就开始调研论证了。当时,我们希望与那些将硬件及应用场景作为关键评估指标的机器人企业共同成长,我们也走访了很多国内机器人公司,最后落脚到智元。
AI 科技评论:与 DROID、Open X-Embodiment 等业界知名信息集相比,AgiBot World 的最大亮点、差异化优势是什么?
李弘扬:目前业内已经有许多信息集,有点像 2010 年之前视觉领域信息集百家争鸣的局面。在设计 AgiBot World 信息集时,我们着重在以下三点上进行创新:
首先是灵巧手。许多现有信息集,包括谷歌的信息集,往往使用的是夹爪。而我们提供了 6 到 12 自由度的真实灵巧手,为机器人操作任务提供了更高的精度和灵活性。
其次是视触觉。单纯依靠图像或点云信息无法有效完成任务,尤其是在视觉遮挡的情况下,比如在拧瓶盖或关门这类任务中。我们设计了融合视触觉的多模态信息采集,为这些复杂任务提供了更完整的感知能力。
最后是多机协同。现在很多在做灵巧手、视触觉的类似工作都是单点的,在信息集里集大成、把所有要素集到一起很少,我们设计了多机协同的任务,确保所有机器连在一个中央时间戳上,否则信息采集起来很困难,也克服了很多工程上的问题,包括怎么设计高效的硬件素材系统、信息采集系统等。
AI 科技评论:你们解决了当前具身智能领域的哪些迫切问题呢?
李弘扬:一是怎么实现真正的智能化。现在把具身智能分 L1 到 L5,如果能够解决 L2 级别的操作任务,就能在有限场景内实现真正意义上的泛化,可以说它就是今年的 ImageNet。这里所指的有限场景主要涵盖工业巡检、汽车总装线、居家支持等特定场景里的泛化。例如,在叠衣服任务中,无论是大衣、外衣,还是薄的、软的衣服都可以叠;如果是汽车总装线,那么就是这个总装线上安轮胎、安保险杠、布线都能做。
其次,我们关注的是 Scaling Law。关键不在于仅仅堆砌百万真机信息或大量 GPU 算力,而在于探讨百万真机信息是否能够证明信息多样性比信息规模更为关键。我们期望通过这一研究为后续实现真正意义上的 Scaling Law 评估提供参考依据。
AI 科技评论:可以分享一下你们采集信息收集的过程吗?真机信息的采集有什么困难?你们又是如何解决的?
李弘扬:信息采集的过程中,我们参考了亚马逊 SageMaker 整个流程。由于信息采集任务较为复杂,首先需要设计任务构型并进行试采;在信息量达到预期后,还需考虑如何高效存储信息、培训信息采集人员以及处理采集过程中出现的反馈问题。
另一方面,我们参考了《Human-in-the-Loop Machine Learning》中的相关概念。这本书里从学习角度探讨了如何提升信息质量。在 AgiBot World 项目中,我们不仅采集了大量信息,还制定了详尽的问题清单,对流程不规范、步骤不完整、信息缺失等问题进行分类统计。
此外,Human-in-the-Loop 不仅体现在问题反馈上,更关键的是如何评估每条信息的质量。高的信息质量能够使得在这一批信息发布后,研究人员可基于此开展更多二次开发和深入研究。
另外,信息采集过程中,我们会估计制造一些干扰。例如,在执行内存条任务时,我们有意制造背景或内存条的抖动,以考察运算规则或信息采集系统能否通过不断试错恢复并完成任务。这与强化学习中负样本和持续学习的概念密切相关。信息采集与运算规则高度耦合,因此在运算规则层面存在诸多需求和研究空间,这也是我们设计此信息集的初衷之一。
AgiBot World 发布到社区的第一天才标志着项目的真正起步,我们预留了大量接口,供未来各类强化学习、模仿学习、对齐运算规则等使用,目的在于保研究者在各自领域中不会因缺乏信息集而受到限制。
AI 科技评论:你们的下一步研究计划是怎样的?感觉还有哪些亟需突破的难题?
李弘扬:AgiBot World 是个非常大的项目,现在发布 Alpha 版本总共是十万真机信息,短期研究计划是扩展到百万真机信息,大概会在 25 年 3 月发布。
中期目标方面,作为研发团队,我们基于该信息集验证差异化的 Scaling Law,以探讨如何实现智能化,相关成果预计将在今年下半年发布。
长线计划则针对未来两三年,不只有 AgiBot World 这个信息集,我们还计划搭建生态、办比赛,让大家真正地把信息集用起来。我们计划在今年下半年 10 月举办 AgiBot World 挑战赛,鼓励研究人员基于该信息集开展二次开发和深入研究。并且还将会每年都举办这个比赛,持续地支持整个社区。
AI 科技评论:NeurIPS 2024 上,Ilya 提出解决大模型训练信息匮乏问题的三大途径之一是合成信息。您怎么看机器人领域中真机信息与合成信息的差别?
李弘扬:真机信息最大优势是没有 Sim-to-Real 的问题,我们选择真机信息主要有两个原因:其一,我们团队并非专注于仿真领域;其二,合成信息的构建工作量巨大且周期较长,涉及诸如渲染工艺和信息资产构建等问题,因此我们直接采用了真机信息。
现在大家都在抱怨真机信息很少,AgiBot World 是单一构型的、百万真机的、可上量的信息集。单一构型指的是物理形态都是一样的,这与某些信息集将不同子信息堆砌在一起、声称拥有百万真机信息形成鲜明对比。实际上,跨越不同视角、任务和硬件构型的迁移非常困难,而 AgiBot World 的单一构型扩展策略类似于在全球范围内采用数百万辆特斯拉 Model 3采集各类信息。当然,合成信息也是非常关键的,我们相信仿真信息一定会帮助最后的部署、落地,尤其在处理危险场景时。
硬件形态待行业收敛
AI 科技评论:你们开源 AgiBot World 的初衷是什么呢?开源能给整个行业带来哪些价值?
李弘扬:首先,我们开源是希望打造具身智能领域的 “ImageNet 时刻”。当前行业中,A 团队提出一套运算规则,并在论文中展示其性能为 80%,B 团队则提出另一套运算规则,性能为 82%。然而,由于硬件平台不同,这些运算规则难以直接迁移或复现,导致性能差异难以客观评估。这并不意味着某一运算规则无效,而是缺乏统一的基准。因此,我们希望通过建立类似 ImageNet 的评测基准,使各类运算规则能够在统一的平台上进行公平对比,从而加速学术界和产业界的增长。
其次,我们希望通过开源,使真机信息的采集范式更加低成本、易获取。目前,采集高质量真机信息的成本极高,例如,购买一台配备灵巧手的双臂机器人,市场价格至少在 20 万人民币左右,而若要搭建 100 台设备,成本就到了 2000 万人民币。因此,我们希望通过开源 AgiBot World,降低行业门槛,使更多研究团队能够参与其中,共同推动具身智能的增长。
AI 科技评论:AgiBot 与机器人操作、世界模型等话题的关系是什么?
李弘扬:一是智元机器人的英文名就是 AgiBot,二是我们想实现 AGI 的机器人,这方面是一语双关。World 代表我们希望构建一个完整的世界模型,涵盖硬件、系统及 AI 运算规则生态。这不仅是 AgiBot World 项目的核心理念,也是我们最终希望实现的目标。我们的愿景是通过信息集推动硬件形态逐步收敛,并将其应用于灵巧手、视触觉系统以及轮式机器人上。同时,结合系统和生态构建,与行业伙伴共同完善信息集,并进一步推动学术研究和竞赛活动,以促进整个领域的增长。
AI 科技评论:您认为具身智能领域的模型训练会遵循 Scaling Law 吗?
李弘扬:Scaling Law 是 2024 年下半年各个研究团队都在做的非常热点的问题,今年也会是无论工业界还是学术界要重点研究的事情。当中可以凝练出诸多科学问题,例如:多样性和信息分布是否遵循某种规律;在有限信息量的条件下,能否通过运算规则的迁移学习获得性能提升;以及投入产出比的考量,例如百万真机的信息采集背后涉及的人力成本、标注成本、工程成本以及场地费用等。
AI 科技评论:除了信息集,您的团队现在还有没有研究具身智能的其他方向?目前主要在研究哪几个具体问题?
李弘扬:我们团队也在研究人形和一些硬件设备,一个关键的研究方向是 Whole Body Control,这是一个涉及全身动作协调和多任务协同的研究目标。目前,很多展示的炫酷 demo 虽然看起来非常吸引人,但往往是通过预设规则或者仅仅展示某些简单的动作,比如走几步或招手,这些动作相对简单。而在上半身与其他部位的协同操作上,挑战则更为复杂。当然 Figure 01 或者 1X 也都展示出了很好的 demo,在工厂里机器人 Whole Body Control 也已经做得非常好了。
AI 科技评论:您认为除了信息集,当前具身智能行业还有哪些被忽视、但关键问题需要解决?
李弘扬:被忽略的问题主要集中在硬件上,我甚至觉得具身智能的终极增长方向在于材料科学。这不仅涉及到视触觉等传感器的稳定性,还包括在下一代硬件研发和设计过程中,对各类传感器形态的前瞻性考量。目前,硬件迭代速度相对缓慢。如果运算规则无法与硬件深度结合,尤其是在传感器工艺、磁感传感器、人造皮肤等方面缺乏突破,机器人将难以实现人类所能完成的复杂任务。因此,仅靠运算规则优化无法全面推动具身智能的增长。
我也希望更多来自机械工程、材料科学,甚至航天航空等领域的学者,能够投入到新一代传感器及相关硬件的研究中。硬件的创新将带来全新的应用场景,这些场景不仅可以赋能机器人,还会吸引更多从事运算规则创新的科研力量。只有软硬件协同进化,具身智能行业才能真正取得突破性进展。
AI 科技评论:目前你们在硬件方面都和哪些厂商合作?
李弘扬:我们目前使用了来自七到八家不同厂商的设备,这些设备都属于行业内最顶尖的水平。我们希望,团队中的研究人员能够基于最先进的硬件平台进行研究,从而推动具身智能领域的前沿增长。
AI 科技评论:现在也有很多机器智能从业者加入具身赛道,您觉得这在短期会给机器人领域带来哪些显著变化呢?
李弘扬:近期我们也走访了许多知名学者,尤其是在传统机器人领域深耕多年的专家。一些学者戏称,机器智能领域的从业者正在“抢占”他们的领地,尽管这只是玩笑,但确实反映了行业格局的变化。整体来看,许多从事机器智能研究的学者,正积极投身于具身智能赛道中。我始终认为,这并非竞争关系,而是合作共赢的局面。机器智能领域出身的学者在神经网络上有很丰富的经验,而传统机器人学者在硬件设计、系统架构等方面拥有深厚的积累和卓越的专业能力。这种交汇与融合将促使双方相互学习、共同进步。在机器智能工艺的加持下,传统机器人行业有望迎来新一轮的变革浪潮。雷峰网雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“聚焦爆料汇- 探索生活,分享动人精彩”。https://www.ytgoodwill.com/article/99e199899.html
相关文章
蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO
爆集「打造中国OpenAI」,「西湖心辰」这家创立时间不到两年的小公司怎么敢夸下海口?相比于国内的其他创业团队,心辰具有以下几大优势:1.在大模型的研究和商业化落地要早一年。积累了超过百万的用户,并训练出 ...
【爆集】
阅读更多AI 搜索向左,搜索 OG 向右
爆集作为 AI 世界的领头羊,OpenAI 发布的 SearchGPT 再次给 AI 搜索加了一把火。这把火原本由 Perplexity 引燃,在美国烧及 Google 和微软,在中国引发了百度、360 ...
【爆集】
阅读更多新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude
爆集8月2日,lmsys官方在推特发布一则消息,恭喜DeepMind研发的Gemini 1.5 Pro 实验版 0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第 ...
【爆集】
阅读更多