整理撰文:

赵维杰(NSR编辑部)

袁烨(华中科技大学教授)

当马斯克高调押注“具身智能”,当“人形机器人半马”火遍全网,一轮新的科技浪潮正席卷而来。

然而,这一轮具身智能热潮背后的科学支撑是否坚实?
“端到端具身大模型”“智能通用机器人”等热门概念究竟是何含义?
具身智能产业,尤其是智能机器人产业,究竟能走多远?
我们是否真的能在几年内实现“一家一机器人”,从而深刻改变人类的生产与生活方式?

在这次由《国家科学评论》编委、华中科技大学丁汉院士主持的讨论中,七位活跃在具身智能和机器人领域的顶尖研究者齐聚一堂,围绕以机器人为载体的具身智能领域,就其技术基础、发展形势、当前挑战等展开深入讨论。

讨论专家

丁汉(主持)

华中科技大学机械科学与工程学院教授,中国科学院院士

王耀南

湖南大学电气与信息工程学院教授,中国工程院院士

陈启军

同济大学电子与信息工程学院教授,中国自动化学会具身智能专业委员会主任委员

方勇纯

南开大学副校长、人工智能学院教授

王 鹤

北京大学计算机学院助理教授,北京银河通用机器人公司创始人、CTO

熊 蓉

浙江大学控制科学与工程学院教授

徐 静

清华大学机械工程系长聘副教授

人工智能,让机器人智能化、通用化

丁汉:具身智能是一个广义的科学概念,任何具备物理形态,并可以感知外界环境、与外界进行交互的智能系统,都可以归入具身智能的范畴。它强调智能体通过物理身体与环境的动态交互实现认知和行动的统一,认为物理身体不仅是智能的载体,还通过与环境的物理交互影响智能的发展和表现。

我们今天的讨论重点关注智能机器人领域,因为机器人是具身智能的代表性载体,而且智能机器人已处于技术突破前夜,已展现出广阔的应用前景。

让我们首先来讨论,在具身智能范畴内,人工智能是如何赋能乃至变革机器人这一载体的?

丁汉团队研制的“荆楚一号”人形机器人(供图:丁汉)

徐静:传统机器人通常依赖预设的精确模型和固定程序来执行特定任务。比如,各类工业机器人通常只能完成特定的动作序列,或加工特定类型的零件。这种模式限制了机器人的灵活性,使之难以适应复杂多变的现实场景。

相比之下,人工智能的一大特点是它具有强大的泛化能力,可以处理没有接触过的新场景和新任务。所以引入人工智能方法后,机器人将可以在变化的场景下自主调整行为模式,从而处理更加多样化的任务,展现出更强的适应性和灵活性。也就是说,人工智能将推动机器人系统向更加智能化、通用化的方向发展

王鹤:从具身智能模型的角度看,目前国际和国内的关注点主要有两类。第一类是针对某类特定任务的“视觉驱动的具身泛化小模型”。比如我们训练一个模型来控制灵巧手抓取物体[灵巧手:与人手结构类似、可以实现灵活操作的机械手],它就可以依据采集到的视觉信号,去抓取具有不同形状、不同位置和不同姿态的各种物体,包括在训练过程中没有见过的物体。

另一类则是目前讨论非常热烈的、不针对特定任务的“端到端具身大模型”。所谓端到端,是指打破传统机器人“感知-决策-规划-执行”的任务步骤,利用人工智能模型,直接从传感器信号的输入,来输出最终的执行操作。

端到端概念的火爆,很大程度上是由于它在自动驾驶领域的成功。目前特斯拉的端到端自动驾驶,可以从传感器输入直接输出方向盘的瞬时转动角度和油门、刹车的大小。国内几家智驾车企的端到端模型,也已经有非常不错的表现。

现在普遍认为,端到端是自动驾驶的最终解决方案。所以人们也开始认为,端到端的具身大模型,搭配上通用的人形机器人本体,可能会是一种很有竞争力的智能机器人的终极解决方案。

这种端到端的具身大模型,目前常被称为“视觉语言动作模型”(Vision-Language-Action model,简称VLA模型)。也就是说,它可以使机器人理解人类语言发出的命令,并基于视觉信号,来执行相应任务,可以包括抓东西、拧瓶盖、炒菜等等。

VLA这个概念是2023年谷歌发布RT-2(Robotics Transformer 2)模型时最先提出的,目前许多团队都在积极参与研发。谷歌做出了55B参数的大规模VLA,我所在的银河通用也开发了2.7B的端到端大模型。

目前具身大模型的研发面临着数据量不足等一些难点,但我相信在未来,它有望统一各种泛化小模型,最后实现涌现,让通用的人形机器人成为可能。到那时,我们可以在开放的场景中,用自然语言命令机器人去做各种任务。对于新的任务,只需要给它一个例子,它就可以举一反三、快速学会技能,而不需要再去针对每一种技能逐一研发。

陈启军:引入智能技术后,我们需要思考的一个问题是,**未来机器人系统的架构应该是什么样子的?**我认为,智能技术的飞速发展正在重构机器人系统的理论根基与架构范式。正如王鹤所说,从控制架构演进来看,传统“感知-决策-规划-执行”的级联闭环正在被端到端学习模型重塑,形成一种从感知到行动之间的新的“外环”结构——这种新型“感知-行为”外环本质上建立了从多模态输入到电机扭矩输出的高维非线性映射,实现了由任务、环境与身体协同驱动的机器人运动模式。这要求我们超越基于微分方程的经典控制理论,发展能兼容数据驱动范式的新型系统方法。

我认为,未来的系统架构将呈现双重变革

第一,在控制理论层面,形成物理模型驱动与数据驱动协同的双轨架构。在底层执行层保留经典控制方法保障基础稳定性;在高层决策层则通过引入先进的学习策略实现复杂工况下的鲁棒性与适应性。我们需探索新的数学工具,将神经网络的泛化能力与李雅普诺夫稳定性分析有机结合。

第二,在系统拓扑层面,“脑体分离”趋势推动计算资源动态重构,已有研究表明,采用联邦强化学习框架时,将计算负载迁移至云端可以显著提升本体控制器参数的更新效率。但可能需要建立新的评价体系量化网络时延对系统稳定性的影响,以合理优化网络通信,动态调度云端与本地的计算与交互,以获得最优的系统性能。

专用智能机器人,已经登场

丁汉:应用于特定任务的具身泛化小模型,与各类机器人本体结合,目前已经有了一些应用实例,各位老师可以介绍一下自己团队的进展。

陈启军:我的实验室名为“机器人与人工智能实验室(RAIL)”,通过30多年的长期积累,形成了一支稳定的研究队伍,拥有工业机器人、服务机器人、仿人机器人、无人驾驶汽车、高性能服务器及各类测试验证仪器、装备和工具软件。从早期的传统机器人控制、到端到端感知与决策,再到如今的大模型驱动范式,我们始终致力于利用人工智能算法解决机器人的实际问题。

目前,我们团队正在研发智能巡检与救灾机器人。尽管机器人用于巡检与救灾已经是比较常规的操作,但仍缺乏足够的灵活性和自主性。在极端情况下,通过视觉语言机制引入人类应对不确定性的能力可能是最高效的解决途径。我们尝试开发了端到端的视觉语言引导机制,让机器人也可以像人类一样基于现场的实际情况自主决策,灵活应对各类突发和极端状况,从而提高复杂场景下的任务完成效率。

RAIL团队自主研发的各类移动机器人(供图:陈启军团队)

方勇纯:我介绍两项工作。首先是我们研发了一系列可以用于地下空间探索等任务的蛇形机器人。利用大模型等技术,它可以实现多模态感知,并进行路线规划、完成控制执行。目前这些蛇形机器人已经在徐州等地进行了一些实际测试。

第二是我们正在与徐州重工合作,对吊车等移动工程机械进行具身智能化研发。希望能够结合大语言模型和视觉模型等,让机械能够直接理解人类语言的命令,并根据实时的视觉感知信号,去完成复杂任务。

在这些工作的基础上,我们正在考虑组建一个具身智能机器人实验室,去推进各类机器人在各种环境下的学习、推理和执行能力。

南开大学团队研制的蛇形机器人(供图:方勇纯团队)

熊蓉视觉伺服控制是许多机器人的一项基础能力,是指机器人在识别到特定视觉信号后去进行某项操作。我们利用机器学习方法优化了这一过程,使之能够在不同的场景下,高效识别具有不同特征的对象,并进行相应操作,取得了比传统控制方法更好的效果。而且我们的系统也更能适应外部参数的变化:传统方式中,我们把摄像机安装到机器人身上的特定位置后,需要进行精确标定才能开展工作;而现在我们把摄像机安放在任意位置,甚至可以不安装在机器人身上,就能直接运行。

力学伺服控制方面,我们对经典的‌Peg-in-Hole任务实现了智能化[Peg-in-Hole:钉孔装配,指将一个物体(钉)插入另一物体(孔)]。我们通过仿真学习和真机上的强化学习,让这个系统不再需要复杂的专家编程,就可以快速学会插拔不同形状的对象。在真机上,对于没有见过的新形状的对象,一个小时的学习就可以达到99.99%的成功率,容差小于0.1毫米,并可以在实践中继续进化。这些参数都优于DeepMind的同类系统,达到了国际领先水平。我们的这一系统已经在2024年5月正式应用于华为的产线。

王鹤:我博士期间的主要工作是面向机器人操作的三维视觉,包括如何对已知属于某一类别但没有CAD模型的物体进行六维位姿估计等[位姿:位置和姿态]。2021年回到北大以后,我开始从位姿估计出发,打通后续的运动控制环节。2022年,我带领学生参加ICLR机器人ManiSkill挑战赛并获得了无标注赛道的全球冠军。这个挑战赛设置了开抽屉、开橱柜门、推椅子、移动水桶等4个任务,每个任务都有多达数十个不同的物体实例。

此外在灵巧手对不同物体的抓取方面,我们开发的泛化强化学习策略也获得了计算机视觉顶会ICCV的最佳论文候选。

丁汉:近几年,国内外涌现出大量灵巧手企业,使灵巧手的性能快速提升,价格显著下降。人类的双手是非常精细和神奇的造物,如果未来灵巧手经过硬件和软件的迭代,能够完成更多现在只有人手才能完成的精巧操作,那将是具身智能落地应用的一个标志性案例。

通用智能机器人:人形是答案?

丁汉:刚刚王鹤讲到,端到端通用具身智能大模型适配的载体很可能是人形机器人。近几年人形机器人备受关注,各类动作性表演让大家眼前一亮。熊蓉老师团队是国内最早开始做人形机器人的团队之一。我们请熊老师来谈一谈对人形机器人发展的看法。

熊蓉:谢谢丁院士。现在人形机器人的研究确实非常热,包括丁院士团队在内,许多团队都在做人形机器人,也各有特色。

可以说,人形机器人是具身智能最佳的载体,也是最大的挑战。说它是最佳载体,是因为人形是一种通用的形态,可以在各种场景下完成各种任务。而由于人形的复杂性,它的结构自由度特别多,传感器的数量和类型也特别多,要把它做好、让它能够完成更多的实际任务也就非常有挑战性。

具身智能技术的引入,为人形机器人的发展提供了非常好的机遇。非具身的大模型是从虚拟世界中的语言、文本等数据中学习,从而获得推理等能力;而具身智能是要从载体与环境的交互中去学习,来形成机器人的感知、规划、决策等方面的智能。以人形机器人的行走为例,我们就是基于由物理仿真平台生成的机器人运动数据,以及它和环境交互的数据,通过模仿学习、强化学习等方法,让机器人学会如何行走。而且,这种拟人化的行走在鲁棒性等方面的表现,已经显著优于传统控制方法的效果。

完成了基本的行走之后,下一步就是让人形机器人学习更多技能、开展实际作业。我们也在这方面做了一些工作,包括研究如何将人形机器人的上下肢运动整合起来,让它在上肢进行操作的同时保持身体稳定等。

人形机器人NAVIAI 双臂手协同完成PCB涂覆作业(供图:熊蓉)

王耀南:人形机器人发展很快,正处于从实验室走向实际应用的关键阶段。但大家也都意识到,在能够完成一些炫酷的动作之外,当前的人形机器人在完成实际操作任务方面,与我们的期望还有很大差距。

丁汉:确实如此,我们做机器人,最终还是希望能用机器人替代人工去完成各项工作,提高生产效率、服务人类生活。在过去,工业机器人已经取代了汽车生产线上大量的焊接工人和喷漆工人,在解放人力的同时也大大降低了汽车成本。可以说如果没有这些工业机器人,我们现在就买不到这么便宜的汽车。

而在未来,机器人要走向通用、人形机器人要场景落地,我们对它的期望应该是,它将能够替代现在的许多“灵巧女工”,去高效率、高质量地完成各类细致的技能性的工作。这个替代肯定不会在一夜之间发生,而是需要一个一步一步慢慢发展的过程。而当前的具身智能技术发展,已经让我们看到了希望。

难点与挑战

【实时性、精确性、安全性】

方勇纯:在将人工智能算法用于机器人领域时,我们要注意到,虽然人工智能强大的推理和交互能力,可以为机器人领域带来巨大的提升,但是二者也具有不同的特征。当前的大模型并不能满足机器人的一些要求,主要包括实时性、精确性和安全性

当前的大模型通常对实时性没有很高的要求,但是机器人的操作对此要求很高,它不能工作到一半,需要停下来想一想再继续操作。要提升实时性,我认为可能需要在将大模型部署到本地的过程中,对其进行一定的小型化处理,通过知识蒸馏等方式,来提升响应速度。

GPT和DeepSeek等大模型的一个特点是它有一定的容错性,你问它一个问题,它可以给出很多种相似但不相同的答案,但是机器人操作需要精确,需要给出一个“最优解”。

此外还有安全性和可靠性的问题,当前的大模型还不能保证给出的答案不出错,不会在现实世界中引发问题。目前已经有了一些提升具身智能安全性的方法,包括引入时空约束、时序逻辑等,通过让机器人的操作满足这些物理约束——包括不同层级的,可能非常紧也可能相对宽松的约束——来确保操作的安全性。

【数据瓶颈:合成数据与遥操作】

王鹤:在模型开发方面,目前最主要的问题就是训练数据不足。而解决这一问题,目前主要的思路有两条:第一是通过真人遥操作来采集数据,第二是通过合成数据来获取大量的虚拟数据。

特斯拉目前选择的是第一种方式,他们雇佣了几百、上千人去进行大规模的遥操数据采集。国内也有许多公司在进行类似的工作。但是我认为,单靠遥操作很难采集到足够多、能够支撑具身大模型的数据量。真人遥操可能可以获得几百万条数据,但要完成通用具身大模型,很可能需要十亿甚至百亿量级的数据,才能获得比较好的效果。

在自动驾驶领域,用户在实际驾驶中的操作数据可以有效支撑模型的不断进化。但是机器人领域不同,我们不能把一个没有训练好的“半成品”交付给用户,然后要求用户帮你去产生数据。

所以我和银河通用的观点是,我们应该用好仿真和合成手段。我们也坚信利用合成大数据,完全可以完成具身大模型的预训练。我们已经发布了世界上第一个灵巧手抓取的大规模合成数据集,由此训练的端到端VLA模型,可以接受人类语言指令,对各种各样的物品进行抓取,无论是大象、订书机,或者是一些很偏僻的机械领域的词汇,比如铰接线,它都可以很好的完成。

当然这里面还有一个问题,就是我们对视觉数据的仿真和合成已经比较成熟,但对触觉、温觉、声觉等其他模态数据的仿真,还不成熟。这也是数据和模型领域的一个瓶颈。

Galbot双臂协同用衣架挂衣服(供图:银河通用)

徐静:在具身智能模型的训练过程中,一个很重要的环节是Sim2Real,也就是如何将从仿真数据中学习到的成果迁移到现实世界中。这个过程需要探索如何将仿真信号和物理信号的差别压缩到最小、如何让仿真器产生的数据符合物理定律。当前的人工智能对于物理规律的理解还不足够,所以引入相关约束是非常必要的。我的团队也在这方面做了一些工作,开发了适用于视觉信号和触觉信号的Sim2Real平台,显著提高了从虚拟到现实的迁移效率。

【多模态感知与交互:触力觉是难点】

丁汉:机器人需要对环境进行多模态感知,视觉是其中最重要的,但肯定还需要触觉、声觉等其他模态。举例来说,目前的达芬奇手术机器人主要是基于视觉的,但是人类医生在手术中其实非常依赖手上的力学感受。如果将来能够很好地将力学信号融入进去,我相信手术机器人的能力也会再上一个台阶。

熊蓉:机器人要完成精细操作,就不可避免地要与操作对象之间发生直接接触,并基于接触产生的触力觉信号来调整操作。但是目前的触力觉仿真平台,包括英伟达的Isaac、卡耐基梅隆大学联合二十多个院校推出的Genesis等,虽然已经有了很大进展,但在模拟真实性等方面的能力仍然有限。这极大地制约了机器人学习执行各项精细任务的能力。

徐静:要提升具身智能的触觉感知能力,也不能只依靠模型,本体的硬件也很重要。我们团队就在从触觉传感器出发,尝试构建高分辨率、高速频响、具备实时处理能力的触觉感知系统。

【本体技术创新】

丁汉:刚才陈启军老师讲到,目前机器人的操作还是要依靠电机。直到今天,电机仍然是最有效的驱动方式,我们仍未找到其他高能量密度的有效替代方案。气动肌肉等新型驱动技术,可以发表顶刊文章,但距离工业应用,路还很长。在机器人本体的基础技术方面,一点点的进步都是非常困难的。

徐静:目前机器人的执行确实依赖电机,但是在自然界,生物体的执行方式其实是非常多样和有趣的。比如八爪鱼等软体动物,它们在抓取物品时利用的是触手的物理属性。它们柔性的触手可以适应物体的形状并完成抓取,而不需要通过算法去精确规划关节的运动。包括人手,其实也是具有一定柔性的,可以在抓取过程中更好地适应对象的形状和材质。

所以我们在机器人设计的过程中,应该更多地去借鉴这些大自然的柔性化设计,让机器人本体更加灵活多样。当然,这些柔性设计通常也需要精细的触觉感知和控制,这就又回到了我们之前提到的问题。

王耀南:机器人载体对于具身智能至关重要。做好载体,才可能做好具身智能。对于物理系统的研究和创新始终不能放松。

展望未来

【原始创新:多学科交叉创造机遇】

王耀南:具身智能领域一定要注重多学科的交叉,包括信息科学、材料科学、生命科学等等。脑科学、认知科学、材料科学等领域的新发现、新技术,都应该被快速吸纳到具身智能领域中来。

徐静:确实如此。比如说,动物产生智能、进行决策的方式其实和现有的人工智能系统很不一样。线虫只有三百多个神经元,就可以完成很复杂的智能行为。而现有的人工智能系统需要用大量的人工神经元、大量的GPU算力才能进行决策,在能量效率、时效性等方面还都远远比不上生物智能。

我一直对这些问题很感兴趣,也在与我们学校脑科学的老师合作进行一些研究,去探索动物的决策和学习方法。我相信对于生物智能,以及更多物理世界运行机制的理解,将可以对具身智能领域产生很大的触动。

丁汉:生物智能非常先进也非常复杂,要在这方面有所发现并应用于具身智能系统,可能不是短期内能够完成的事情。但是即便我们只关注短期内可以取得进展的、面向应用的具身智能领域,也非常需要来自各个领域的智慧。只有计算机、控制、机械、材料科学、脑科学等各个学科的人才聚在一起,围绕具体的应用目标共同研究,才可能取得大的突破。

【走向实用:中国大有机会】

王耀南:在具身智能领域,我希望能听到更多的中国声音。在数字化转型、新能源汽车、人工智能等新兴领域,中国近年来都有非常亮眼的表现,已经实现了从跟跑到并跑,在某些细分领域甚至实现了领跑。这样的实际案例告诉我们,在具身智能领域,中国同样有机会提出自己创新的思路、观点和技术路线,有机会引领整个行业的发展、率先实现产品落地。

方勇纯:中国有非常好的产业链、非常丰富的应用场景,以及非常好的数据资源。所以我也相信,在智能驾驶、智能机器人(包括工业机器人、康复机器人等等),以及多智能体等应用领域,我国的具身智能产业都将有快速的发展。

陈启军:在具身智能的发展浪潮中,我们不仅要推动技术进步,还要探索创新性的应用场景。我们应当发挥想象力,充分利用具身智能学习、推理和交互能力的优势,在工业、安全、服务、救灾等领域挖掘新的突破点,并实现一些过去未曾设想的应用,让机器人和智能系统更好地解决实际问题。

丁汉:我非常同意大家的观点。具身智能领域的下一步发展,一定是以具体应用为导向的。在具身智能领域,中国要获得国际影响力,我认为需要在两个方面进行突破。

第一是要在学术上提出新的架构。传统的架构已经不适应具身智能体系,而新的架构会是什么样的?是端到端的方案还是其他?细节上又会怎么?这方面有很大的创新机遇。

第二是要注重系统的成本效率性价比,要能够针对具体的应用需求,用最低成本的方式去达到最可靠的效果。

当前比较亮眼的具身智能成果,大多还是在具体的“点”上取得的进展和突破,还没有像自动驾驶一样,形成全面的能力和真正的社会影响力。我们所追求的,可以在各种工业和生活场景中,甚至是深海、深空等未知场景中灵活工作的未来的通用智能机器人,距离实现还有很长的路要走。

我期待看到更多的年轻人进入这个非常有前途,也非常有挑战性的领域,为具身智能和智能机器人的发展带来新的思路和突破。我也相信未来几年一定是具身智能发展的一个绝佳时机,在原理和应用层面,都很可能会迎来真正的突破

【本文是《国家科学评论》(National Science Review, NSR)Forum文章“Development of Intelligent Robots in the Wave of Embodied Intelligence”的中文版本。】

来源: 《中国科学》杂志社