写在前面:
当今正处在科技迅猛发展的时代,人工智能技术的应用与创新已经渗透到各个领域,并为人类的生活与工作带来了深远的影响。“具身智能”是人工智能与物理实体结合的产物,正逐渐成为推动科技发展和产业变革的重要力量。5月17日是世界电信日,科普中国联合中国移动科学技术协会特别策划“具身智能”系列内容,为您详细解读。
(二) 技术篇
写在前面:通过前面一章的背景介绍,我们了解了具身智能的相关概念和发展历程。下面我们将结合论文探讨一下相关的技术。
通过前面的相关概念,我们了解到虚拟空间中的智能体可以被称为离身人工智能,而物理空间中的智能体则是具身人工智能,即具身智能。具身智能是连接虚拟与真实世界的桥梁,其核心在于通过物理实体(如机器人)与环境的主动交互,实现智能的具象化。下面是参考论文[4]给出的参考框架。
图4 具身智能体框架[4]
具身智能体必须充分理解语言指令中的人类意图,主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并针对复杂任务执行恰当的动作。上图是围绕身智能体展开的具身智能总体框架,通过整合多种技术和方法,实现了在虚拟和物理环境中的感知、交互和任务执行。下面从具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的迁移几个方面展开分析。
具身机器人
是具身智能在物理世界中的硬件方案。具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;轮式机器人,广泛应用于物流、仓储和安全检查;履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用;人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用;仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。
图5 具身机器人分类[4]
具身智能仿真平台
具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,两种仿真平台进,基于底层仿真的通用平台和基于真实场景的仿真平台。
图6 底层仿真的通用平台[4]
图7 基于真实场景的仿真平台[4]
具身感知
以具身为中心的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。可以主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知(触觉传感器)等实现。
图8 理解场景三维关系[4]
主动视觉感知:主动视觉感知系统需要状态估计、场景感知和环境探索等基本功能。这些功能已在视觉同步定位和地图构建,可以感知系统,促进在复杂、动态的环境中改善环境交互和导航。
三维视觉定位:与在平面图像范围内运行的传统 2D 视觉定位,3D视觉定位结合了对象之间的深度、透视和空间关系,为代理与其环境交互提供更强大的框架。视觉语言导航: 旨在使代理能够按照语言指令在看不见的环境中导航。要求机器人理解复杂多样的视觉观察,同时以不同的粒度解释指令。输入通常由两部分组成:视觉信息和自然语言指令。非视觉感知(触觉):接触式传感器为试剂提供质地、硬度和温度等详细信息。对于相同的动作,从视觉和触觉传感器中学到的知识可能是相关和互补的,使机器人能够完全掌握手中的高精度任务。具身交互具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体需要从第一人称视角探索环境,以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题,如下图所示。
图9 具身问答框架[4]
除了与人类进行问答交互外,具身交互还涉及基于人类指令执行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。
图10 语言引导的交互式抓取框架[4]
具身智能体
智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行,它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示,为了完成任务,具身智能体通常涉及以下过程:将抽象而复杂的任务分解为具体的子任务,即高层次的具身任务规划;通过有效利用具身感知和具身交互模型,或利用基础模型的策略功能,逐步实施这些子任务,这被称为低层次的具身行动规划。值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智能体来说,将其能力从数字空间对齐并推广到物理世界至关重要。
图11 基于多模态大模型的具身智能体框架[4]
虚拟到现实的迁移
具身智能中的虚拟到现实的迁移指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素,下图展示了五种不同的范式。
图12 虚拟到现实的迁移方案[4]
总之,具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。
【参考资料】
[1] 莫里斯·梅洛-庞蒂. 知觉现象学. 姜志辉, 译. 北京: 商务印书馆, 2001[2] 中国计算机学会,《具身智能》,2023[3] Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard.Pfeifer, R., & Bongard, J. (2006). [4] Liu, Yang, et al. “Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI.” arXiv preprint arXiv:2407.06886, 2024.[5]《科技热词“具身智能”到底是什么?》,中科院物理所[6]《具身智能时代来了?》,中国报道[7] Brooks, R. A. (1991). Intelligence Without Representation. Artificial Intelligence, 47(1-3), 139–159.
[8] Lakoff, G., & Johnson, M. (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Thought. Basic Books.
[9] Pfeifer, R., & Bongard, J. (2006). How the Body Shapes the Way We Think. MIT Press.
[10] How the Body Shapes the Way We Think: A New View of Intelligence. MIT Press.Shapiro, L. (2010). Embodied Cognition. Routledge.
[11] Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.
[12]《2024年具身智能产业发展研究报告》,36氪研究院
[13]《具身智能发展报告(2024年)》,中国信息通信研究院
[14]《具身智能行业发展研究报告 系列报告之一:具身智能技术发展与行业应用简析》,甲子光年智库
[15]《中国具身智能创投报告》,量子位智库
[16] L. Londono, J. V. Hurtado, N. Hertz, P. Kellmeyer, S. Voeneky, and A. Valada, “Fairness and bias in robot learning,” Proceedings of the IEEE, 2024.
[17] J. Duan, S. Yu, H. L. Tan, H. Zhu, and C. Tan, “A survey of embodied ai: From simulators to research tasks,” IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 6, no. 2, pp. 230–244, 2022.
[18] Z. Xu, K. Wu, J. Wen, J. Li, N. Liu, Z. Che, and J. Tang, “A survey on robotics with foundation models: toward embodied ai,” arXiv preprint arXiv:2402.02385, 2024.
作者:毕蕾 中国移动咪咕公司北京研究院 系统开发总监
审核:
单华琦 中国移动咪咕公司北京研究院 技术标准总监
邢刚 中国移动咪咕公司北京研究院 技术项目总监
徐嵩 中国移动咪咕公司北京研究院 资深系统架构与分析专家
出品:科普中国×中国移动科学技术协会
来源: 科普中国
内容资源由项目单位提供