首页

具身智能发展综述——学霸是靠“刷题”练成的，还是另有秘籍？

这里是标题一h1占位文字

发布时间：

2024-02-06

关键词：

具身智能发展综述

——学霸是靠“刷题”练成的，还是另有秘籍？

魏磊 ¹吴易明 ²

¹西北工业大学，电子信息学院，西安

²必赢565net官网，西安

一、引言

在人工智能的诞生之初，具身智能的思想就开始悄然萌芽。1950年，图灵在他的经典论文《Computing Machinery and Intelligence》中展望了人工智能可能的两条发展道路：一条路径是专注于抽象计算所需的智能；另一条路径则是为机器配备最佳的传感器，使其可以与人类交流并像婴儿一样地进行学习。这两条道路，逐渐演变成了如今必赢565net官网所知的非具身和具身智能。具身智能相比非具身智能，更加注重机器与环境的互动和交流，通过感知环境中的信息，利用自身的机械结构和运动能力来主动与环境进行交互，并根据所获得的反馈信息进行决策和行动。

在ITF World 2023大会上，NVIDA的黄仁勋提出：“人工智能和加速计算正在共同改变技术行业。下一波人工智能浪潮将是一种被称为具身AI的新型人工智能，即能够理解、推理并与物理世界互动的智能系统，也就是具身智能（Embodied Intelligence）”。斯坦福大学的李飞飞^{^[1]}此前也指出具身智能将是计算机视觉领域的“北极星”之一。我国也发布了《新一代人工智能发展规划》以及《“十四五”机器人产业发展规划》等文件，为我国具身智能指明了方向和目标。姚期智院士指出，未来的通用人工智能需要有具身的实体，让它能够和真实的物理世界相交互来完成各项任务^{^[2]}。

目前，具身智能已经成为国际学术界以及产业界的前沿研究方向^{^[3]}^{^[4]}。本文首先从具身智能的实现方法着手，分别对基于大模型的具身智能和基于数学架构的大模型的研究进展进行了总结以及分析。其次，总结了世界主要经济体及国家在具身智能领域的发展动向，分析了我国在该领域的发展现状。最后，对全文进行总结以及对未来发展方向进行了展望。

二、研究进展

具身智能，这个备受瞩目的“学霸”，究竟是依靠何种方法修炼而成的呢？它究竟是靠海量“刷题”来成就的，还是藏有其他的秘密武器？目前来看，具身智能的实现方法主要可以分为两大类：基于大模型的具身智能和基于数学架构的具身智能。接下来，本文将分别对这两种方法进行深入的探讨和全面的总结，分析它们的特性、优势以及潜在的问题。

1、基于大模型的具身智能

由于具身智能机器人需要与复杂的物理世界进行互动，因此需要较高的通用性和泛化性。同时，具身智能还需要拆解复杂任务以及根据环境的变化不断调整动作和任务目标，因此还需要具有强大的逻辑推理能力，其关键在于思维链技术（Chain of Thought, CoT）。

随着大模型的广泛应用，其拥有的高泛化性和强大的思维链推理能力等优势，使其成为了实现具身智能的一种常见方法。如今，大模型已从单一的大语言模型（Large Language Models, LLM）发展到更为丰富的图像-语言多模态模型（Visual Language Model, VLM）。谷歌的图像-语言-动作多模态模型（Vision-Language-Action, VLA）更是推动了这一进程，让人形机器人的应用前景愈发广阔。从文本到图像，再到现实世界，大模型的数据模态越来越丰富，数据规模持续增长，使得大模型的应用场景和价值量也得以迅速扩张。

大模型在具身智能领域的技术供给可以被分为以下三个阶段^{^[5]}：

1）短期阶段：以大语言模型LLM为主，LLM可以赋能人形机器人和人之间的交互，大幅度提高服务场景的智能化水平；但LLM无法参与机器人的规划控制，所以无法在动作控制方面施加影响力。

此阶段的研究主要有以下成果：Liang等人^{^[6]}的主要贡献在于提出了“代码作为策略（Code as Policies）”的方法，使用LLM（如GPT-3和Codex）生成可执行程序，作为根据自然语言指令控制机器人的策略。微软的Vemprala等人^{^[7]}提出了一套新的实验框架以实现使用ChatGPT驱动机器人，从而进行更自然的人机交互。进一步的，微软宣布开源最新研究ChatGPT Robot-Manipulation-Prompts^{^[8]}，用户可以通过对话的方式，指挥ChatGPT赋能的具身机器人完成诸多操作。Shah等人^{^[9]} 提出了一种机器人导航系统LM-Nav，由预先训练的视觉导航模型（ViNG）、视觉语言模型（CLIP）和大语言模型（GPT-3）构建，不需要任何微调或语言标注的机器人数据。

在此期间，由于多模态大模型的发展尚不成熟，LLM仅能在人机交互方面为机器人赋能，而在运动控制方面仍需进一步的技术迭代，需要更加复杂的强化学习训练流程以得到更具鲁棒性的决策控制算法。此外，由于机器视觉技术仍存在短板，所以机器人往往还需要激光雷达/IMU等传感器配合以感知环境。

2）中期阶段：图像-语言多模态模型VLM通过将文本和图像两种模态的信息建立联系来进行训练，得到了具有图像逻辑思维能力的多模态大模型。VLM直接参与机器人的决策规划系统，但是由于缺少动作模态，所以决策系统与控制系统的契合度较低。

典型的产品方案为谷歌研发的PaLM-E大模型^{^[10]}。PaLM-E拥有5620亿参数，将PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，可以通过简单的指令自动规划计划步骤，实现在两个不同实体上的执行规划以及长距离的任务。颠覆以往机器人只能实现固定路径行为或者需要人工协助才能完成的长跨度任务。PaLM-E具备较强的思维链推理能力和无样本学习能力，可实现基于图像内容的逻辑推理。

此外，VLM可被用于具身智能感知与决策的有机融合，如BLIP-2^{^[11]}，Emu^{^[12]}。此类模型可根据用户文本输入的命令，结合给出的图片进行分析并输出文本。尽管此框架可起到人类眼睛与大脑的作用，但是目前其文本推理能力远不如ChatGPT。此外，还有OpenAI的VPT^{^[13]} ，NVIDA的MINEDOJO^{^[14]} 和LID^{^[15]}等研究成果。

和传统的感知决策控制算法相比，VLM 可以参与人形机器人的决策，仅控制部分需要传统算法参与。此方案在决策方面有较强的泛化能力，可以应对从未见过的场景，并且具备逻辑推理能力。然而VLM 在实际运动控制问题上会出现实时性较差的缺陷，因此目前主流方案是VLM大模型+小模型，通过大小模型相互配合，各取所长，推动人形机器人的实际应用落地。

3）远期阶段：图像-语言-动作多模态模型VLA实现了数据与处理任务的跃升。把动作作为模态融合进入大模型，得到了高度泛化能力和思维链推理能力的VLA。

谷歌的RT-1^{^[16]}是迈向VLA模型的一个尝试，通过吸收大量的真实数据，提升性能和泛化能力。RT-1省略了PaLM-E将输出的指令转化为动作控制型号的步骤，直接把控制信号当token输出。Meta和CMU联合打造出了RoboAgent^{^[17]}，突破了缺乏足够庞大的数据集来训练通用智能体和缺乏能够生成此类数据的通用智能体的困境。特斯拉已经打通了完全自动驾驶（Full Self-Drive, FSD）和机器人的底层模块，实现了一定程度的算法复用，帮助其人形机器人Optimus在任务操作方面展现出先进性。

谷歌在RT-1的基础上，又推出了RT-2模型^{^[18]}。RT-2是首个用VLA来控制机器人的大模型，所控制的机器人具备符号理解（Symbol understanding）、推理（Reasoning）和人类识别（Human recognition）三大能力。RT-2 显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力，包括解释新命令并通过执行基本推理（例如关于对象类别或高级描述的推理）来响应用户命令。RT-2以VLM为基础，将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标记。RT-2将机器人运动数据作为一种模态，混合编入PaLI-X多模态大模型^{^[19]}和PaLM-E多模态大模型的VLM，并通过联合调参的方式构建 VLA。RT-2具备较强的思维链推理能力，可以完成多步骤逻辑推理。模型在输入图像数据后会首先输出语言规划结果，然后把语言规划结果分解为机械臂动作完成。

在基于大模型的具身智能方案中，VLA是人形机器人能够实现具身智能的关键因素。相比于VLM，VLA把机器人动作数据也作为一种模态融入大模型算法中，因此可以用单个模型完成感知、决策、控制全流程计算。将动作数据作为模态融入后，机器人动作将成为思维链的一环，因此决策与控制的衔接更流畅，更具逻辑性。

目前VLA方案的瓶颈在于机器人动作数据难以匹配其他两种模态的数据规模，所以三种模态的同步数据较为稀少，需要VLM方案的长期积累。^{^[20]}

以上总结了基于大模型的具身智能方法的发展历程，然而在实际应用中，该方法存在着难以逾越的天花板。张钹院士在2023年的智谱AI技术开放日中提出，大模型的工作完全取决于外部提示，而非主动^{^[21]}。具体来说，在外部提示的情况下，大模型利用概率预测完成任务，而人类的工作则依靠内部意图来驱动。虽然大模型生成的语言与人类语言生成在行为上存在着相似性，但内在机制却存在根本的区别。大模型存在不自知、质量不可控、不可信、不鲁棒等天花板。

综上所述，基于大模型的具身智能方案主要存在着以下两个困境：

1) 目前的学习系统本质上仍是一个开环系统，需要人类智能的介入来实现闭环，例如根据学习结果，有针对性地采集更多更好的数据，调整数据的概率分布，以及反复迭代优化奖励函数等。LeCun认为目前的机器学习系统是辅助智能（Assisted Intelligence），而实现通用具身智能需要的则是自主智能（Autonomous Intelligence）^{^[22]}。

2) 目前的方法不具备从自然模态中学习到关于世界的结构化表征与抽象（或世界模型）的能力。相对地，人类和动物在婴儿时期就能从自然模态（例如，视觉、听觉等直接来源于外部世界的信号）中学习并基于直觉理解物理世界的结构和运作规律（Intuitive Physics^{^[23]}），这种自然习得的认知能力则是实现通用具身智能的关键。

此外，目前大模型未对输入的特定部分进行基础性连接，只构建了粗粒度的映射。这是由于机器人的规划能力是受限于训练语料的，在语料中可以很容易找到一些指令，例如“打开冰箱”等，但语料中几乎没有类似“把机器人二指爪往右移10厘米”这样的语料。因此，受限于语料，机器人只能完成粗粒度的任务，而细粒度的规划在本质上也不应由语言模型来做，因为它包含了太多的物理信息。

2 、基于数学架构的具身智能

吴易明研究员在2021年的学术报告^{^[24]}中提出：具身智能是智能科学发展的新范式。其核心在于视觉智能底层技术架构的突破和应用，即解决唯一映射问题，让机器“理解”空间，实现“实物对象到信息端精细语义”的映射。“具身智能”强调重构映射，应用在智能机器人系统中时，视觉智能技术架构的突破使得机器人将现实的感知信息“各归其位”（数学语言到物理存在映射的唯一性），实现真正的拟人化信息处理，是机器人真正在非结构化环境中大规模落地应用的关键。

具身智能的概念是从生物进化史、人类文明史、人的成长史的源头寻找灵感，探究智能的本质，厘清智能概念^{^[25]}的基础上凝练而成的。概念辨析处于科学研究首要地位，为智能科学技术突破指引方向。基于此，吴易明研究员^{^[26]}于2023年提出了一种关于具身智能的全新概念，认为“具身智能”是指主体（机器）在自体、对象与环境等要素间相互作用（信息感知、转化和响应）的过程中建构符合各要素物理实存及其关系演化趋势的认知模型，达成问题解决或价值实现的人工智能方法。这种具身智能架构中最基础的成分是数学的和小样本的，而非“迷恋”大数据集、更高的算力、以及多模态等路径。

具体来说，具身智能是一种人工智能方法，而非一种人工智能系统，强调智能主体在处理信息时要将关注的对象、环境以及自体均要纳入信息处理范围中。具身智能的方法是分级的和嵌套的，其中最基础层单元的自体物理构造与所需处理的智能任务的信息模型在数学上是同构的。例如细胞实现最低层级的智能是一个循环图、器官和组织的智能再到生物整体的智能都表现为循环分级嵌套模型。这种类似于分形理论的循环嵌套模型，将低层级的信息做压缩和抽象，这样高层级的智能循环不至于太复杂。

具身智能在认知与实践的矛盾运动中实现智能增长。智能增长是指在实践过程中整体模型的构建和优化，智能主体在感知到信息以后，经过决策、规划，要对外输出行为，这样才能够实现循环的闭环，从而在此过程中实现智能的增长。

除了上述关于具身智能的研究之外，刘华平等人^{^{^[27]}}总结了多方面的研究成果后提出：具身智能更侧重关注“交互”，即智能受脑、身体与环境协同影响，并由身体与环境相互作用，通过信息感知与物理操作过程连续、动态地产生。

目前来说，具身智能的研究需要深入挖掘各种理论的优势，取长补短，使得具身智能的发展更加完善和成熟，为实现人机交互和智能化服务提供更强大的技术支持。

三、世界各国的发展动向

近年来，世界主要经济体及国家都纷纷将目光投向了具身智能产业，各国都加大对该产业的关注力度，尤其是在机器人和自动驾驶汽车两大领域，如表1所示。

表1 世界主要经济体及国家具身智能技术重点发展方向^{^{^{^[28]}}}

主要经济体及国家	政策着力点	重点发展方向
美国	基础研究及前沿领域	在通用协作机器人、多机器人协作、鲁棒计算机视觉识别、建模和系统级优化方面开展研究，实现较高水平人机互动、人智互动
日本	工业及服务机器人	制定制造业和服务业行动计划，聚焦以自动驾驶为代表的下一代机器人和人工智能核心项目，升级制造业生产服务系统和运营模式
韩国	具身智能技术创新	着力提高机器人核心零部件和软件方面的技术创新能力，推动智能机器人与各领域融合
欧盟	具身智能安全性及友好性	将公认的机器人技术优势与人类先进的批判性思考等认知能力结合，利用具身智能引发的变革造福于民

美国在具身智能产业各细分领域中均保持领先地位，持续推动基础研究取得突破；日本则聚焦于机器人领域，尤其在工业机器人方面取得了显著成果；韩国通过多项政策规划，积极推动机器人和自动驾驶汽车等具身智能产业的发展；而欧盟则致力于使具身智能产业更加安全和友好，研究与立法并进。

我国目前也在具身智能领域持续加大了研究力度，进行了广泛的布局，重点涉及智能机器人、机器视觉、自然语言处理、语音识别、自动驾驶、智能传感器、大模型、虚拟助手、智能终端以及增强现实设备等多个方向。其中，在自动驾驶领域表现尤为突出，以腾讯、华为、百度以及清华大学等为代表的科研力量在该领域中处于行业前沿，积极探索无人驾驶、预测决策一体化、数据闭环、环境感知、高精度地图和人机交互技术等前沿热点，为未来的具身智能技术创新注入强大潜力。

四、总结

具身智能已成为当下炙手可热的研究领域，吸引着计算机视觉、自然语言处理和机器人等众多领域研究人员的兴趣。人工智能学习并理解人脑的认知范式，从而接近于人类智能，而具身智能则是人工智能趋向于人类智能的最为可行的路径。

本文深入探讨了具身智能的实现路径，从大模型与数学架构两个角度，回顾了相关研究的最新进展。当前，具身智能的研究还需要深入挖掘各种理论的优势，从而在各种实际场景中实现智能行为的生成。随着科技的日新月异和研究的不断深入，具身智能领域将迎来前所未有的应用前景，为必赢565net官网展现更多无限可能。可以预见，在不远的未来，算法的不断改进将大幅增强机器人的自主性和适应性，而硬件技术的不断进步，也使得机器人有望变得更加轻巧、灵活和强大，以应对各种复杂多变的场景。而具身智能与情感计算、情境感知等先进技术的有机融合，更是预示着全新智能服务的到来。除此之外，自我意识作为具身智能的一个未来发展方向，将使得机器人能够认识和了解自身的状态和能力，并能够根据实际需求进行自我调整和优化。自我意识的实现需要深入研究人类的自我意识机制，并应用到机器人的设计和实现中。

具身智能是一种融合了多学科理论体系的人工智能方法。它通过对物理世界、行为动作以及感知反馈数据的深入剖析，进而优化和扩展了人工智能系统的能力。通过不断的研究和创新，具身智能将在未来的科技领域中发挥越来越重要的作用。

参考文献

[1] Feifei Li, Krishna R. “Searching for Computer Vision North Stars.” Daedalus, 2022, 151(2): 85-99.

[2] 姚期智. 迈向具身通用人工智能[J].新经济导刊,2023,(08):20-22.

[3] 卢策吾, 王鹤. 具身智能 | CCF专家谈术语, https://www.ccf.org.cn/Media_list/gzwyh/jsjsysdwyh/2023-07-22/794317.shtml

[4] Rolf Pfeifer, Fumiya Iida. “Embodied Artificial Intelligence: Trends and Challenges”, Ad-Hoc, Mobile, and Wireless Networks, Second International Conference, ADHOC-NOW 2003 Montreal, Canada, October 8-10, 2003, Proceedings. 2003.

[5] 长江证券. “2023人形机器人深度报告：大模型驱动算法升级，重塑生产力的未来”, 2023.

[6] Jacky Liang, Wenlong Huang, Fei Xia, et al., “Code as policies: Language model programs for embodied control”, 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.

[7] Sai Vemprala, Rogerio Bonatti, Arthur Bucker, et al., “ChatGPT for Robotics: Design Principles and Model Abilities”, arXiv preprint arXiv: 2306.17582 (2023).

[8] Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, et al., “GPT-4V for Robotics: Multimodal Task Planning from Human Demonstration”, arXiv preprint arXiv: 2311.12015 (2023).

[9] Dhruv Shah, Blazej Osinski, Brian Ichter, et al., “LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action”, Conference on Robot Learning (2022): 492-504.

[10] Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, et al., “PaLM-E: An Embodied Multimodal Language Model”, arXiv preprint arXiv:2303.03378 (2023).

[11] Junnan Li, Dongxu Li, Silvio Savarese, et al., “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models”, International Conference on Machine Learning. PMLR, 2023.

[12] Quan Sun, Qiying Yu, Yufeng Cui, et al., “Generative Pretraining in Multimodality”, arXiv preprint arXiv:2307.05222 (2023).

[13] Bowen Baker, Ilge Akkaya, Peter Zhokhov, et al., “Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos”, arXiv preprint arXiv: 2206.1179 (2022).

[14] Linxi Fan, Guanzhi Wang, Yunfan Jiang, et al., “MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge”, arXiv preprint arXiv: 2206.0885 (2022).

[15] Shuang Li, Xavier Puig, Chris Paxton, et al., “Pre-Trained Language Models for Interactive Decision-Making”, arXiv preprint arXiv: 2202.01771 (2022).

[16] Anthony Brohan, Noah Brown, Justice Carbajal, et al., “RT-1：ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE”, arXiv preprint arXiv: 2212.06817 (2022).

[17] Homanga Bharadhwaj, Jay Vakil, Mohit Sharma, et al., “RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking”, arXiv preprint arXiv: 2309.01918 (2023).

[18] Anthony Brohan, Noah Brown, Justice Carbajal, et al., “RT-2：Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, arXiv preprint arXiv: 2307.15818 (2023).

[19] Xi Chen, Josip Djolonga, Piotr Padlewski, et al., “PaLI-X: On Scaling up a Multilingual Vision and Language Model”, arXiv preprint arXiv: 2305.18565 (2023).

[20] 广发证券. “2023年人形机器人行业专题报告：人形机器人究竟需要怎样的AI模型? ” 2023.

[21] 张钹. 从大语言模型到通用人工智能. 智谱AI技术开放日. 2023

[22] Yann LeCun, “A Path Towards Autonomous Machine Intelligence”, Open Review 62.1 (2022).

[23] Luis S. Piloto, et al. “Intuitive physics learning in a deep-learning model inspired by developmental psychology”, Nat Hum Behav 2022, (6): 1257–1267.

[24] 吴易明. 面向工业4.0的视觉智能机器人. 智能检测技术与智能制造高级研修（成都）. 2021

[25] 吴易明. 具身认知视角下“智能”的概念. 具身智能公众号. 2022

[26] 吴易明. 何为“具身智能”. 具身智能公众号. 2023

[27] 刘华平,郭迪,孙富春等. 基于形态的具身智能研究:历史回顾与前沿进展[J]. 自动化学报, 2023, 49(06): 1131-1154.

[28] 钟新龙,渠延增,王聪聪等. 具身智能产业发展动向及创新能力研究[J]. 软件和集成电路, 2023, (11): 62-73.

作者简介：

魏磊，2007年获得西安交通大学的工学学士学位，2010年获得中国兵器科学研究院的工学硕士学位，2010-2019年曾任职于中国兵器工业集团第二一二研究所。目前在西北工业大学攻读博士学位，研究方向主要包括图像/视频处理、三维点云处理及压缩、编码优化以及深度学习等领域。

吴易明，工学博士，必赢565net官网董事长/创始人，中科院西安光学精密机械研究所研究员，中国科学院大学教授、博士生导师。1998-2013年任职于中国科学院西安光机所，主要研究方向为光学工程、瞄准及原子惯性技术，2010年被评为研究员。2013年创立中科光电，主要研究方向为智能视觉、具身智能、智能机器人。依托 2016年度科技部重大专项项目需求牵引，带领团队2019年突破具身智能底层理论，采用现代数学方法基于小样本数据实现精细识别，解决“实物对象到信息端精细语义”的映射问题，2021年提出以具身智能作为引领智能科学的新范式，相关技术突破成果已应用于离散制造智能机器人产品中并形成批量销售，自主智能机器人产品实现在“核、星、月、舰、机、兵”等特种领域的应用落地，获市场及大型央企、国企、军工院所客户广泛认可。

无

何为“具身智能”？

SAF Coolest v1.3.1.2 设置面板XBWSS-AATQ-UZZVE-ZFW

图片ALT信息：必赢565net官网

营业执照及SEO链接：营业执照

无数据提示

Sorry，当前栏目正在更新中，敬请期待!

您可以查看其他栏目或返回首页

这里是标题一h1占位文字

SAF Coolest v1.3.1.2 设置面板XBWSS-AATQ-UZZVE-ZFW

无数据提示

V1.3.1 SVG图标库请自行添加图标，用div包起来，并命名使用