中国自动化学会专家咨询工作委员会指定宣传媒体
新闻详情
gkongbbs

从Demo到产业化应用:具身智能的“最后一公里”要走多长时间

http://www.gkong.com 2025-06-18 09:25 来源:中国信息化周报

当谈到具身智能时,大多数不明就里的人往往会问:具身智能是否就等于人形机器人?因为人形机器人被广泛提及,热度也最高。其实不然,从技术的角度来讲,具身智能是指通过物理实体与周围环境进行互动,从而不断增长智能的系统。它不仅仅局限于人形机器人,而是指任何能在空间中移动的有形智能机器。

对此,华为云盘古大模型CTO李寅解释道,具身智能是一个更宽泛的概念,能够与不同的硬件本体结合,包括但不限于人形机器人、特种机器人、机械臂、无人机、无人船等。

三种主流技术路线

北京智源人工智能研究院研究员王业全表示,目前,以人形机器人为代表的具身智能包含三个要点:一是智能化;二是运动控制;三是本体。其中,对于智能化而言,端到端是目前的主流技术路线。他表示,自动驾驶领域,端到端的技术路线被视为通向高级别自动驾驶的关键。此外,大脑+小脑也是智能化技术路线中的重要组成部分,其本质是模仿人类,大脑主要负责高级认知功能,包括思维、记忆、情感等,小脑主要负责运动控制方面的功能。

在运动控制技术路线中,强化学习发挥了巨大作用,能够使机器人通过与环境的交互学习最优的行为策略,但存在数据获取成本较高,且奖励信号对运动影响大的问题。“如果大家用过市面上的多种机器人,会发现有些机器人的脚步声音很轻,有些机器人脚步声音很重。之所以出现这种现象,可能是因为训练模型相关控制策略时,关注更多的是机器人能否稳定行走,而不是脚步的轻与重。这是强化学习路线的特点,更看重‘奖励’和‘惩罚’,设置什么‘奖惩’目标,就会带来对应的效果。”王业全解释道。

除此之外,模仿学习也是运动控制的重要技术路线。王业全表示,人类是具备智能的,具身智能人形机器人就是对人类的模仿,在这种情况下,让机器人像人是一条可行之路。这一思路没有问题,但是实践面临颇多问题。

强化学习和模仿学习都有各自的优缺点,那如果将二者结合起来,形成强强联合是不是一种更好的思路呢?对此,王业全表示,目前科研界正在探索将强化学习和模仿学习的优点结合起来。

在本体技术路线中,本体电动驱动是主流方案,其好处是响应速度、控制精度和静音性较好,缺点是成本比较高。王业全举例说道,波士顿动力基于液压驱动做了大量工作,取得了非常好的效果。液压驱动的好处是输出功率高、续航性能好,并且能够负重,缺点是噪音较大,轻量化较难。此外,王业全还表示,除电动驱动和液压驱动方式之外,还有气动驱动或其他的驱动方式,目前还处于实验室探索阶段。

产业应用需循序渐进

王业全表示,从应用的角度来说,具身智能有非常庞大的场景和领域,但对能力要求很高。从短期来看,具身智能的部分重点能力可能产生一定的突破并且聚焦于特定垂类场景。长期来看,具身智能一定会进入通用化的发展阶段,这样才可能达到机器人具备类人智能的长期目标。

李寅表示,2024年,具身智能技术刚开始出现之后,政府的赋能作用可能更为凸显,就是通过扶持科研机构、高校以及初创企业做一些场景的创新和孵化。2025年到2026年,当具身智能开始更多涉及产业落地时,应该从一些比较成熟的场景中去找到具身智能的落地计划。2027年之后,具身智能可能会实现从工业到家用的规模复制,此时具身智能才可能真正走进人们的生产和生活。

对此,中兴通讯股份有限公司机器人产品总工张慧说的更为具体。她表示,谈到具身智能,更多的是面向非结构化和柔性化的场景。在当前的技术背景下,工业领域可以更快地实现应用,因为工业领域不仅存在很多人为限定的非结构化场景,柔性化的场景种类也是有限的。在工业领域积累更多能力之后,再面向商业场景、生活场景等泛化性要求更高的场景去做应用。

具体来看,在工业领域中,物料分拣、柔性上下料、仓储物流因需求迫切、场景可控,可能成为最先落地方向。例如,巨一科技聚焦 SMT 物料分选与大型生产现场物流配送,预计1年内实现应用;中兴通讯关注电子元器件分拣与单板插拔,海信则探索展厅讲解与大件物料上下料。而在商业服务领域中,导购、清洁、前台接待等场景需求明确,短期内可实现。

从可用到好用的挑战

2022年之前,具身智能往往面临单一的任务、单一的场景和单一的本体,大模型出现之后,具身智能尽管能解决多种任务,跨越不同本体,面对不同场景,但也存在不好用、不易用、不通用的科学难题,需要研究更加“聪明”的大脑模型和跨本体的大小脑结构框架,来实现跨本体、跨场景、可泛化的具身智能。

李寅表示,当前,具身智能与物理世界的精准交互,对大模型提出了更高要求。像盘古和DeepSeek等语言类模型,解决的是从感知到认知,再到决策的问题,并没有解决精神或思维层面上的问题,从而无法实现与物理世界的真正交互。实际上,感知、认知、决策的下一步应该是执行,执行就涉及到与物理世界的交互,只有具身智能和大模型的结合才有可能解决这一问题。

在具身智能落地应用的过程中,李寅认为存在三大难点:一是数据严重不足。她表示,工业产线大多数是半结构化或半标准化的场景,尽管它与泛化性要求更高的家用场景有一定区别,但即使完成在大家看来很简单的操作,对具身智能来说也是非常复杂的长程任务。例如,在手机装配线上,将手机、电源线、手机膜、说明书等统一放在一个包装盒中,就是目前行业内正在攻关的一个技术难点。目前,解决这些问题所需要的数据依然是稀缺的。

二是模型。李寅表示,目前,具身智能模型百花齐放,到底最终的模型应该做成什么样,才能让这个模型具备强大的推理能力,能够理解真实世界复杂的环境并且准确的执行任务,而且还具备一定的鲁棒性和泛化性,这也是具身智能面临的技术难点。

三是具身智能在产业应用中不仅要面对不同的领域和场景,任务类型也极其碎片化。在这种情况下,如果要想联合打造具身智能系统,就需要提供完整的工具链,这也是亟待突破的一个难点。

王业全表示,一方面,目前的大模型还无法满足具身智能对于视、听、说、想、做多种模态联合建模的要求,另一方面,还不具备自我认知、类人记忆以及人物识别等能力。此外,在相关的技术路线中,无论是VLA路线还是其他路线都存在数据成本极高、泛化性不好的问题。“传统机器人开发遵循‘控制设计-算法实现-仿真调试’流程,具身智能时代转向‘数据驱动+ 模型训练’,需解决异构数据标准化、模型积木式组合等问题。”国家地方共建人形机器人创新中心刘宇飞如是说。

不仅如此,在操作智能方面,还需攻克成功率、稳定性与鲁棒性难题,并且能够有效应对光照变化、工件差异及环境振动等环境的干扰。此外,动态平衡与多机器人一致性,情感表达、意图理解、语音交互的自然性,以及软硬件的工程化问题也亟待解决。

未来,全模态大模型一定会成为具身智能的核心。在具身智能发展演进的过程中,无论是全面的环境感知能力,还是无损的信息捕获能力、类人的思考能力、泛化能力以及一致、准确、合理的行为输出,对于具身智能来说都是需要具备的。只有具备这些能力,才能更快地实现从可用到好用的跨越。

版权所有 中华工控网 Copyright©2025 Gkong.com, All Rights Reserved