具身AI(Embodied AI)指的是能够与环境互动并从中学习的人工智能系统,这些系统使用多种技术,包括传感器、马达、机器学习和自然语言处理。一些显著的具身人工智能示例包括自主车辆、人形机器人和无人机。
尽管“具身AI”或“具身智能”这一术语相对较新,但它与自适应控制系统、控制论和自主系统等机制相关,这些机制已经存在了几个世纪。例如,使用摄像头和运动探测器的自主安全系统虽然没有太多物理实体,但它可以从其决策如何减轻物理路由器、硬盘和计算基础设施上的安全事件中学习,并相应调整其监控策略。
具身AI从物理世界的经验中学习的能力使其与认知AI区分开来,后者则是从人类和数据源对世界的描述中学习。人类的认知智能特征在于我们如何总结、抽象和综合关于我们与物理世界及其他人类、动物和机器互动的经验的故事。我们所编写的总结我们理解的故事是认知AI所处理的内容。
具身AI的智能类型朝着一种更类似于反射而非概念的方向发展:它学习将输出与感官输入相匹配。
在物理世界中,某些类型的具身智能跨越多个实体,例如同步努力的动物群体、鸟群和兽群。在具身人工智能中,这种智能可以应用于无人机群、仓库中的车辆车队或协调其努力的工业控制系统集合。
具身AI能够响应不同类型的感官输入,类似于人类经典的五种感官。然而,它也可以使用超出我们人类感官体验的多种感官。这些能力包括检测X射线、紫外线和红外光以及磁场;使用GPS了解物体的位置;理解各种企业系统的性能或供应链中的库存水平。
同样重要的是要澄清,许多具身AI系统,如机器人或自主汽车,虽然会移动,但并不是必需的。例如,一个自主的IT或安全系统可能会从固定的网络、存储和计算基础设施上运行的代理的物理交互中学习。
具身AI系统的要素
具身AI适用于任何通过与环境互动学习的AI系统。更强大的系统通常在不同的具身维度上包含许多要素。以下是一些最重要的要素:
- 世界模型指的是AI系统创建的关于其环境和自身的模型,使其在追求目标时能够做出更安全和更高效的决策。例如,Nvidia的Omniverse平台使用基于物理的模拟世界模型来训练更有能力的机器人和自主车辆具身AI系统。
- 传感器收集有关环境的信息,帮助AI系统构建和更新世界模型。
- 执行器是AI系统中的设备,将能量转化为机械运动,使具身AI能够对环境、在该环境中的移动或自身进行操作或改变。
- 协调指的是系统如何与其他系统和人合作。
- 方法指的是AI系统用于通过与环境互动学习的策略。例如,强化学习使用基于策略的方法,而主动推理则试图最小化自由能。
具身的光谱
如上所述,AI具身存在于不同维度的光谱中。在一端是类似人类的存在,具有五种感官,能够移动、进行复杂变化、推理和适应环境;在另一端则是一个可能仅设计用于学习优化供暖和制冷设置的自主建筑控制系统,以保持居住者的舒适并减少能耗。以下是一些需要考虑的具身维度:
- 模态性指的是智能用于感知和对环境采取行动的感官和执行器的数量。人类有五种感官和数百块肌肉。一个AI系统可能只使用一种模态——例如,听觉模态用于听取或一种特殊的科学仪器,旨在改善药物发现,超出直接的人类经验。
- 人类的移动性是多维和复杂的,尤其是考虑到我们使用机器移动的能力,这为我们提供了极大的灵活性。人类能够飞行、开车、操作建筑设备以及在仓库中移动托盘。机器人或建筑控制系统可能固定不动,只有一种运动能很好地完成一项任务。
- 如前所述,世界模型对具身智能至关重要。人类可以迅速在描述物理、社会互动、金融和企业系统的不同心理模型之间切换。简单的系统可能通过学习做一件事的模型而表现良好。
- 协调如前所述,指的是将认知和运动过程(如身体动作、推理和感官输入)整合成一致反应的能力。人类学会在家庭、政府、企业和团队之间进行广泛协调。简单的具身AI系统可能学会独立工作。
具身AI的潜在应用案例
以下是一些具身AI的潜在应用案例:
- 工厂和家庭中的人形机器人。
- 自主车辆。
- 用于在仓库和工厂中移动货物的自主移动机器人。
- 工厂自动化的改进。
- 学习其决策如何改善网络、计算和存储的自主安全系统。
- 自动优化产品分配的供应链管理工具。
- 学习其内容和语调如何改善客户体验的聊天机器人。
具身AI的历史
尽管“具身AI”这一术语相对较新,但自适应控制系统的基本概念可以追溯到几个世纪前。在早期,重点在于设计能够从其决策中学习的模拟控制系统。如今,重点在于神经网络如何能更好地表示物理世界。
1788年
自适应控制。詹姆斯·瓦特发明了一种离心调节器,采用反馈系统来调整蒸汽机的燃料流量,点燃了工业革命。
1943年
模拟反馈。诺伯特·维纳整合了一种新颖的模拟反馈系统,以改善对抗空中目标的火炮控制,以应对外部刺激。
1947年
控制论。维纳及其同事创造了“控制论”一词,以描述人类和机器的控制科学。该术语是对希腊语“舵手”的致敬。
1950年
控制论乌龟。英国研究人员开发了一种类似乌龟的机器人,以研究和改善机器人如何在其环境中移动。
1956年
自适应业务。斯塔福德·比尔说服联合钢铁公司的管理层为管理控制论计算机提供资金。
1960年
摇晃机器人。斯坦福研究所的研究人员开发了一种新型机器人,能够学习推断其行动的后果。
1971年
扩展控制论。比尔帮助智利建立了一个管理国家经济的控制论系统。该项目在政变后被取消。
1973年
人形机器人。日本研究人员开发了WABOT-1,这是第一个人形机器人。
1988年
自主车辆。自主车辆ALVINN使用神经网络学习如何在美国从海岸到海岸驾驶。
1991年
没有表征的智能。罗德尼·布鲁克斯发表了一篇关于新的“基于行为的机器人”AI方法的论文,建议独立训练AI系统。
2004年
DARPA大挑战。美国国防高级研究计划局举办了一场比赛,以开发能够在沙漠中驾驶的自主系统。这重新点燃了人们对自主系统的兴趣。
2015年
语义分割。研究人员开发了SegNet,这是一种图像分析技术,利用神经网络解读视觉数据的含义,以改善自主系统。
2018年
仿真。Wayve的研究人员开发了一种新方法,帮助自主汽车从仿真中学习。
2020年
通过反馈进行自主驾驶。Wayve的研究人员开发了一种新的AI方法,从现实世界的经验中学习,减少对预训练模型的依赖。
2023年
视觉-语言-行动模型。Wayve的研究人员开发了新模型,帮助汽车与人类沟通其对世界的理解。第一个能够同时驾驶汽车和进行语言交流的视觉-语言-行动模型开辟了许多新的可控性和可解释性机会。
具身AI的未来
具身AI仍在不断发展中。它的未来将会怎样?毫无疑问,它将受到生成AI改进的影响,生成AI可以帮助解释人类关于世界的故事。然而,具身AI也将受益于其用于直接解释世界和理解其决策对环境及自身影响的传感器的改进。
传感器和计算的成本都在下降。此外,研究人员正在开发更好的算法,以解释和适应具身AI决策的影响。
需要明确的是,我们在创建能够从环境中学习的自适应AI系统的发展中仍处于早期阶段。进展将需要在神经网络架构方面进行创新,以表示和学习物理现象,并解决让多个代理共同协作以实现目标的诸多挑战。