南科大史玉回团队提出新的具身智能体训练框架

2024年03月08日科研新闻

近日，南科大计算机系讲席教授史玉回团队提出新的具身智能体训练框架，相关成果题为“Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld”，已被IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2024会议接收。

主图.jpg

近期，具身智能领域研究热点聚焦于利用大型预训练基础模型来构建通用的具身智能体，其有望替代人类完成日常生活中的一部分工作。这些模型 (例如大语言模型LLMs) 受益于他们从互联网大规模的预训练数据中学习到的大量先验知识，能够根据外部环境的状态反馈，来完成各种任务，例如代码生成、商品推荐，甚至是机器人操作。此外，通过整合视觉-语言模型（Vision-Language Models），智能体可以直接理解视觉输入，并进行任务的推理、规划和执行。

然而，现有的工作都忽略了现实世界是不断演化的，因此在预先收集的静态数据集上训练的基础模型无法对现实世界的动态演化做出可靠回应。当使用这些基础模型作为智能体去解决任务时，可能遭遇到严重的幻觉问题（例如生成错误、不存在、误导性的虚假信息）。为了解决这一问题，研究人员探索使用当前最先进的大语言模型（GPT-4）作为“教师”，通过交互式的跨模态模仿学习，在动态的世界中训练具身智能体（学生）的可能性，该方法有效对齐了智能体的行为与现实世界的演化。

图片1.png

图1. 交互式的跨模态模仿学习训练框架

图1展示了研究人员提出的具身智能体训练框架的核心思想。智能体（图中红色模块）建立在一个视觉-语言模型的基础上，其可以遵循用户提供的任务指令，通过视觉观察和文本动作实现与环境的交互。为了克服直接从视觉输入状态训练智能体所带来的一系列挑战，如稀疏奖励、分布偏移、幻觉问题等，研究人员通过规划领域定义语言（Planning Domain Definition language，PDDL），将每一帧视觉状态转换为等价的抽象文本描述输入一个基于GPT-4实现的LLM专家（图中绿色模块），它可以产生在当前环境状态下针对待完成任务更优的文本动作去指导和修正智能体的行为。在丰富的家务劳动场景下，相比之前最先进的方法，该方法的智能体显著提高了任务的成功率20%-70%。

图片2.png

图2. 丰富的测试场景，智能体被要求在不同的场景下完成各种各样的家务劳动

CVPR 是人工智能领域最有影响力的学术会议，在Google Scholar Metrics影响力排行榜中位列第4，仅次于Nature、新英格兰医学和Science。

该研究由南方科技大学、马里兰大学帕克分校、悉尼科技大学和京东探索研究院共同合作完成。该论文第一作者为南科大计算机系2020级博士研究生杨一君，通讯作者为史玉回，南方科技大学为论文第一单位。

论文链接:https://arxiv.org/abs/2311.16714

供稿单位：计算机科学与工程系

通讯员：潘伟英

主图：丘妍

编辑：任奕霏