以下文章来源于AI产品经理研习与实践 ,作者:AIMatrixLing
现软件产品经理、前管理咨询顾问。坚信人工智能(AI)将会深刻影响我们未来的工作、学习、生活,因此我正在积极拥抱变化、研究和学习人工智能产品经理相关的知识和技能。
前言:AI Agent涉及的领域较为广泛,涵盖了包括多Agents系统、强化学习、上下文感知系统以及将大型语言模型 (LLM) 集成到基于Agents的系统中。在arXiv有很多相关的顶级论文,前一阵子有一篇《Agent AI: Surveying the Horizons of Multimodal Interaction》突然火了起来。

或许是因为它的作者之一是AI大牛、斯坦福教授、空间智能公司world labs.ai的联合创始人之一——李飞飞。

正好AI Agent是我非常关注的领域。不过发现该论文实际提交日期为 2024 年 1 月 7 日(v1 版本),最后修订日期为 2024 年 1 月 25 日(v2 版本),并不是最近才发布的。。。

在这篇论文中,作者将AI Agent定义为一类能够感知视觉刺激、语言输入和其他基于环境的数据以产生有意义的具体行动的交互式系统,详细探讨了旨在基于下一步具体行动预测来改进Agent的系统。
预警:该论文的页数长达80页,也许我需要分成好几篇才能“伴读”完。
PART 1 —— 论文&作者简介
这篇论文的标题如果翻译成中文,我想用《代理智能:多模态互动的前沿研究》会更恰当。因此,在后文中,我将会混用“Agent”和“代理”这2个术语,代指同一个意思。
论文摘要
论文的摘要指出:
“多模态AI系统可能会成为我们日常生活中随处可见的存在。通过将这些系统赋予物理或虚拟环境中的代理身份,可以增强其交互能力,这是一种极具潜力的实现途径。目前,这些系统以现有的基础模型为基础构建出具备代理功能的智能体。将代理嵌入这些环境中,可以增强模型对视觉和上下文数据的处理与解读能力,这对创建更复杂、情境感知更强的AI系统至关重要。例如,能够感知用户行为、人类举止、环境物体、声音表达及场景集体情绪的系统,可以在特定环境中更为合理地引导代理的回应。为了加速基于代理的多模态智能研究,我们将“代理智能”定义为一种能够感知视觉刺激、语言输入及其他环境数据,并能产生有意义的行为的交互系统。尤其是,我们探讨了通过引入外部知识、多感官输入及人类反馈来提升基于下一步动作预测的智能体系统。我们认为,在现实环境中开发代理AI系统,可以减少大型基础模型的幻想和环境不准确性。新兴的代理智能领域涵盖了多模态互动中的更广泛的智能体行为及其代理特性。我们设想,在未来,人们可以轻松创建任何虚拟现实或模拟场景,并与置身其中的智能体进行交互。”论文的核心观点在于“Agent AI”——一种能够感知多种模态(如视觉、语言、音频等)并做出相应动作的智能体,这代表了AI向更加复杂、灵活和交互性的方向发展,多模态智能体的能力使其能够更好地理解和互动,进而提升用户体验。对于AI产品经理来说,这种智能体不仅仅是“对话型”的AI助手,而是具备了感知世界、理解环境并采取行动的能力。
论文的作者们
该论文的作者们是人工智能、计算机视觉、自然语言处理以及多模态感知领域的权威学者,他们的工作为推动智能体AI和多模态交互的技术进步做出了重要贡献。这些作者有的很年轻(在校学生),有的已经成名多年。了解作者们的背景,能让我们更加充分认识到这篇论文的份量,也能让我自己日后留个心,因为他们都有很丰富、专业的AI研究或实践经验,有机会可以“扩展研习”。

Zane Durante:斯坦福视觉实验室的博士生,多模态学习和虚拟环境交互专家,主要关注于如何在虚拟和物理场景中增强智能体的交互能力,曾在多个顶级会议和期刊上发表过论文。

Qiuyuan Huang:微软研究院高级研究员,专注于多模态理解、语言模型的表征与生成,尤其关注跨领域学习和多模态任务的协同优化。

Naoki Wake:2019 年获得东京大学信息科学与技术博士学位,研究兴趣涵盖感知神经科学、人机交互和机器人相关技术。目前正在微软研究院任,研究机器人教学技术,让非专家也能让机器人在无需编程的情况下完成家务。

Ran Gong:AI Institute 的一名研究科学家,2024年于加州大学洛杉矶分校获得博士学位,研究领域是机器人技术、计算机视觉、计算机图形学和机器学习的交叉领域。

Jae Sung Park:华盛顿大学计算机科学与工程专业的博士生,其感兴趣的是机器如何像人类一样利用视觉感知和语言理解来推理视觉世界。

Bidipta Sarkar:牛津大学FLAIR和WhiRL实验室工程科学专业的一年级博士生,研究方向涉及人工智能中的多个核心领域,尤其是自主智能体的设计和多模态交互。

Rohan Taori:目前在 Anthropic 的多模态预训练团队工作,专注于研究机器学习基础,尤其是在实际数据和系统背景下的应用与挑战。他在斯坦福大学获得了计算机科学博士学位,师从杰出的教授Tatsu Hashimoto,对探索如何通过多模态预训练提升AI系统的理解与表现充满热情,致力于解决现实世界中复杂的数据问题。

Yusuke Noda:专注于语音与视觉互动AI,主要在虚拟智能体互动和多感官融合方面做研究。

Demetri Terzopoulos:计算机科学家和企业家,目前是加州大学洛杉矶分校亨利·萨缪利工程与应用科学学院的杰出教授和校长教授,并在那里指导加州大学洛杉矶分校计算机图形与视觉实验室。他长期从事计算机图形学、智能体仿真、视觉感知与机器人学的研究,获得过不少奖项。

Yejin Choi:最新消息她目前是NVIDIA(英伟达)的高级总监,从 2025年起将加入斯坦福大学的人工智能研究所(HAI)担任高级研究员,并成为计算机科学系的教授。此前她是华盛顿大学计算机科学的 Wissner-Slivka 讲座教授,研究主要涉及自然语言处理和计算机视觉。

Katsushi Ikeuchi:于 2015 年加入 Microsoft 担任首席研究员。在CMU(卡内基梅隆大学机器人研究所) 和UTokyo(东京大学工业科学研究所)任职期间,他指导了 50 多名博士生。他的研究兴趣涵盖计算机视觉、机器人技术和计算机图形学。在这些研究领域,他获得了多个最佳论文奖,包括 David Marr 计算视觉奖和 IEEE 机器人与自动化学会 K. S. Fu 纪念最佳交易论文。

Hoi Vo:应该是上面这位。技术专家,微软Windows Azure 平台背后的思想领袖之一。

Li Fei-Fei:世界知名的人工智能技术远见者,是科学家、教授、学者和行业领导者。她是斯坦福大学计算机科学系的首任 Sequoia 教授,也是斯坦福大学以人为本的 AI 研究所的创始联合主任。她于 2013 年至 2018 年担任斯坦福大学人工智能实验室主任。在斯坦福大学休假期间,她曾担任 Google 的副总裁,并担任 Google Cloud 的 AI/ML 首席科学家。她在 ImageNet 上所做的开创性工作是 AI 中的第一个大型训练和基准测试数据集,有助于催化现代 AI 的出现。今年9月份她与Justin Johnson、Christoph Lassner 和 Ben Mildenhall (每个人都是世界知名的计算机视觉和图形技术专家)联合创立了——World Labs ,将开发空间智能大型世界模型 (LWM),该模型可以从图像和其他模态中理解和推理 3D 世界。
一家空间智能 AI 公司,构建大型世界模型 (LWM) 来感知、生成 3D 世界并与之交互。我们的目标是将 AI 模型从像素的 2D 平面提升到完整的 3D 世界 – 包括虚拟和现实 – 赋予它们与我们一样丰富的空间智能。人类的空间智能经过数千年的进化;但在这个非凡进步的时代,我们看到了在短期内为 AI 注入这种能力的机会。

Jianfeng Gao:杰出科学家、微软副总裁,IEEE研究员,ACM研究员和AAIA研究员,微软研究院深度学习小组的领衔者,该小组的使命是推进深度学习及其在自然语言和图像理解中的应用,并在对话模型和方法方面取得进展。微软的AI产品所需的大规模基础模型也是由这个小组构建的。
Agent AI 系统概览
下图展示了可以在不同领域和应用中进行感知和行动的Agent AI系统概览:

Agent AI 正在成为通往通用人工智能(AGI)的有前景的方向。Agent AI 的训练展示了在物理世界中实现多模态理解的能力。它通过结合生成式 AI 和多种独立数据源,提供了一个与现实环境无关的训练框架。经过跨现实数据训练的基础大模型,可将与代理和动作相关的任务应用于物理和虚拟世界。该图展示了一个 Agent AI 系统的总体概览,该系统可以在许多不同的领域和应用中进行感知和行动,可能作为通往 AGI 的一条路径,采用的是“代理范式”。
PART 02 —— 粗略解读
这篇论文为AI产品经理提供了一个清晰的未来发展方向,即通过增强AI的多模态感知、预测能力以及环境感知,来构建更加智能和交互性强的智能体系统。具体来说,有以下几个重要的产品发展启示:
1. 多领域感知与行动:拓展产品应用场景
Agent AI 系统展示了在不同领域、不同应用中的感知和行动能力,这意味着该技术可以广泛适用于现实中的多种场景。这为AI产品的多样化应用提供了可能性。例如,可以将Agent AI用于智能家居、无人驾驶、工业机器人和虚拟助手等不同领域。作为产品经理,理解这种跨领域能力有助于设计灵活的产品,以满足多种使用场景和需求。尤其是,在多模态理解的支持下,产品可以更好地适应不同环境,从而提升用户体验。
未来假设>>>
在智能家居环境中,Agent AI 系统可以同时使用摄像头、麦克风和物联网设备,来感知用户的需求并适时作出回应。例如,智能助手可以通过声音识别察觉到家中有人在厨房忙碌,判断出该用户可能需要帮助,然后通过视觉传感器识别厨房里的情况。如果发现炉灶打开但人不在旁边,它可以通过语音提醒用户注意炉灶的状态,甚至发送提醒到用户手机。

产品改进点:
- 多模态感知使智能助手可以更全面地理解家庭环境,避免误判。
- 该助手能够实时适应不同家庭成员的需求,例如识别小孩在家中单独行动时触发“儿童保护模式”,关闭一些危险家电。
2. 跨现实数据的应用:提升训练泛化性
论文提到 Agent AI 通过“现实无关”的训练框架,将生成式 AI 与多种独立数据源结合。这种方法具有很强的泛化性,因为它不依赖于特定的现实场景,从而在虚拟和物理世界中都能表现出良好的适应性。这为产品经理提供了一个创新思路,即利用跨现实数据来训练和优化模型,确保产品可以在虚拟和现实环境中无缝应用。例如,虚拟助手可以先在虚拟场景中模拟用户交互,从而在投入现实应用时更为自然流畅。
未来假设>>>
在制造业中,Agent AI 可以在虚拟仿真环境中通过各种数据源接受训练,学习识别不同的机器故障或复杂任务。例如,通过虚拟数据和仿真环境中的多模态训练,一个工业机器人可以学会识别设备的不同异常状况。当这些训练模型迁移到现实世界后,机器人能够在实际工厂中高效操作,处理从轻微故障到复杂故障的各种情况。

产品改进点:
- 跨现实数据泛化能力提升了机器人的适应性,减少对昂贵的现实环境训练的依赖。
- 机器人可以从仿真环境迁移到现实工厂后立即上手,减少停机时间,提高生产效率。
3. 代理范式:提高智能体的自主性与任务灵活性
Agent AI 的“代理范式”赋予了智能体自主感知和行动的能力。这种范式强调了 AI 在多模态环境中的独立行动和决策,使得 AI 不再只是一个工具,而是一个可以在不同情境下执行任务的“代理”。对于产品经理来说,这种自主性和灵活性意味着产品可以具备更高的智能水平,能独立应对复杂情境。例如,未来的服务机器人不仅能按指令操作,还能根据环境和用户需求自动调整行为,实现真正的“智能”服务。
未来假设>>>
在医院或养老院等环境中,Agent AI 驱动的护理机器人可以自主判断并完成一些基础护理任务,比如检测患者是否在床上,如果检测到患者跌倒则立即发出警报,或者在夜晚时自主巡逻以保证每个房间的安全。同时,它还可以基于患者的日常行为习惯,适当调整服务时间和方式,例如发现某位患者总是夜间行动不便,那么它可以自动调整夜间巡逻频率。

产品改进点:
- 自主性和任务灵活性意味着机器人不再需要每次都依赖操作指令,可以根据环境自主适应任务。
- 降低人力成本,提高服务的可靠性和安全性。
4. 向通用人工智能(AGI)迈进的潜力
Agent AI 被视为向 AGI 靠拢的一种路径。AGI 的目标是创建具有通用学习和适应能力的智能体,而 Agent AI 通过多模态感知和跨现实训练,似乎在朝这个方向前进。作为产品经理,这意味着可以关注如何逐步赋予产品“类人”认知能力,使其在多个任务和领域中表现出色。虽然短期内实现 AGI 仍具有挑战,但可以考虑将 Agent AI 的部分能力应用于特定领域的产品中,以逐步积累智能化特性。
未来假设>>>
Agent AI 系统在教育领域可以充当“虚拟导师”,以更接近人类的方式引导学生的学习过程。例如,虚拟教育助手可以同时理解学生的语音回答、手写内容、面部表情等,通过这些多模态输入推断学生是否理解了某个概念。当发现学生出现困惑时,它可以动态调整教学方式,比如通过更通俗易懂的比喻,或者提供图形化演示来帮助学生理解。同时它还可以自主总结学生的学习进展,为老师提供详细报告。

产品改进点:
- 具备通用学习和适应能力的教育助手不仅可以识别学生的理解程度,还能因材施教,适应不同学生的需求。
- 实现更自然的交互,提升教育产品的智能化水平。
Part 03 —— 目录及引言部分
论文很长,感兴趣的可以自行搜索查看,本篇肯定没法一次性研习完,而且它的团队份量这么重,我决定仔细、深入、慢慢地进行阅读和思考。

论文有以下几个部分:
- 引言:包括研究的动机、背景知识和论文概述,帮助读者理解研究的总体框架。
- Agent AI 集成:讨论了 Agent AI 的技术集成方式,包括如何利用大型基础模型(如 LLMs 和 VLMs)以及解决幻觉、偏见、隐私和可解释性等问题,探讨 Agent AI 在不同应用场景中的潜力。
- Agent AI 范式:重点描述 Agent AI 的工作原理和技术架构,尤其是与 LLMs 和 Transformers 相关的技术框架。
- Agent AI 学习:详细讨论 Agent AI 的学习方法,包括强化学习、模仿学习等策略,并说明 Agent 系统在零样本和小样本学习中的机制。
- Agent AI 分类:根据应用领域对 Agent AI 进行分类,涵盖通用代理、具身代理、生成式代理、逻辑推理代理等不同类别,描述了每种类别的特点和适用场景。
- Agent AI 应用任务:展示了 Agent AI 在各类任务中的应用,包括游戏、机器人、医疗、自然语言处理等,并附有实验和结果分析。
- 跨模态、跨领域和跨现实的 Agent AI:探讨 Agent AI 在不同模态、领域和现实之间的交互能力,尤其是在模拟到现实的迁移方面的应用。
- Agent AI 的持续和自我改进:讨论如何通过人类交互数据和基础模型生成数据,实现 Agent AI 的持续学习和自我改进。
- 代理数据集和排行榜:介绍了用于评估和训练的专用数据集和评估基准。
- 影响、伦理和多样性声明:提供了该技术的潜在社会影响和伦理考量,以及多样性声明,展示了论文作者对 AI 技术责任的关注。
- 附录:包括 GPT-4V 在不同游戏中的具体应用示例和其他细节说明,帮助理解 Agent AI 在实际环境中的应用效果。
我们先来看看引言的部分>>>
动机
在1956年的达特茅斯会议上,AI系统被定义为一种能够从环境中收集信息并进行有用互动的人工生命形式。受到这一定义的启发,明斯基的MIT团队在1970年创建了“复制演示”机器人系统,通过观察“积木世界”场景,成功重建了多面体积木结构。该系统展示了观察、规划和操控等模块的高度复杂性,提示了各个子领域的挑战性。随着AI的研究逐步细化,虽然各领域取得了独立进展,但过度细化导致了对AI研究总体目标的模糊化。
为了突破现状,有必要回归到基于亚里士多德整体论的AI基础。幸运的是,近年来大型语言模型(LLMs)和视觉语言模型(VLMs)的革命,使得创建符合整体理想的AI代理成为可能。本文探索了整合语言能力、视觉认知、情境记忆、直觉推理和适应性的模型,提出以LLMs和VLMs为核心的AI代理的可能实现路径。预训练LLMs和VLMs的出现为自然语言处理和计算机视觉带来了全新契机。这些模型在复杂环境中可作为代理,借助领域特定知识和模块,能够在复杂任务中进行推理、环境理解和多步规划。本文探讨了这些代理AI在游戏、机器人和医疗等领域的潜力,及其如何推动AI从静态、结构化任务转向动态、复杂环境中的角色扮演。我们认为,代理AI在这些领域的应用不仅是评估最前沿AI系统的良好平台,也预示了其对社会和产业的深远影响,甚至可能重新定义人类体验和运营标准。
此外,代理AI在广泛自动化方面的潜力预示了未来产业和社会经济格局的重大转变,并带来了技术和伦理的双重考验(详见第11节)。本文也在图1(也就是我在前面用中文重绘的图)中展示了这些代理AI各个子领域的相互联系。
背景
本文综述了支撑Agent AI概念的相关研究,包括现代实现方法。LLMs和VLMs已经推动了通用智能机器的发展,不仅局限于语言处理,还能够处理复杂任务,如数学推理、法律咨询、以及为机器人和游戏AI生成复杂计划。特别是在机器人领域,研究者利用LLMs分解自然语言指令,生成一系列子任务,并通过低级控制器执行。此外,反馈机制的引入显著提高了任务表现。代理AI还支持交互式学习,通过用户反馈和观察学习逐步改进系统的反应能力和表现,从而不断提高其跨现实情境中的理解能力和人机交互表现。这样的学习过程通常在人工监督下进行,以确保AI学得合适且无偏见。
概览
多模态Agent AI(MAA)是一类基于多模态感知输入生成有效行动的系统。随着LLMs和VLMs的发展,MAA系统在诸如视觉问答、视觉语言导航等多个领域迅速发展,本文关注MAA在多模态、游戏、机器人和医疗等方面的代表性研究,探索其数据收集、基准测试及伦理方面的共性。我们希望本文能为MAA的研究提供基础知识并启发进一步研究。
具体研究目标包括:
- MAA概述:深入了解其在现代应用中的原则和角色。
- 方法论:说明LLMs和VLMs如何在实际案例中增强MAA,尤其是游戏、机器人和医疗领域。
- 性能评估:为评估MAA的有效性提供指南,关注其泛化能力。
- 伦理考虑:探讨Agent AI在社会中的潜在影响及负责任的开发实践。
- 趋势和未来方向:分类各领域的最新进展并展望未来发展。
通用代理在多任务、多模态场景中具有广泛应用价值,具有良好的交互性和广泛的泛化能力。我们希望本文能为Agent AI领域的研究提供积极的生态环境,促进研究者之间的合作和共享。
基于LLM和VLM的基础模型虽已取得进展,但在具身AI(embodied AI)领域中的理解、生成、编辑及交互表现仍然有限,尤其是在处理未见过的环境或情境时。相关的局限性导致AI代理的输出效果不理想。
当前以Agent为中心的AI建模方法侧重于直接访问和明确定义的数据(如文本或字符串表示的世界状态),并通常利用大规模预训练中学到的领域和环境无关的模式来预测各类环境中的行动输出。在Huang等人的研究中,结合大型基础模型进行知识引导的协同与互动场景生成,展示出LLM代理在2D与3D场景理解、生成及编辑中的潜力,并增强了人机交互表现。通过整合代理AI框架,大型基础模型得以更加深入地理解用户输入,从而形成复杂且适应性的HCI系统。
LLM和VLM的新兴能力体现在生成式AI、具身AI、知识增强的多模态学习、混合现实生成、文本到视觉编辑,以及游戏或机器人任务中的2D/3D模拟等领域。Agent AI的进展为在复杂环境中的规划、问题解决和学习等通用具身系统带来新可能。Agent AI的研究进一步推进了元宇宙的发展,亦为AGI的早期版本奠定了基础。

Part 04 —— 无限 Agent AI
AI代理具备基于训练和输入数据进行解释、预测及响应的能力。尽管这些能力不断提升,但其效果仍受限于基础训练数据。AI代理系统一般具备以下能力:
预测建模:基于历史数据和趋势预测可能的结果或下一步操作,例如续写文本、回答问题、机器人操作或场景决策。
决策制定:在某些应用中,AI代理能根据推断进行决策,通常以达成指定目标为依据。如推荐系统中的代理可根据用户偏好推荐产品或内容。
处理模糊性:AI代理通常能通过推断最可能的解释来处理模糊输入,但其能力受到训练数据范围和算法的限制。
持续改进:尽管一些AI代理可以从新数据和交互中学习,但多数大型语言模型不会在训练完成后持续更新知识库或内部表示。
我们提出了用于多模态和跨现实无关整合的增强型交互代理,并展示了其新兴机制。AI代理在每项新任务中都需收集大量训练数据,这在许多领域中成本较高或不可行。在本研究中,我们开发了一种“无限代理”,通过从通用基础模型(如GPT-X, DALL-E)中迁移记忆信息,从而实现新领域或情境中的场景理解、生成与交互编辑。
在机器人领域,这类无限代理的应用包括RoboGen。该研究提出了一条自主循环的任务生成、环境生成及技能学习流程,以此将大型模型中的嵌入知识迁移至机器人领域。
RoboGen™ 是一个开源平台,用于机器人身体和大脑的共同进化。它的设计主要侧重于不断发展的机器人,这些机器人可以通过 3D 打印和使用一小组低成本的现成电子元件轻松制造。它具有一个进化引擎和一个物理模拟引擎。此外,它还包括用于生成用于 3D 打印机的人体组件设计文件的实用程序,以及用于编译神经网络控制器以在 Arduino 微控制器板上运行的实用程序。

Part 05 —— 大模型驱动的Agent AI
近期的研究表明,大型基础模型在生成数据方面起到了关键作用,能够作为基准数据帮助代理在环境约束下确定行动。比如,在机器人操作和导航领域中应用基础模型。例如,Black等人利用图像编辑模型作为高层次的规划器,生成未来的子目标图像以指导底层策略。


在机器人导航中,Shah等人提出了一种系统,该系统使用LLM识别文本中的地标,并通过VLM将这些地标与视觉输入关联,从而提升自然语言导航能力。


人类运动生成的相关研究也日益受到关注,特别是根据语言和环境因素生成特定动作。已有多项AI系统提出通过生成特定语言指令的动作,并适应各种3D场景。这些研究凸显了生成模型在提升AI代理适应性和响应性方面的潜力。
幻觉(Hallucinations)
生成文本的AI代理常易产生“幻觉”,即生成的内容无意义或与提供的源内容不符。幻觉可分为两类:内在幻觉和外在幻觉。内在幻觉指与源内容矛盾的生成内容,而外在幻觉则指生成文本包含了源内容中未包含的额外信息。
为减少语言生成中的幻觉,一些方法如检索增强生成或其他外部知识检索方法表现出一定前景。一般来说,这些方法通过检索补充材料,并提供检查机制以发现生成内容与源内容之间的矛盾。

在多模态代理系统中,VLM也被发现会产生幻觉。视觉生成的幻觉通常是由于过度依赖训练数据中的物体和视觉线索的共现关系。特别是依赖预训练LLM或VLM且缺乏特定环境微调的AI代理,由于依赖于模型的内部知识库生成行动,易受幻觉影响,无法准确理解其所在环境的动态变化。

偏见与包容性
基于LLM或LMM(大型多模态模型)的AI代理因其设计和训练过程中的一些因素而存在偏见。在设计这些AI代理时,必须关注包容性,尊重所有终端用户和利益相关者的需求。包容性在AI代理的语境中指的是,通过特定的原则和措施确保代理的回应和互动是包容的、尊重的,且对来自不同背景的用户敏感。以下列出代理偏见和包容性的关键方面。
训练数据:基础模型使用大量从互联网上收集的文本数据进行训练,包括书籍、文章、网站等。这些数据往往反映了人类社会的偏见,模型可能无意间学习并重现这些偏见,涉及种族、性别、民族、宗教等方面的刻板印象和偏见。尤其是模型主要使用网络数据并以英语文本为主,容易学习到西方发达国家的文化规范。
历史与文化偏见:模型训练数据来自多样化的内容来源,往往包含历史文本或不同文化的资料。特别是历史数据中可能包含具有冒犯性的用语,反映了当时的社会文化规范、态度和偏见,这可能导致模型延续过时的刻板印象或难以理解当代文化变化。
语言与语境局限性:语言模型可能难以准确理解语言的细微差别,比如讽刺、幽默或文化参考,可能导致误解或偏见的回答。此外,纯文本数据难以捕捉口语的所有细节,导致人与模型的理解差异。
政策与准则:AI代理遵循严格的政策和准则,确保公平与包容。例如在图像生成中,有规则要求避免与种族、性别等相关的刻板印象。
过度概括:模型基于训练数据中的模式生成回答,这可能导致过度概括,例如出现刻板印象或对某些群体的广泛假设。
持续监测与更新:AI系统被持续监控与更新,以解决偏见或包容性问题。用户反馈和AI伦理研究在其中起到关键作用。
主流观点的放大:由于训练数据中往往包含更多主流文化或群体的内容,模型可能更偏向这些视角,而低估或误解少数群体的观点。
伦理与包容性设计:AI工具的设计应将伦理和包容性作为核心原则,包括尊重文化差异、促进多样性,确保不延续有害的刻板印象。用户指南:用户也被引导以包容、尊重的方式与AI互动,避免引发偏见或不当内容生成。此外,这有助于避免模型从用户互动中学习到有害内容。
尽管采取了这些措施,AI代理仍然会表现出偏见。代理AI研究和开发中的持续努力旨在进一步减少这些偏见,并增强AI系统的包容性和公平性。以下是减少偏见的措施:
多元化和包容性的训练数据:努力纳入更具多样性和包容性的训练数据来源。
偏见检测与纠正:持续研究偏见的检测与纠正方法。
伦理准则与政策:模型遵循设计用来减少偏见、确保互动尊重与包容的伦理准则和政策。
多样化呈现:确保AI代理生成的内容能够代表多种人类经验、文化、种族和身份,特别是在图像生成或叙事构建中。
偏见减缓:积极减少AI回应中的偏见,尤其是涉及种族、性别、年龄、残疾、性取向等个人特征的偏见,目标是提供公平、不带偏见的回答。
文化敏感性:AI被设计为具有文化敏感性,能够识别并尊重不同文化的规范、习俗和价值观。
无障碍设计:确保AI代理对不同能力的用户可用,包括视力、听力、运动或认知障碍用户的可访问功能。
语言包容性:支持多种语言和方言,适应全球用户,并尊重语言中的微妙差异。

伦理且尊重的互动:代理被编程以伦理且尊重地与所有用户互动,避免生成可能被视为冒犯、有害或不尊重的内容。
用户反馈与适应:通过用户反馈不断改进AI代理的包容性与有效性,包括从互动中学习以更好地服务多元用户群体。
符合包容性准则:遵循由行业、伦理委员会或监管机构设立的包容性准则和标准。尽管有这些措施,仍需认识到响应中可能存在偏见,并以批判性思维进行解释。AI代理技术和伦理实践的持续改进,旨在随着时间的推移减少这些偏见。代理AI的包容性目标之一,是创建一个尊重并适合所有用户的系统,不论其背景或身份如何。
数据隐私和使用
AI代理的一个关键伦理问题在于理解这些系统如何处理、存储和潜在地检索用户数据。该论文从以下几个方面进行了展开:
数据收集、使用与目的:在提升模型性能时,开发人员通常需要访问AI代理在与用户交互时所收集的数据,这可能包括文本输入、用户使用模式、个人偏好,甚至更为敏感的个人信息。用户应当清楚这些数据是如何被使用的,特别是在代理可能记录不准确的信息时,应有纠正机制以保障数据的准确性和尊重用户的权益。数据的常见用途包括提升用户体验、个性化响应和系统优化。确保数据不会被用于未经用户同意的目的(如推销)至关重要。
存储与安全性:开发者应清楚用户交互数据的存储位置,并确保采取了安全措施防止未经授权的访问或泄漏,包括加密、使用安全服务器和数据保护协议。此外,数据是否会与第三方共享、在何种条件下共享,需做到透明且通常需要用户同意。
数据删除与保留:用户应了解数据的存储时长以及如何请求删除数据。许多数据保护法赋予用户被遗忘权,即可请求删除个人数据。AI代理必须遵守如欧盟的《通用数据保护条例》(GDPR)或加州的《消费者隐私法》(CCPA)等数据保护法规,保障用户的数据处理权利。——当然,还有国内的相关法规,比如:


数据便携性与隐私政策:开发人员需要制定隐私政策,详细说明数据的收集、使用、存储以及用户权利等。特别是对于敏感信息,需获得用户同意。用户通常可以选择退出或限制其提供的数据。在某些地区,用户甚至有权请求获取可供转移到其他服务提供商的数据副本。
匿名化处理:用于更广泛分析或训练的数据应进行匿名化处理,以保护个人隐私。开发者应了解AI代理在交互中如何检索和使用历史用户数据,如个性化或提升响应相关性。
解释性和可解释性
模仿学习→解耦:代理通常采用强化学习(RL)或模仿学习(IL)的连续反馈训练,但初期策略因环境的陌生性可能面临奖励稀缺问题。使用无限记忆的模仿学习代理,通过专家数据学习,可以有效探索并利用新环境。为实现更广泛的适用性,代理不直接模仿专家行为,而是基于专家行为提取的隐性奖励函数,从而提高在未知情境中的泛化能力。

解耦→泛化:解耦学习将学习过程从任务特定奖励中分离,使得策略能够跨不同任务泛化,从而实现迁移学习,并在不同情境下适应。这种方法能提升在变化环境中的适应性,使学习到的策略更具鲁棒性和泛化性。
Agent AI的核心思想包含两个部分:
- 无限记忆代理:该代理收集真实世界中专家的演示,将其转化为状态-动作对。
- 虚拟环境:该环境模仿代理生成器,生成与专家行为相似的动作。模仿代理通过减少专家动作与学习到的策略生成的动作之间的差距(即损失函数)来学习从状态到动作的映射策略。
在AI产品开发和应用中,这种Agent AI结构具有实际的深远意义,尤其在增强人工智能系统的真实环境适应性和操作性能方面。
比如在自动驾驶领域,“无限记忆代理”可以理解为一种持续学习的驾驶助手。这个代理能够积累和记忆大量专家(即人类司机)的驾驶经验,比如在各种天气、路况和紧急情况下的决策方式。每当自动驾驶系统遇到新的情况时,代理可以调用这些记忆来“思考”类似场景中的最佳反应。
举个例子,想象一个自动驾驶汽车遇到紧急避让的情况——前方车辆突然急刹车。由于代理已经通过数千个类似情境的数据学习过人类司机的应对方法,它能够迅速判断是否需要紧急制动、转向或其他操作来避让。这种学习方式相当于赋予车辆一种“经验直觉”,能在相似的情境中采取已验证有效的行动。
相比之下,如果没有无限记忆代理,系统只能根据当前编程的规则和少量环境信息进行判断,可能缺乏对类似情境的深层理解。因此,“无限记忆代理”让自动驾驶系统能够实现快速决策和应对,而无需在每个场景中从零学习。

而虚拟环境的模仿机制在自动驾驶中也至关重要,因为在实际道路上训练自动驾驶汽车来学习每一种可能的危险情景不仅昂贵,还非常危险。虚拟环境就像是一个“驾驶模拟器”,它为自动驾驶系统提供了一个安全的训练场所。在这里,系统可以反复经历各种道路状况,比如湿滑路面、复杂的十字路口、甚至意外出现的行人,所有这些都可以被安全、低成本地模拟出来。

需要提醒的是,FSD和无限记忆代理/虚拟环境的模仿学习在理念上有相似之处,都在通过数据积累与学习来增强决策能力。但FSD更加直接、实时,且紧贴现实路况训练,而无限记忆代理则更注重通过长期、广泛的专家数据积累以及模拟环境的安全性测试来形成更具泛化能力的策略。因此,两者各有优势,FSD更适合实地应用,而无限记忆代理和虚拟环境的组合可以在早期开发阶段或极端场景下作为有效的补充。
泛化→涌现行为:泛化还可以解释如何通过简单组件或规则之间的相互作用,导致复杂行为的涌现。这种跨复杂度水平的泛化使系统在新环境中适应,体现出从简单规则到复杂行为的进化。

比如,Google DeepMind研究团队对RT-2模型进行了一系列定性和定量实验,涵盖了超过6000次机器人试验。在探索RT-2的涌现能力时,首先寻找了需要将web-scale数据和机器人的经验相结合的任务,然后定义了三类技能:符号理解、推理和人类识别。每个任务都需要理解视觉-语义概念,并具备执行机器人控制以对这些概念进行操作的能力。例如,“拿起即将从桌子上掉下来的袋子”或“将香蕉移动到2加1的和”,要求机器人对机器人数据中从未见过的对象或场景上执行操作任务,这需要从网络数据转化而来的知识进行操作。

推理增强
推理增强旨在通过额外的数据、改进的算法或人工输入等方式提高AI的自然推理能力:
数据丰富:引入额外的外部数据来源以增强上下文理解,有助于在训练数据有限的领域内做出更准确的推断。

算法优化:优化AI的底层算法以改进推理性能,如结合不同类型的AI或更新算法以应对复杂任务。比如OpenAI推出的o1模型,通过强化学习+内化思维链的方式,不仅在量化的推理指标上有了显著提升,在定性的推理可解释性上也有了明显的改善。相关历史文章参见《OpenAI 推出全新o1系列模型预览版:开启 AI 推理的新时代?我简单试了下……瑕不掩瑜》。

人类参与:在推理过程中融入人工输入,以在人类判断至关重要的领域提供支持,确保在复杂或模糊情境下的准确性。
实时反馈整合:使用用户或环境的实时反馈以在推理过程中调整响应。例如,AI 可能会根据实时用户响应或动态系统中不断变化的条件调整其推荐。或者,如果代理在模拟环境中执行违反某些规则的操作,则可以动态地向代理提供反馈以帮助纠正自身。

跨领域知识迁移:将一种领域的知识或模型用于另一个领域,特别适用于特定应用需求较强的任务。例如,为语言翻译开发的技术可以应用于代码生成,或者来自医疗诊断的见解可以增强机器的预测性维护。
定制化:针对特定应用场景或行业进行推理定制,通过专用数据集或微调模型来适应特定任务。参见历史文章《浅谈大模型私有化+精调:面向垂直行业与特定场景之需》。
伦理与偏见考量:避免在推理增强过程中引入新的偏见或伦理问题,特别是对敏感话题的推断。
持续学习与适应:通过定期更新和改进AI的推理能力,以适应新的数据和用户需求变化。
总而言之,AI 代理中的推理增强涉及通过附加数据、改进的算法、人工输入和其他技术来增强其自然推理能力的方法。根据用例,这种增强对于处理复杂任务和确保代理输出的准确性通常是必不可少的。
数据隐私和使用
近期,Agent AI取得了重大进展,其在具身系统中的整合为与人类代理的互动开启了新可能,使体验更加沉浸、动态且引人入胜。为加快开发流程、简化Agent AI开发中的繁琐工作,我们提议开发下一代AI驱动的代理交互管道,构建一个支持人机协作的系统,使人机能够有效沟通和交互。该系统将利用LLM(大语言模型)或VLM(视觉语言模型)的对话功能与广泛的行动能力,与人类用户对话、识别需求,并在需要时采取适当的行动来帮助用户。
在采用LLM/VLM构建人机协作系统时,需注意这些模型是“黑箱”操作,输出可能难以预测。在物理环境中操作,如实际的机器人系统,这种不确定性可能带来风险。为应对这一挑战,可通过提示工程对LLM/VLM进行限制性引导。例如,在机器人任务规划中,提供环境信息比仅依赖文本指令更能稳定输出。这一点也得到了Minsky的AI框架理论的支持,认为LLM/VLM的解决问题空间由输入提示来定义。另一种方法是设计提示,使LLM/VLM输出解释性文本,便于用户理解模型的关注点和识别内容。此外,可增加预执行验证及人类指导层来提高系统的操作安全性和准确性(见下图)。

Part 06 —— Agent AI的涌现能力
尽管互动型Agent AI系统的应用日益增多,大多数现有方法在未见过的环境或情境中仍面临泛化能力的挑战。目前的建模实践需要开发人员为每个领域准备大量数据集以微调或预训练模型;然而,针对新领域进行数据采集成本高昂,甚至不可行。为解决这一问题,我们构建了利用通用基础模型(如ChatGPT、Dall-E、GPT-4等)知识记忆的互动代理,支持人机协作空间的创建。我们发现了一种新的涌现机制——称为知识推理的混合现实互动(Mixed Reality with Knowledge Inference Interaction),该机制可在人机协作中解决复杂任务,并促进虚拟现实场景中对未知环境的探索与适应。此机制通过以下方式实现:
跨模态的微反应:从显性网络资源及预训练模型输出中推理,获取特定任务相关的知识(如理解新场景)。假设Agent AI部署在VR中的虚拟导游角色。用户可能会进入一个完全陌生的虚拟场景,代理通过分析环境中的视觉信息,快速“学习”并理解新场景的背景,然后为用户提供有针对性的导览建议,而不需要预先配置所有可能场景的数据。
跨现实的宏行为:在语言和多模态领域中增强交互维度和模式,根据角色、目标变量和多样化的协作信息进行调整,适应混合现实和LLM环境。在游戏中的虚拟NPC角色可以表现出真实情感和人格,例如玩家在与NPC互动时,Agent AI根据玩家行为和对话历史逐渐“适应”了特定的沟通方式,甚至根据玩家的情绪调整表现,提升NPC的“真实感”。
我们探索了基于知识引导的互动协作效果,结合各种OpenAI模型生成场景,显示出互动代理系统如何进一步提升基础模型的效果。此系统整合并提升了复杂适应性AI系统的泛化深度、意识和解释性。
Part 07 —— Agent AI的范式
论文第3章探讨了一种新的Agent AI训练范式与框架,其核心目标在于实现:
- 利用已有的预训练模型(如LLMs和VLMs)作为基础,加速Agent对文本和视觉等多模态输入的理解。
- 支持长期任务规划能力。
- 引入记忆框架,以便在未来检索已学知识。
- 融入环境反馈机制,帮助Agent通过交互学习决策。

作者们为多模态通用Agent提出的新代理范式。如图所示,有 5 个主要模块:1) 环境和感知,带有任务规划和技能观察;2) 学习;3) 记忆;4) 行动;5) 认知
LLMs和VLMs
LLMs(如GPT-4)和VLMs(如CLIP)已被证明在任务规划、逻辑推理和多模态理解方面具有优越表现。通过这些模型,Agent可以“借用”它们的世界知识和跨模态编码能力,快速实现零样本或少样本的任务执行。现有的一些多模态模型(如InstructBLIP和LLaVA)已展示了冻结CLIP等视觉编码器的高效用法。




Agent Transformer的定义
相较直接使用LLMs和VLMs,可以采用一种名为Agent Transformer的新架构,其核心理念是通过加入Agent Tokens(特定任务相关的输入/输出标记),将视觉、语言和Agent行为结合为统一接口。
它的优势在于:
- 任务定制性:可用于机器人控制或特定工具操作(如图像生成和编辑)。
- 可解释性:能清晰追踪Agent行为的决策依据。
- 数据隐私:满足医疗、法律等对数据安全性的要求。
- 经济性:比大型专有LLMs更小、更高效。
创建Agent Transformer
Agent Transformer的训练可以分为两个阶段:
(1)定义目标与动作空间:明确任务目标及Agent的具体动作,并为每个任务分配独立的Agent Tokens。这一阶段需要基于规则、基础模型生成数据或人工标注。
(2)持续改进:通过持续监控与反馈优化模型性能,避免偏见与不道德结果,保证Agent的长期稳定表现。
此外,新的训练方法强调多模态信息的统一处理,让模型不仅利用预训练模块,还通过Agent Tokens形成一个端到端的训练架构,以支持复杂环境中的Agent行为。


Agent Transformer通过语言、视觉和行为三类Token统一处理不同模态信息,解决了传统分离式模型(如单独冻结LLMs/VLMs)的模块化局限。
比如在在智能家居中,Agent可通过多模态信息理解用户语音、监控画面,并执行特定任务(如调节灯光或检测异常)。
Part 08 —— Agent AI学习的策略与机制
交互式AI在不同领域中的策略,扩展了调用大型基础模型的范式,结合训练后的智能体主动收集用户反馈、行动信息以及生成与交互的有用知识的能力。有时,无需重新训练LLM/VLM模型,可以通过在测试时为智能体提供改进的上下文提示来提升性能。另一方面,这通常涉及通过三重系统(triple systems)来进行知识/推理/常识/推断的交互建模:
- 从多模态查询中进行知识检索;
- 从相关的智能体进行交互式生成;
- 通过强化学习或模仿学习的改进方法,进行新的自监督训练或预训练。
强化学习
强化学习(Reinforcement Learning, RL)有丰富的历史,用于训练具备智能行为的交互式智能体。RL是一种通过奖励(或惩罚)学习状态与行动间最优关系的方法。尽管RL是一种高度可扩展的框架,并被应用于许多领域(如机器人学),但它通常面临以下挑战,LLM/VLM被认为有助于缓解或克服这些困难:
(1)奖励设计
策略学习的效率很大程度上依赖于奖励函数的设计。这需要对任务本质有深刻理解,因此通常需要专家经验的支持。一些研究探索了使用LLM/VLM设计奖励函数的可能性,例如下面展示的《Language to Rewards for Robotic Skill Synthesis(机器人技能合成的奖励语言》中的研究:


(2)数据收集与效率由于RL基于探索的本质,其策略学习需要大量数据,尤其当涉及长序列或复杂行动时。这种情况下需要从更多样化的情景中学习。近期研究致力于通过生成支持策略学习的数据(如下图),或在奖励函数中整合这些模型来提升学习效果。

(3)长时间跨度任务
RL在处理长序列动作时面临更大挑战,如行动与奖励间的关系模糊(即信用分配问题)。典型的方法是将长任务分解为子目标,并为每个子目标应用预训练策略(如下图)。

这属于任务与运动规划(Task and Motion Planning, TAMP)框架,LLM常被用作高层任务规划工具,而低层控制则使用基于RL的策略完成(如下图)。

模仿学习
模仿学习 (Imitation Learning, IL)通过模仿专家数据来训练策略。例如,在机器人学中,行为克隆(Behavioral Cloning, BC)是一种主要的模仿学习方法,机器人通过直接复制专家动作来模仿其行为。近期结合LLM/VLM的BC方法展示了更高级的端到端模型,如RT-1和RT-2,利用大量训练数据提升了泛化性能。


基于传统RGB的学习
基于图像输入学习智能体行为的研究已经有多年历史,但RGB输入面临“维度灾难”。为解决这一问题,研究者通过引入归纳偏置或增加数据量来提升效率,如结合3D结构进行操作,或使用地图表示进行机器人导航。此外,还通过模拟数据生成和闭合仿真到现实的差距来解决数据稀缺问题。

上下文学习
上下文学习(In-context Learning)被证明是解决NLP任务的有效方法。少样本提示能够通过提供任务示例来改进模型的任务表现。在多模态模型中,通过结合环境特定反馈进一步提升上下文学习效果。

Agent系统的优化
智能体系统的优化可以分为空间和时间两个方面。
空间优化
关注智能体在物理空间内的任务执行,包括多智能体协调和资源分配。
时间优化
关注任务在时间上的执行效率,如任务调度和时间线优化。此前的研究探索了自我对弈强化学习和与人类协作建立通用规则的可能性。
Part 09 —— Agent System(0-shot和few-shot级别)
Agent模块
该论文在Agent范式领域的探索包括开发基于大语言模型(LLMs)或视觉语言模型(VLMs)的交互式多模态代理的“Agent AI模块”。其初始代理模块支持训练或上下文内学习,并采用简约设计,旨在展示代理有效调度和协调任务的能力。论文还研究了初步的基于提示的记忆技术,这些技术可以优化规划并为未来的行动方法提供支持。例如,“MindAgent” 架构包括五个主要模块:1)带有任务规划的环境感知,2)代理学习,3)记忆,4)通用代理行为预测,以及 5)认知,如下图所示:

Agent基础设施
基于Agent的AI是娱乐、研究和工业领域中的热门探索。大型基础模型的发展显著提升了Agent AI系统的性能。然而,创建此类智能体面临着构建高质量数据集和总体成本的日益增加的挑战。在微软,通过利用先进硬件、多样化数据源和强大的软件库,构建高质量的代理基础设施对多模态代理助手的发展产生了显著影响。随着微软持续推动Agent技术的边界,AI智能体平台有望在未来几年内继续在多模态智能领域保持主导地位。
尽管如此,Agent AI的交互目前仍然是一个复杂的过程,需要多种技能的结合。大型生成式AI模型领域的最新进展,有潜力大幅降低当前交互内容开发的高成本和时间需求,不仅对大型工作室如此,也为较小的独立内容创作者赋能,使他们能够设计出超越当前能力范围的高质量体验。
目前,多模态代理内部的人机交互系统主要基于规则。尽管这些系统在响应人类/用户操作方面表现出一定的智能行为,并拥有一定程度的网络知识,但这些交互往往受到软件开发成本的限制,无法启用系统中的特定行为。此外,当前的模型在用户无法完成特定任务时,并未设计为帮助用户实现目标。因此,迫切需要一种Agent AI系统基础设施,能够分析用户行为,并在需要时提供适当的支持。
Part 10 —— Agent 基础模型(预训练与微调级别)
使用预训练的基础模型具有广泛适用性的显著优势,可覆盖多样化的应用场景。这些模型的集成使得针对不同应用开发定制化解决方案成为可能,免去了为每项特定任务创建大量标注数据集的需求。
导航领域的一个典型示例是 LM-Nav 系统,该系统采用了一种新颖的方法,结合了 GPT-3 和 CLIP。它利用语言模型生成的文本地标,并将这些地标锚定到机器人获取的图像中,用于导航。这种方法展示了文本与视觉数据的无缝融合,在显著增强机器人导航能力的同时保持了广泛的适用性。

LM-Nav 导航系统包含三个大型预训练模型,分别用于进行语言处理、将图像与语言关联、以及视觉导航。具体如下:
首先,大型语言模型(Large language models,LLM)用于完成自然语言理解的任务,该模型经过了大型网络文本语料库上的训练,可以将用户给出的文本指令解析为一系列地标。LM-Nav 导航系统中选择的 LLM 正是知名的 GPT-3 模型。
其次,视觉和语言模型(Vision-and-language models,VLM)可以将图像和文本所表达的信息进行关联。在导航任务中,视觉和语言模型可将用户指令中的地标,与机器人视觉感知到的周边环境进行关联。据介绍,该系统选择的视觉和语言模型是美国人工智能研究公司 OpenAI 的 CLIP 模型。
第三,视觉导航模型(Visual navigation models,VNM)用于从其视觉观察的信息中直接进行导航工作,它可以将图像和之后执行的动作按时间进行关联。LM-Nav 系统选择了加州人工智能公司 DeepAI 的目标条件模型 ViNG 作为视觉导航模型。
在机器人操作领域,多项研究提出了结合现成的大语言模型(如 ChatGPT)和开放词汇的对象检测器的使用。通过将 LLM 和先进的对象检测器结合,既可以理解人类指令,又能够将文本信息与场景信息联系起来。此外,最新的研究进展展示了利用高级多模态模型(如 GPT-4V(ision))进行提示工程的潜力。这一技术为多模态任务规划开辟了新途径,进一步凸显了预训练模型在各种场景中的多样性和适应性。

这一研究为机器人技术的发展注入了新的可能性。通过引入VLM(如GPT-4V(ision))和时空关联,这一方法展示了机器人从人类演示中学习任务的潜力,并为零样本学习提供了创新的路径。未来,可以通过结合强化学习、实时优化和模块化设计进一步提升系统的效率与实用性。这种跨领域、灵活性强的系统,正是下一代智能机器人所需的关键技术基础。
Part 11 —— 附:GPT-4V for Robotics提示词
这两份 Prompt 体现了在机器人任务学习与场景理解中的两个核心环节:任务翻译与场景建模,将复杂任务简化为可解释、可执行的指令与场景描述。相关内容在论文中并未展开,但我觉得值得分享、学习一下。
原文详见:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
Video Analyzer
用于从人类执行任务的视频中生成文本指令的提示词
以下提示用于从一段人类执行任务的视频中生成一条文本指令。
这些是视频的帧画面,展示了人类正在进行某项操作。请理解这些画面并生成一句话的指令,以供人类用来命令机器人执行这些操作。
作为参考,必要且充分的人类操作定义如下:
HUMAN ACTION LIST
Grab(arg1): 抓取 arg1。
前提条件:arg1 在可触及的距离内。没有任何物体被持有(即 BEING_GRABBED)。
后置条件:arg1 被持有(即 BEING_GRABBED)。
MoveHand(arg1): 将机器人的手移向 arg1,以便可以对 arg1 执行操作。arg1 是对手目标位置的描述,例如“靠近桌子”或“在盒子上方”。
Release(arg1): 释放 arg1。
前提条件:arg1 正被持有(即 BEING_GRABBED)。
后置条件:arg1 被释放(即不再为 BEING_GRABBED)。
PickUp(arg1): 提起 arg1。
前提条件:arg1 正被持有(即 BEING_GRABBED)。
后置条件:arg1 仍然被持有(即 BEING_GRABBED)。
Put(arg1, arg2): 将 arg1 放置在 arg2 上。
前提条件:arg1 正被持有(即 BEING_GRABBED)。
后置条件:arg1 被放置在 arg2 上(同时仍然被持有)。
回应形式:
指令应以人类对人类的交流形式生成(即,不要直接使用上述函数名称)。回应中仅包含一句话指令,不要包含任何解释性文字(例如,不要包含诸如“以下是分步说明”的句子)。
Scene Analyzer
用于从人类执行任务的视频中生成场景描述的提示词
以下提示用于从一段人类执行任务的视频中生成场景描述。GPT-4V 的输入为文本指令(在提示中用 “[ACTION]” 替代)和视频的第一帧画面。
提示:这是一段展示人类正在执行“[ACTION]”的场景。请理解该场景并生成场景描述,以辅助任务规划。
场景环境信息以 Python 字典形式提供。例如:{ "objects": [ "<cup>", "<office_table>" ], "object_properties": { "<cup>": ["GRABBABLE"], "<office_table>": [] }, "spatial_relations": { "<cup>": ["on(<office_table>)"], "<office_table>": [] }, "your_explanation": "人类正在从办公桌上拾起杯子并将其放回桌面。我省略了桌上的果汁,因为它没有被操控。"}
字段说明:
objects 字段表示物体列表。将物体名称用尖括号 <> 包围,词之间用下划线连接,且不包含空格。不要将人类纳入物体列表。object_properties 字段表示物体的属性。物体具有以下属性:GRABBABLE:如果物体具有此属性,则它可以被机器人抓取。spatial_relations 字段表示物体之间的空间关系。仅使用以下函数描述这些关系:inside()on() 例如,“on(<office_table>)” 表示该物体被放置在办公桌上。忽略未在此列表中列出的空间关系。
注意事项:
仅关注与人类操作相关的物体,忽略未被操控或未涉及任务的物体。在 "your_explanation" 字段中解释你所包含和省略的内容及原因。 响应应仅包含 Python 字典,不包含任何解释性文字(例如,不要包含诸如“以下是环境信息”的句子)。 在响应开头插入 “python”,并在末尾插入 “”。
12—通用型智能体:适应多场景的通
通用型智能体(Generalist Agents, GAs)是一类能够处理多种任务、适应多种环境的AI。这些智能体的核心在于:
- 多模态能力:能够同时处理语言、图像、动作等多种输入。
- 自然交互:具备与用户无缝对话的能力。
大型基础模型和交互式AI领域的最新进展,为通用智能体赋予了新的功能。然而,通用智能体若要对用户真正有价值,必须具备自然的交互能力,并能够适应广泛的上下文和模态。
我们将在下一篇(论文的第6章)再详细讨论与通用智能体基础AI相关的内容,特别是多模态智能体AI(Multimodal Agent AI, MMA)这个领域:例如用户行为预测和约束场景下的任务规划(如MindAgent)、细粒度多模态视频理解、机器人技术,或是能够结合知识反馈为用户提供聊天陪伴(如医疗系统的在线客服)。
论文的研究包括但不限于以下主题:
- 主要主题:多模态Agent AI、通用型Agent AI
- 次要主题:具身智能体、行动智能体、基于语言的智能体、视觉与语言智能体、知识与推理智能体、游戏智能体、机器人技术、医疗领域智能体等
- 延伸主题:视觉导航、模拟环境、环境重构、智能体基础模型、VR/AR/MR、具身视觉与语言智能体
接下来,我们将详细列出几种代表性智能体类别。
13—具身智能体:赋予AI“行动力”
具身智能体(Embodied Agents)将AI技术延伸到物理世界,目标是创造能够学习并创造性解决复杂交互任务的智能体。这些智能体在机器人技术和虚拟环境中表现尤为突出。

具身智能体的核心在于:
- 感知环境:利用传感器(如摄像头、麦克风、激光雷达等)感知周围的物理环境或虚拟环境。
- 决策与计划:基于感知的信息,智能体通过规划算法或学习模型决定下一步行动。
- 执行动作:通过机械臂、机器人移动单元或虚拟角色动作,实现与环境的交互。
尽管这是一个巨大的挑战,但深度学习的重要进展以及ImageNet等大型数据集的可用性,使得许多过去被认为难以攻克的AI任务达到了超人表现。例如,计算机视觉、语音识别和自然语言处理已在语言翻译和图像分类等被动输入-输出任务中实现了颠覆性的革命,而强化学习在游戏对战等交互性任务中也取得了世界级表现。这些进展大大推动了具身AI的发展,使得更多用户可以快速开发能够与机器互动的智能体。
行动智能体
行动智能体(Action Agents)是需要在模拟物理环境或现实世界中执行物理操作的智能体。这类智能体需要积极地与环境进行交互。根据其应用领域,我们将行动智能体大致分为两类:游戏AI和机器人技术。
(1)游戏AI在游戏AI中,智能体将与游戏环境及其他独立实体互动。在这些场景中,自然语言可以实现智能体与人类之间的流畅沟通。
具体任务可能因游戏而异,从而提供真实的奖励信号。例如,在竞争型游戏《Diplomacy》中,通过结合人类对话数据和基于强化学习的行动策略训练语言模型,可实现接近人类水平的表现。

CICERO 的核心是可控的外交对话模型和战略推理引擎>>>
步骤 1利用棋盘状态和当前对话,CICERO对每个人将要做什么做出初步预测。

第 2 步CICERO 使用规划反复细化该预测,然后使用这些预测为自己及其合作伙伴形成意图。

步骤3根据棋盘状态、对话及其意图生成多条候选消息。

步骤4过滤候选信息以减少无意义的信息,最大化价值,并确保与我们的意图一致。

此外,也有一些场景中,智能体并不追求特定目标,而是作为城镇中的普通居民活动:.

基础模型在这些场景中表现出色,因为它们能够通过模仿人类行为使互动更加自然。当结合外部记忆时,这些模型能够生成具有真实感的智能体,它们可以进行对话、安排日常计划、建立关系并拥有虚拟生活。

(2)机器人技术
机器人技术中的行动智能体能够与现实环境中的物体交互,例如完成操作任务、执行指令等。

交互智能体
交互智能体(Interactive Agents)是更广泛的智能体类别,不仅包括行动智能体,还包括通过非物理方式进行信息交流的智能体。
例如,具身交互智能体可以通过对话回答用户的问题,或帮助用户解析现有信息(类似于聊天机器人)。通过扩展智能体的能力以包含信息共享,Agent AI的核心设计和算法可以适应更广泛的应用场景,如诊断型智能体

和知识检索型智能体。

就实际应用场景而言,具身智能体(主要是机器人?)未来一定大有可为。例如:
1. 家庭服务机器人,帮助完成家务任务,如清洁、搬运物品。

2. 医疗与护理,协助老年人或病患完成日常生活活动,具身智能体可以帮助拿取物品、扶持病患移动或监测健康状况。
3. 仓储与物流,提高仓库内商品分拣与运输效率,智能机器人可根据商品位置,规划最短路径完成搬运。
案例:亚马逊的仓库机器人Kiva,通过感知和规划实现高效分拣。
4. 教育与娱乐
需求:通过虚拟角色或实体机器人实现互动教学或娱乐活动。
解决方案:虚拟具身智能体可以在虚拟现实中与用户互动,教授新知识或引导游戏任务。
案例:虚拟现实游戏中拥有类人行为的NPC(非玩家角色)。
14—模拟环境智能体:试验与学习的低成本解决方案
模拟环境智能体是一种专注于在虚拟环境中学习、测试和执行任务的AI。这类智能体通过与模拟环境交互,学习如何应对复杂任务,同时避免现实中的高风险或高成本。
为了让AI智能体学习如何在环境中行动,一个有效的方法是通过与环境的交互经历试错过程。例如强化学习(RL)需要大量失败经验来训练智能体。在许多高风险或高成本的场景中(例如自动驾驶、深海设备),模拟环境(Simulation Environments)为智能体学习提供了安全的试验田。
因此,使用模拟器进行策略学习是一种常见的方法。已有的探索和研究中提出了许多用于具身AI的模拟平台,例如:
Habitat:提供3D室内环境,支持人类或机器人智能体执行导航、指令跟随、问答等任务。

VirtualHome:支持虚拟人类角色在3D室内环境中执行物体操作任务。

Overcooked-AI:设计用于研究人机协作任务的基准环境。

其他研究则进一步探索了超越智能体与环境互动的领域,例如结合人类干预。这些模拟器有助于智能体在涉及人机交互的实际场景中学习策略。
在某些情况下,学习策略的过程需要模拟器中集成特定功能。例如:
- 基于图像的策略学习:为了适应真实环境,通常需要逼真的渲染引擎。通过逼真的图像生成,模拟器能够反映各种条件(如光照环境)。

- 物理引擎:用于模拟与物体的物理交互。集成物理引擎的模拟器已经证明能够培养可应用于现实世界的技能。

15—生成式智能体:重塑创意与内容生产
生成式智能体(Generative Agents)是一类以生成内容为核心功能的AI,它利用生成式模型(如GPT-4、DALL-E、Stable Diffusion)来创建各种形式的内容,包括文本、图像、音频、视频,甚至虚拟世界中的动态场景,大幅降低了高质量互动内容的制作成本。其实际的应用场景包括:
营销与内容创作,快速生成吸引用户的广告文案、博客文章或社交媒体内容。在电商/短视频领域,AI生成已经被广泛应用且起到了非常不错的效果:

游戏开发需要创建复杂的虚拟世界、角色和交互规则,生成式智能体可以通过简单的提示(例如“设计一个拥有古代遗迹和浓密森林的场景”),生成完整的3D地图、材质和动态交互规则。

- 数字艺术与设计,比如设计插图、海报或品牌LOGO,使用生成式智能体通过扩散模型生成高清图像,并结合用户反馈优化设计。

- 教育与培训:根据学生的学习需求,生成相应的练习题目、课程讲义或互动视频。

这类智能体也特别适合XR(扩展现实)应用,帮助小型团队或个人快速实现创意。其核心能力在于:
- 从草图生成完整的3D场景(如GPT-4 Vision模型)。
- 通过扩散模型重新设计材质和特效。
- 动态生成交互规则与行为逻辑。
AR/VR/混合现实智能体
扩展现实(XR,包括AR、VR和混合现实)应用中,目前需要熟练的艺术家和动画师创建角色、环境和对象。这是一个耗时且昂贵的过程,包括概念设计、3D建模、纹理制作、绑定和动画制作。
XR智能体能够通过工具简化这一流程,促进创作者与虚拟环境的交互。早期实验表明,GPT模型可以在Unity引擎中以少样本模式直接调用引擎方法,例如:
- 下载3D模型并将其放置到场景中
- 为模型分配行为状态树和动画


其核心能力在于能够:
- 加速开发流程:通过将大模型集成到智能体基础架构的各种编辑工具中,大幅加速开发。
- 动态渲染控制:智能体通过生成代码来满足用户指令,并在运行时编译,从而允许用户动态编辑VR/模拟环境。
一个专注于XR场景的AI辅助工具可以帮助创作者完成繁琐任务(如生成简单资产或编写代码模板),使创作者能够专注于创意构思并快速迭代。

此外,智能体还能帮助用户动态修改环境,例如添加新资产、改变环境动态,或构建新设置。通过在运行时生成动态内容,用户的体验能够保持新鲜感,并持续进化。

16—知识与逻辑推理智能体:开启智能未来的新篇章
在AI技术的广泛应用中,知识获取与逻辑推理是智能体迈向高效、可信和人性化的重要能力。论文从知识智能体、逻辑智能体、情感推理智能体、神经符号智能体,以及基于大型语言模型(LLMs)与视觉语言模型(VLMs)的智能体,探讨了它们的技术特点与应用潜力。
知识智能体
融合隐性与显性知识的桥梁
知识智能体结合了两类知识系统:
- 隐性知识:由大型语言模型(如GPT-4)从海量文本中学习,内嵌到模型参数中
- 显性知识:结构化的知识库或数据库,可直接查询,确保实时性与准确性,通过引用可验证的外部资源来增强 AI 推理能力
隐性知识虽然庞大,但可能随着时间推移而过时;显性知识则可持续更新,确保智能体的知识“永不过期”。通过将隐性与显性知识相结合,知识智能体实现了类似人类的动态推理能力。

想象知识智能体是一位知识型助手:
- 它的隐性知识让它像一个记忆力超强的人,能迅速回答你很多问题
- 它的显性知识让它像一本实时更新的百科全书,回答精确可靠
通过结合两者,它既快速又准确。一些应用案例包括:
- 智能客服助手:基于最新数据库回答用户问题,提供实时知识支持,参见《AI+智能客服:大模型可落地的最成熟场景之一》。

- 医疗诊断系统:整合医学知识库与语言模型,协助医生快速获取诊断依据

逻辑智能体
让AI掌握推理的艺术
逻辑智能体是指一个系统中的组件,用以应用逻辑推理来处理数据或完成逻辑推导相关的任务,包括从前提推导结论、处理抽象概念或解决结构化问题。
逻辑推理是人类认知的重要部分,比如从已知的事实出发,推导出隐藏的关系:
如果所有人都需要睡觉,而约翰是一个人,那么约翰也需要睡觉。
对于AI来说,逻辑推理能力尤为重要,因为它可以让AI在高度结构化或需要严谨分析的场景中表现得更像人类。
传统的大型语言模型(如GPT-4)虽然在逻辑任务上表现良好,但它们并不是基于显式的逻辑规则进行推理,而是通过海量数据训练得出的模式匹配能力。
逻辑智能体(GPT-o1?)通过显式逻辑规则解决这些问题,提供了更清晰和结构化的推理能力,可参见《OpenAI 推出全新o1系列模型预览版:开启 AI 推理的新时代?我简单试了下……瑕不掩瑜》。

而Wang等提出的嵌入逻辑模块的模型,通过将文本解析为逻辑片段并建模逻辑层次,提升了逻辑推理的表现。
逻辑智能体的实际应用场景可能是:
- 法律和合同分析:逻辑智能体可以从合同条款中推导出可能的风险,例如:条款A与条款B矛盾,可能导致执行问题。
英智法律智能体可以自动识别和提取合同中的重要条款和风险点,显著提高合同审查的效率和准确性
- 教育和逻辑训练:逻辑智能体能够生成结构化的逻辑问题,并清楚地解释每一步推导过程。

- 自动化决策:在复杂业务场景中,基于逻辑规则自动生成决策,例如在金融服务中,根据客户数据推导贷款审批结果。
- 科学研究与分析:例如逻辑智能体可用于生物医学研究中,分析实验数据与假设的符合程度。
情感推理智能体
用共情拉近人机距离
情感理解和共情是许多人机交互中重要的技能。在人类沟通中,情感往往比信息本身更有影响力。例如,在客服场景中,用户不仅希望问题被解决,还希望感觉“被理解”或“被关心”。没有情感的冷冰冰回答,很容易让用户失望或感到疏离。
情感推理智能体的核心在于两项能力:
- 情感识别:通过分析文本、语音或图像,理解用户的情绪状态(如愤怒、焦虑或快乐)。
- 情感生成:根据用户的情绪,生成具有共情或情感化的响应。
为了使对话智能体在表现情感和共情的同时,避免产生社会上不恰当或冒犯性的输出这一目标,论文团队研究/提供了:
- NICE数据集:包含200万张图片及其评论,用于训练能够共情的智能体。

- MAGIC模型:通过捕捉语言中的情感风格,生成更有温度的评论内容。

情感推理智能体是让AI更接近“人性化”的重要一步。不过当前许多语言模型在情感理解和共情推理上存在偏见,需要通过更广泛的群体和人口数据来改善。
一些可能的相关应用场景包括:
- 客户服务:情感推理智能体可以安抚愤怒的用户,用充满共情的语言减少投诉率。
- 心理健康支持:情感推理智能体能够识别用户的焦虑情绪,提供安慰并建议求助专业心理医生。
- 教育领域:情感推理智能体可以鼓励学生、识别学习中的挫折感,并提供情感支持。比如根据学生的学习表现,给予鼓励性反馈:“你做得很好,只要再努力一点,就能完全掌握这个知识点!”
- 人机交互中的娱乐应用:游戏中的虚拟角色可以通过理解玩家的情绪,设计更具情感深度的对话情节。
神经符号智能体
打破神经网络与符号逻辑的界限
神经符号智能体基于神经网络和符号逻辑的混合系统。这类智能体面临的挑战是如何从自然语言输入中显式捕捉离散的符号结构信息,而多数通用神经网络模型并未捕捉这些结构信息,导致其在某些任务中的表现受限。
神经符号智能体是一种混合型智能体,它结合了两种AI技术的优势:
- 神经网络(Neural Networks):擅长从大规模数据中学习复杂模式,比如语言理解或图像识别
- 符号逻辑(Symbolic Logic):专注于清晰的规则和逻辑推理,比如数学证明或程序设计
神经网络的优点在于学习“隐性模式”,无需人类明确告诉它规则,但缺点是“模糊”,很难解释它为什么做出了某种决策。
而符号逻辑的优点是其推理过程透明且逻辑清晰,但需要提前设计规则,灵活性较差。
神经符号智能体的目标是将神经网络的学习能力与符号逻辑的推理能力结合起来,既能在复杂场景中适应变化,又能保持清晰的逻辑思维和可解释性。
相关的研究进展有>>>
(1)TP-N2F:一种基于结构化神经表示的编码-解码模型,利用符号绑定和解绑技术,将自然语言输入转化为符号化程序,从而解决结构化推理任务。

TP-N2F如何工作?
假设我们想让AI理解以下自然语言命令:
“如果温度高于30度,就打开空调。”
对人类来说,这很简单:温度是条件,空调是动作。但普通神经网络会将这句话视为一串文字,并通过模式匹配“猜”出正确答案,而不真正理解其中的逻辑结构。
TP-N2F模型通过一种称为“符号绑定和解绑(Tensor Product Representation, TPR)”的技术,帮助AI从自然语言中提取清晰的逻辑关系。
1.编码阶段>>>
TP-N2F的编码器将自然语言中的每个关键元素(比如“温度”、“高于30度”、“打开空调”)提取出来,并表示为一个向量。这些向量会通过数学操作绑定在一起,形成一个符号化的“逻辑表示”。
举个例子:
- 温度(temperature):一个向量
- 高于30度(>30°C):一个逻辑操作向量
- 打开空调(turn_on_AC):一个动作向量,绑定后逻辑关系被表示为一个整体向量,类似于(if temperature > 30°C then turn_on_AC)。
2.解码阶段>>>
TP-N2F的解码器会将绑定的向量拆解出来,生成一个符合符号逻辑的“程序”或“规则”,比如:
turn_on_AC()
这个过程类似于将复杂的语言翻译为计算机能直接执行的逻辑表达式。
一些可能的应用场景如:
- 从语音指令中生成机器人执行的规则程序,比如在智能家居中,AI可以理解复杂的逻辑命令并执行
- 根据自然语言生成Excel公式或自动化脚本
(2)基于视觉-语言指令的模型(如GPT-4):通过对特定图像区域的推理,提升视觉任务的精细度。这种技术在实证和人类评估中表现优于传统方法。
我们可以将视觉语言指令模型想象为一个配备了“放大镜”和“分析器”的助手。

传统模型只能说“这是一堆水果”,但无法具体到某个水果,而区域指向模型的AI助手可以用“放大镜”专注于你指定的区域(右上角的橘子),然后用“分析器”详细回答问题,比如橘子的颜色、光泽和是否有斑点。
一些可能的现实应用场景包括(但不限于):
- 医疗影像分析:在一张复杂的X光片中,医生可以让AI专注于某个疑似异常区域,帮助识别病变特征。例如,医生指出“右肺中部区域”,AI根据影像细节与医学知识,生成更精准的诊断建议。
- 电商产品推荐:用户上传一张家居照片,并询问“左下角的沙发尺寸是否合适”。AI可以专注于该区域,结合产品数据库回答问题。
- 智能监控:在监控画面中,用户可以指向某辆车,并要求AI判断“车的左前轮是否有损坏”。
- 增强人机协作:在设计任务中,设计师可以标注一部分素材,并要求AI优化细节(如“这个区域的光影效果能否更自然?”)。
17—基于LLMs与VLMs的智能体:从零样本到多模态的任务专家
基于LLMs与VLMs的智能体通过整合语言、视觉等多模态能力,能够理解复杂的指令、处理多模态输入,并生成动态、多样化的输出,完成从任务规划到多模态推理的复杂任务。这些智能体的关键特性是:
- 语言处理能力:利用LLMs完成复杂的语言任务,如对话生成、内容创作和逻辑推理。
- 视觉理解与推理能力:通过VLMs理解图像中的细节并结合语言生成相关回答。
- 多模态协作:将文字、图像、视频等多模态信息结合起来完成跨领域任务,例如:从语言指令生成图像内容:例如,输入“设计一个现代风格的客厅”,智能体生成相关图片。从图像理解生成文本:例如,通过分析一张购物清单图片,智能体生成物品清单。动态跨模态任务执行:例如,在视频中跟踪某个对象并回答相关问题。
具备多模态能力的智能体其应用领域就非常广泛了。例如:
机器人任务规划:将自然语言指令分解为Python代码并执行。

多模态智能体:整合文本、图像与视频数据,创建能够自主适应环境的通用智能体。医疗诊断助手,支持
- 医学影像分析:支持X光片、CT、MRI等影像的异常识别(如肿瘤、骨折)。
- 诊断报告生成:根据影像分析生成自然语言报告,清晰呈现诊断结论。
- 实时互动问答:回答用户关于诊断结果和疾病相关的提问。
- 多模态输入支持:用户可以同时上传图像并输入文本说明(如“这片CT上有什么异常吗?”)。
- 信息透明性:标注生成内容的依据(如影像中发现异常的位置)。
PART 12 —— Agent AI 应用任务
12.1 游戏 Agent
游戏为测试大语言模型(LLM)和视觉语言模型(VLM)的 Agent 行为提供了独特的沙盒环境,拓展了它们的协作和决策能力。以下三个领域突显了 Agent 与人类玩家和其他 Agent 互动的能力,以及在环境中采取有效行动的能力。
12.1.1 NPC 行为
在现代游戏中,NPC 通常遵循开发者预设的脚本,这些脚本定义了基于特定触发条件或玩家行为的反应与互动。然而,这种预设机制常常导致 NPC 的行为变得可预测且重复,无法根据玩家的行为或游戏环境的动态变化进行实时调整。这一局限性显著影响了游戏的沉浸感。因此,越来越多的人们开始关注利用 LLM 来提升 NPC 的自主性和适应性,从而使游戏互动更加自然和引人入胜。
LLM 通过处理海量文本数据,能够学习语言模式并生成更加多样化且类人化的响应,这显著提升了 NPC 行为的自然度和复杂性。LLM 可应用于开发动态对话系统,从而增强与 NPC 互动的吸引力和不可预测性。此外,LLM 还能够根据玩家的反馈和游戏内数据不断调整 NPC 的行为,使其更符合玩家的期望,并适应游戏环境的动态变化。

12.1.2 人类与 NPC 互动
人类玩家与 NPC 的互动是游戏体验中至关重要的一环。传统的互动模式主要是单向的,NPC 仅以预设的方式响应玩家的输入,这限制了互动的自然性和丰富性,难以在虚拟世界中有效模拟真实世界中的人际互动。然而,随着 LLM 和 VLM 技术的出现,这一现状有望得到改善。通过这些技术,游戏系统能够分析并学习人类行为,从而提供更接近人类互动的体验。这不仅增强了游戏的真实感和玩家的参与度,还为在复杂且可控的环境中探索和理解人机互动提供了新的平台。
12.1.3 基于 Agent 的游戏分析
游戏已成为我们日常生活的重要组成部分,全球约一半的人口参与其中,并且对心理健康产生了积极影响。然而,当前的游戏系统在与玩家互动方面存在局限性,NPC 的行为主要依赖于游戏开发者预设的脚本,这些脚本化的行为往往难以适应玩家的多样化需求。因此,游戏领域亟需引入新的 AI系统,以分析玩家行为并在必要时提供适当的支持。智能交互系统有潜力彻底改变玩家与游戏系统的互动方式,从而提升整体游戏体验。

LLM 可以作为分析游戏内文本数据(包括聊天记录、玩家反馈和叙述内容)的强大工具。它们能够识别玩家的行为、偏好和互动模式,这对游戏开发人员改进游戏机制和叙事内容具有重要价值。此外,VLM 能够解析游戏会话中的大量图像和视频数据,帮助分析用户在游戏世界中的意图和行为。同时,LLM 和 VLM 还促进了 AI Agent 的开发,这些 Agent 能够以复杂且类人的方式与玩家及其他 Agent 进行交流,从而提升整体游戏体验。除了 LLM 和 VLM,用户的输入数据也为创建游戏 Agent 提供了丰富的可能性,通过模仿人类玩家来模拟感知、游戏行为和游戏理解。通过结合玩家互动与反馈、像素输入以及自然语言的规划与理解,Agent 模型可以不断改进游戏动态,推动游戏环境向更加以玩家为中心的方向发展。
12.1.4 游戏中的场景合成
场景合成是创建和增强沉浸式游戏体验的重要组成部分,它涉及自动或半自动地创建 3D 场景和环境。这个过程包括地形生成、物体摆放、光照效果和动态天气系统。
现代游戏中的大型开放世界环境,如果依赖手动设计,将非常耗时且成本高昂。自动地形生成技术,无论是程序化还是 AI 驱动,都能够显著减少手工劳动,快速生成复杂且逼真的景观。LLM 和 VLM 能够利用海量的网络数据制定规则,设计出既美观又不重复的景观。这些模型还确保生成素材在语义上的一致性和多样性。在场景中合理布置建筑物、植被等元素,对于提升沉浸感至关重要。
VLM 和 LLM 可以通过遵循预定义或学习的规则与美学原则,辅助对象放置,从而加速关卡设计过程。它们还可以进一步训练,以理解设计和美学的基本原理,帮助进行程序化内容生成。这些模型能够帮助制定程序算法遵循的规则或指导方针,以生成既具视觉吸引力又符合情境适用性的对象和场景。
逼真的光照和气氛效果对于创建可信且吸引人的游戏环境至关重要。高级算法能够模拟自然光照条件和动态天气效果,增强场景的真实感和氛围。LLM 可以帮助开发系统,从多个创新角度实现更逼真的光照和气氛效果。VLM 则能够分析大量真实世界的光照和大气条件数据集,以帮助开发更为真实的算法,从而在游戏中有效模拟这些效果。通过理解自然光照和天气的模式与细微之处,这些模型可以推动模拟逼真效果算法的开发。此外,LLM 和 VLM 还可以用于开发实时调整光照和气氛效果的系统,基于玩家的行为、游戏状态或外部输入进行动态调整,从而提供更具互动性和沉浸感的体验。
12.1.5 实验与结果
使用 LLM 或 VLM 的零样本/少样本学习技术。如图 8 和图 9 所示,我们使用 GPT-4V 进行了高级描述和动作预测。图 8 展示了一些使用 GPT-4V 生成和编辑动作描述的实例。增强文本生成提供了一种全新的方法,通过利用游戏动作数据来创建3D场景,使得场景看起来更加真实自然。因此,GPT-4V 能够为游戏视频生成与内容高度相关的高级描述,确保描述的准确性和适当性。

小型 Agent 预训练模型。我们通过在 Minecraft 数据上进行预训练,展示了我们的视觉-语言架构在游戏 Agent 中的应用。如图 7 所示,输入包括动作 Agent 、视频关键帧和文本,通过编码器-解码器转换为动作文本和图像块标记,最终由 Agent -视觉-语言解码器生成预测句子。整体架构如图 7 所示。我们通过多个 Minecraft 示例评估了此方法。Minecraft 视频数据包含 5 分钟的剪辑,预训练数据包括 78,000 个视频,我们从中选取了 5,000 个视频(占 6%)进行第一轮预训练。在一个拥有 2.5 亿参数的模型上,我们在 16 个 NVIDIA V100 GPU 上进行了为期一天的训练。图 10 和图 11 展示了模型的输出结果。图 10 显示,即使在训练中未见过的 Minecraft 场景,我们的模型也能生成合理的输出。图 11 则对比了模型的预测与人类玩家的真实操作,显示出该小型 Agent 模型理解游戏操作的潜力。

多 Agent 基础设施。如图 5 所示,我们为名为“CuisineWorld”(Gong et al., 2023a)的新游戏场景设计了一种新型多 Agent 基础设施。具体方法见图 12。

该基础设施利用 GPT-4 作为中央规划器,实现了多游戏领域的多 Agent 协作。我们对系统的多 Agent 规划能力进行了研究,并将该基础设施部署到真实视频游戏中,以验证其在多 Agent 和人机协作方面的有效性。此外,我们还推出了“CuisineWorld”,这是一个基于文本的多 Agent 协作基准,并引入了自动协作评分(CoS)来衡量协作效率。
12.2 机器人
机器人是典型的需要与环境进行有效交互的 Agent。本节将探讨实现高效机器人操作的关键要素,回顾应用了最新LLM/VLM 技术的研究,并分享我们最新的研究发现。
视觉运动控制。视觉运动控制是机器人技术中将视觉感知与运动操作结合的关键领域,使机器人能够根据视觉数据调整动作,以精确地与环境互动。这项技术对于机器人理解视觉信息并据此调整动作至关重要。例如,在装配线上,机器人可以利用视觉运动控制识别物体的位置和方向,从而精确操作机械臂进行互动。这种能力确保了机器人在多种应用场景中的操作精确性和有效性,包括工业自动化和辅助老年人日常生活。此外,视觉运动控制还赋予机器人适应动态环境的能力,使其能够在环境快速变化时,根据视觉反馈实时调整动作。
此外,在安全操作方面,视觉信息对于检测执行错误以及确认每个机器人动作的前置和后置条件至关重要。在不受控制的环境中,如家庭环境,机器人可能会遇到家具形状变化、光照变化和物体滑动等不可预测因素,从而导致意外结果。在这种情况下,单纯依赖预先规划的前馈动作计划可能会带来一定风险。因此,通过视觉反馈在每个步骤持续验证结果,是确保机器人系统稳健和可靠运行的关键。
基于语言的条件操作。基于语言的条件操作是指机器人系统能够理解并执行基于语言指令的任务。这种能力对于创建直观、用户友好的人机交互界面至关重要。用户可以通过自然语言指令,以类似于人与人之间交流的方式,为机器人指定目标和任务,从而简化操作机器人系统的复杂性。例如,用户可以说“从桌子上拿起那个红苹果”,机器人需要解析该指令,识别目标物体,并执行相应的动作(Wake 等人,2023 年)。开发能够准确解读从直接命令到更抽象指令的自然语言处理和理解算法,并将这些指令转换为可执行任务,是该领域的核心挑战。此外,确保机器人能够将这些指令泛化应用于不同任务和环境,对于提高其在现实世界中的多功能性和实用性至关重要。在任务和运动规划(TAMP)框架中,使用语言输入来指导机器人任务规划已引起研究者的关注(Garrett 等人,2021 年)。
技能优化。最新研究表明,LLM 在机器人任务规划中效率很高。然而,要完美执行任务,尤其是那些涉及物理交互的任务,如抓取,机器人需要对环境有更深入的理解,这超越了单纯解读人类指令的范围。例如,在执行抓取任务时,机器人需要精确的接触点(Wake 等人,2023 年)和手臂姿势(Sasabuchi 等人,2021 年),以确保后续操作的高效性。
尽管海量的 VLM 取得了显著进展,但从场景中捕捉微妙线索并将其有效转化为机器人技能仍然是一个挑战。为了解决这一问题,机器人领域越来越重视数据集的收集(如 Wang 等人,2023 年;Padalkar 等人,2023 年),并开发直接从人类示范中获取技能的方法(Wake 等人,2021 年)。学习示范(Learning-from-Demonstration)和模仿学习(Imitation Learning)框架在优化物理技能方面发挥着关键作用。
12.2.1 用于机器人领域的 LLM/VLM Agent
最新研究揭示了 LLM/VLM 在帮助机器人与人类环境互动方面的潜力。以下是一些旨在利用最新 LLM/VLM 技术的研究主题:
多模态系统。最近的研究致力于开发整合最新的 LLM 和 VLM 技术的端到端系统。这些系统通过调整基础模型来处理多模态信息(Jiang 等人,2022;Brohan 等人,2023;Li 等人,2023d;Ahn等人,2022b;Shah 等人,2023b;Li 等人,2023e)。其目的是使机器人能够根据语言指令和视觉提示进行动作,从而实现高效的智能操作。
任务规划与技能训练。与端到端系统不同,任务和运动规划(TAMP)系统首先制定高级任务计划,然后通过低级别机器人控制(技能)来执行这些计划。LLM 卓越的语言处理能力使得指令解析并分解机器人动作步骤成为可能,极大地推动了任务规划技术的发展(Ni 等人,2023;Li 等人,2023b;Parakh 等人,2023;Wake 等人,2023c)。在技能训练方面,已有研究探讨了使用 LLM/VLM 设计奖励函数(Yu 等人,2023a;Katara 等人,2023;Ma 等人,2023)、生成数据以支持策略学习(Kumar 等人,2023;Du 等人,2023),或将其作为奖励函数的一部分(Sontakke 等人,2023)。结合强化学习(RL)和模仿学习(IL)等训练框架,这些研究有助于开发高效的机器人控制器。
现场优化。由于环境条件的不可预见性,机器人在执行长任务时可能面临一定困难。因此,机器人领域的一个重要挑战是将任务规划与实时环境数据相结合,以动态调整和改进机器人的技能。例如,Ahn等人(2022b)提出了一种方法,通过视觉信息评估动作的可行性,并将其与计划任务进行比较。同时,还有研究致力于使 LLM 输出任务步骤的前提条件和后置条件(如对象状态及其相互关系),以优化执行过程(Zhou 等人,2023c),并检测前提条件错误,从而修订任务计划(Raman 等人,2023)。这些策略的目标是通过整合环境信息,在任务规划或控制器层面调整机器人的动作,实现基于环境适应性的机器人执行。
对话 Agent。在创建对话机器人时,LLM 能够帮助实现与人类的自然对话和上下文相关的交流(Ye 等人,2023a;Wake 等人,2023f)。这些模型能够处理和生成类似人类的对话,使机器人能够进行有意义的交流。此外,LLM 在评估话语的概念(Hensel 等人,2023;Teshima 等人,2022)和情感属性(Zhao 等人,2023;Yang 等人,2023b;Wake 等人,2023d)方面也发挥了重要作用。这些属性有助于理解人类意图并生成合适的回应,从而增强人机交流的自然度和有效性。
导航 Agent。机器人导航领域拥有悠久的历史,研究重点包括基于地图的路径规划和同步定位与地图构建(SLAM),以绘制环境地图。这些技术已成为机器人操作系统(ROS)等广泛使用的中间件的标准功能(Guimarães 等人,2016)。
尽管许多机器人应用仍在使用传统导航技术,这些技术通常依赖静态或预制的地图,但最近对在更具挑战性环境中应用先进技术进行机器人导航的关注日益增加。这些技术利用了计算机视觉和自然语言处理的最新突破。一个典型的任务是对象导航(Chaplot 等人,2020a;Batra 等人,2020;Gervet 等人,2023;Ramakrishnan 等人,2022;Zhang 等人,2021),机器人通过对象名称而非地图坐标进行导航,这要求将对象名称与环境中的视觉信息相匹配。此外,零样本对象导航(zero-shot object navigation)技术也越来越受到关注,这种技术基于基础模型,使机器人能够在完全陌生的新环境中进行导航(Gadre 等人,2023;Dorbala 等人,2023;Cai 等人,2023)。视觉语言导航(VLN)是另一个代表性任务,它要求机器人根据自然语言指令在未见过的现实环境中引导 Agent 进行导航(Shah 等人,2023a;Zhou 等人,2023a;Dorbala 等人,2022;Liang等人,2023;Huang 等人,2023b)。与对象导航不同,VLN解析的是整个句子,例如“去你左边的浴室。”因此,它需要更高级的功能来理解输入文本(Wang 等人,2019)。
基础模型的发展促进了这些自适应强、即时导航技术的进步,它们增强了对人类语言指令的理解以及对环境信息的视觉解读能力。更多关于 VLN 研究的细节可以在 6.2.2 节中找到。
12.2.2 实验与结果
大量证据表明,近期的 VLM 和 LLM 在符号任务规划方面展现出巨大潜力,能够帮助机器人理解“要做什么”。然而,要实现与环境的有效互动,还需要具体的低级控制策略来指导“如何做”。除了数据驱动的强化学习和模仿学习方法,直接从人类演示中学习策略的“观察学习”也是一种有前景的方法(Wake 等,2021a;Ikeuchi 等)。在本节中,我们介绍了一项研究,利用ChatGPT进行任务规划,并通过提供可供性信息来参数化任务计划,以实现更高效和精确的执行(见图 13)。

该流程包含两个主要模块:任务规划和参数化。在任务规划阶段,系统接收语言指令和工作环境描述,结合预定义的机器人动作和输出规格,形成综合提示供 ChatGPT 处理。ChatGPT 将生成一系列分解的任务及相应的文本描述(见图 13 左侧面板)。值得注意的是,我们采用了少样本方法,这意味着 ChatGPT 无需专门针对特定任务进行训练,从而避免了对硬件依赖的数据采集和模型训练。此外,输出的文本描述还允许用户检查并调整结果,这对于确保操作的安全性和可靠性至关重要。图 14 展示了在 VirtualHome(Puig 等,2018)平台上进行的 Agent 模拟实验的定性结果。这些结果显示了任务计划的合理性和输出调整的灵活性,证明了该方法的广泛适用性。

尽管任务规划确保了任务序列的连贯性,但在实际操作中仍需详细的参数。例如,抓取类型对于保持容器内容不洒出至关重要,而这类参数在模拟器中通常被忽略(见图 14 中的派抓取示例)。因此,在我们的机器人系统中,用户需要对每个动作进行视觉演示(见图 13 右侧面板)。任务中预定义了执行所需的参数,视觉系统则从视频中提取这些参数(Wake 等,2021b)。值得注意的是,我们的机器人系统并非旨在精确复制人类的动作(即远程操作),而是为了应对现实世界中对象位置变化等各种情况。因此,从人类演示中提取的参数不仅包括精确的运动路径,还包括指导有效环境交互的可供性信息,例如碰撞规避的路径点(Wake 等,2023a)、抓取类型(Wake 等,2023e)以及上肢姿态(Sasabuchi 等,2021;Wake 等,2021a)。上肢姿态对于高自由度的机器人至关重要,因为它为周围的人提供了可预测的姿态。带有可供性的任务序列转化为通过强化学习获得的可复用机器人技能,并由机器人执行(Takamatsu 等,2022)。
通过 VLM,基于 LLM 的任务规划可以扩展到更广泛的机器人系统应用。以下是一个示例,使用 GPT-4V(视觉版)来增强任务规划器,使其能够处理多模态输入(见图 15)。人类的动作演示旨在被机器人复制执行。
在这个过程中,系统接收演示视频和文本指令,并输出一系列机器人动作。视觉分析器负责理解视频中人类执行的动作,而 GPT-4V 则根据提供的提示生成类似人类沟通风格的文本指令。图 16 展示了用户如何通过文本输入对 GPT-4V 的识别结果进行反馈,以修正识别结果的准确性,从而增强操作的可靠性。


场景分析器根据指令和视频数据的首帧(或环境图像)将预期的工作环境编译成文本信息。此环境信息包括 GPT-4V 识别的对象名称列表、对象的可抓取特性以及对象之间的空间关系。尽管 GPT-4V 的计算过程是一个黑箱,其输出的信息仍基于GPT-4V的知识和图像/文本输入。图17 展示了场景分析器的示例输出。如图所示,当人类将罐头容器放置在桌上时,GPT-4V 成功识别了与操作相关的对象(如桌子);而在冰箱开启任务中则忽略了桌子。这些结果表明,场景分析器根据人类的动作对场景信息进行编码(Wake et al., 2023c)。

面向机器人导航的具身 Agent 旨在让具身机器人根据自然语言指令在真实的 3D 环境中进行导航。在 3D 环境中进行导航(Zhu 等,2017a;Mirowski 等,2016;Mousavian 等,2018;Hemachandra 等,2015)对于移动智能系统至关重要,因为它们需要这一技能来在现实世界中完成任务。在过去几年中,许多相关任务和评估方法被提出(Savva 等,2017;Kolve 等,2017;Song 等,2017;Xia 等,2018;Anderson 等,2018a),并得到了汇总(Anderson 等,2018b)。VLN 特别关注在真实三维环境中指导机器人根据语言指令进行导航(Anderson 等,2018a)。为了解决 VLN 任务,Anderson 等(2018a)开发了一个基于注意力机制的序列到序列基准模型。随后,Wang 等(2018)提出了一种混合方法,融合了无模型和基于模型的强化学习(RL),以提高模型的泛化能力。最后,Fried 等(2018)推出了“说者-跟随者”模型,该模型通过数据增强、全景动作空间和改进的束搜索实现VLN,并在Room-to-Room数据集上达到了最佳性能。在之前的研究基础上,我们在Wang 等(2019)中提出了用于VLN的强化跨模态匹配(RCM)方法。尽管RCM模型基于Fried 等(2018)的模型,但在几个关键点上有明显区别:(1)RCM采用了一种新的多重奖励强化学习与模仿学习相结合的方法,而“说者-跟随者”模型(Fried 等,2018)仅依赖于监督学习(与Anderson 等,2018a相同);(2)RCM推理导航器执行跨模态的场景理解,而不仅仅在单一模态输入上使用时间注意力机制;(3)RCM 匹配评估器在架构设计上与“说者”类似,但前者用于在RL和自监督学习(SIL)训练中提供循环重建内在奖励,而后者用于增强监督学习的训练数据。在Wang 等(2019)的研究中,我们针对 VLN 任务进行了三个关键挑战:跨模态的场景理解、不良反馈以及泛化问题。我们设计了一种新的强化跨模态匹配(RCM)方法,该方法利用强化学习加强局部和全局范围内的跨模态匹配,如图 18 所示。具体来说,我们的 RCM 方法包括两个关键组件:匹配评估器,它提供内在奖励,鼓励指令和轨迹之间的全局匹配,帮助模型整体理解任务指令和导航路径之间的关系;推理导航器,它在局部视觉场景中执行跨模态的场景理解,即在具体的视觉环境中实现对指令的理解。我们的 RCM 模型在 VLN 基准测试中,成功路径长度(SPL)指标比之前的方法提高了 10%,创造了新的最高纪录。为了增强模型的泛化能力,我们引入了自监督模仿学习(SIL)技术,使模型通过学习过去的成功经验来探索新环境。结果显示,SIL 能够发现更优策略,有效减少在熟悉和陌生环境中的性能差异,将成功率差距从 30.7% 降低至 11.7%。此外,在 Wang 等(2019)的研究中,我们采用自监督模仿学习探索未知环境,以解决泛化问题,这是之前研究中未得到充分探讨的领域。同时,Thomason 等(2018)、Ke 等(2019)和 Ma 等(2019a, b)从多个方面研究了VLN任务。Nguyen 等(2018)提出了VLN的一个变体,允许在寻找对象时请求语言帮助。值得注意的是,我们是首个在 VLN 任务中探索未知环境的研究。

12.3 医疗保健领域
在医疗保健领域,LLM 和 VLM 能够扮演诊断助手、护理辅助甚至辅助治疗的角色,但它们也带来了特殊的挑战和责任。AI Agent 在提升患者护理和挽救生命方面具有巨大潜力,然而,如果使用不当或急于部署,也可能危及成千上万人的安全。我们将探讨 AI Agent 在医疗保健中的潜在应用,并讨论所面临的主要挑战。
诊断 Agent。近年来,LLM 在医疗聊天机器人领域的应用引起了广泛关注,特别是在患者诊断方面。这些模型具有帮助进行分诊和诊断的潜力,尤其是在医学专家需求高的情况下。对话 Agent,特别是那些能够有效传达医疗信息给不同患者群体的 Agent,能够为边缘化群体提供更公平的医疗服务。全球范围内,医生和医疗系统普遍面临超负荷和资源不足的问题,导致数亿人无法获得足够的医疗服务。诊断 Agent 为改善数百万人医疗健康提供了机会,因为它们能够理解多种语言、文化和健康状况。初步研究表明,可以利用大规模网络数据训练具备医疗知识的LLMs。然而,诊断 Agent 的应用也伴随着风险,特别是在医疗环境中可能出现“幻觉”现象,即错误信息的风险。我们将在下文重点讨论医疗环境中“幻觉”现象的风险及其潜在解决方案。
知识检索 Agent。在医疗领域,模型的“幻觉”现象尤其危险,可能导致患者受伤或死亡。例如,如果模型错误地告知患者他们没有某种疾病,可能会导致治疗延误或不当,甚至完全忽视必要的医疗措施。这类错误诊断可能增加医疗费用、延长治疗时间、加重身体负担,严重时甚至造成重伤或死亡。因此,使用能够可靠检索知识的 Agent (Peng 等,2023)或基于检索生成文本的 Agent (Guu 等,2020)被视为一个有前景的解决方案。将诊断 Agent 与医疗知识检索 Agent 结合,可以显著减少错误信息,同时提升诊断对话 Agent 的回复质量和准确性。
远程医疗和远程监控。基于 Agent 的AI在远程医疗和远程监控领域展现出巨大潜力,能够改善医疗服务的获取,提高医护人员与患者之间的沟通效率,并降低频繁医患互动的成本。初级保健医生常常需要花费大量时间筛选患者信息、报告和邮件,而 Agent 的支持可以帮助分诊这些信息,并突出显示对所有相关方都重要的内容。通过智能AI系统协调患者、医生和其他 Agent,我们有望彻底变革远程医疗和数字健康行业。
12.3.1 当前医疗能力
图像理解。我们展示了像 GPT-4V 这样的现代多模态 Agent 在医疗保健领域的能力与局限(如图 19 所示)。可以看出,该 Agent 对医院设备和流程有深入的了解,但在对用户特定诊断问题提供精确答案方面并不总是成功。

视频理解。我们分析了 VLM Agent 在医学视频理解中的两个应用场景。首先,我们考察了 VLM Agent 识别临床环境中关键患者护理活动的能力。其次,我们研究了VLM Agent 在处理技术性更强的医学视频(如超声视频)时的表现。根据图 20 的展示,GPT-4V 在医院护理和医学视频分析方面展现出了一定的能力,但也存在局限性。


12.4 多模态 Agent
整合视觉和语言理解对于开发先进的多模态 AI Agent 至关重要,涵盖图像描述、视觉问答、视频语言生成和视频理解等任务。我们专注于深入研究视觉-语言任务,并探索它们在 AI Agent 中的应用前景及所面临的挑战。
12.4.1 图像-语言理解与生成
图像-语言理解任务使 AI Agent 能够用语言描述图像内容,并生成相应的文字描述,这对于打造更贴近人类交流方式的 AI Agent 至关重要。这项任务包括以下几个常见领域:图像描述(Lin 等,2014;Sharma 等,2018;Young 等,2014;Krishna 等,2016)、指称表达(Yu 等,2016;Karpathy 等,2014)和视觉问答(Antol 等,2015;Ren 等,2015;Singh 等,2019)。
最近,知识密集型视觉问答任务(如 OKVQA、KBVQA、FVQA 和 WebQA)引起了广泛关注。这类任务要求多模态 Agent 具备以下能力:识别图像中的物体,理解它们的空间关系,生成准确的场景描述,并通过推理处理复杂的视觉问题。这不仅需要精准的物体识别,还需深刻理解空间关系和视觉语义,同时将视觉信息与世界知识相结合,并以语言形式进行表达。
12.4.2 视频和语言的理解与生成
视频语言生成。视频字幕生成或叙事是一项将视频帧序列转化为连贯句子的任务。借助循环大型基础模型在视频和语言任务中的广泛应用,Agent 增强模型在视频语言生成方面表现出色。然而,这一任务的主要挑战在于,神经编码-解码模型的强大性能难以适用于视觉叙事任务,因为这需要对每帧内容及其帧间关系进行全面理解。该领域的核心目标是开发一种能够高效编码帧序列并生成主题连贯的多段文本的 Agent 感知合成模型。
视频理解。视频理解将图像理解扩展到动态视觉内容,涵盖对视频帧序列的解读和推理,并常结合音频或文本信息。Agent 需要能够与视觉、文本和音频进行多模态互动,展现对视频内容的深度理解。该领域的核心任务包括视频字幕生成、视频问答和活动识别。视频理解面临诸多挑战,如视觉与语言内容的时间对齐、长帧序列处理,以及对随时间展开的复杂活动的解析。此外,音频信息也至关重要,Agent 需要处理口头语言、背景噪音、音乐及语音语气,以准确把握视频的情绪、背景和细微含义。
以往的研究主要依赖现有的在线视频语言数据集来构建视频基础模型。然而,这些数据集通常有限且不一致,导致支持训练流程和功能的难度增加。视频基础模型通过掩码和对比预训练目标进行设计,并在后续任务中进行微调。尽管在多模态基准测试中取得了优异成果,这些模型在仅限视频的任务(如动作识别)中表现不佳,原因在于它们依赖的视频-文本数据通常是从嘈杂的音频转录中提取的。这一局限性使得模型缺乏大型语言模型的稳健性和细粒度推理能力。
类似于图像-语言理解的方法,许多研究借鉴了大型语言模型的推理能力和广泛知识,以改进视频解读。像 ChatGPT、GPT-4 以及 GPT-4V 这样的图像-语言模型,通过将音频、视频和语言模态视为独立的可解释输入,简化了视频理解任务。例如,Huang 等人(2023c)和Li 等人(2023g)利用开源视觉分类、检测和描述模型将视频内容转化为文本,从而将视频理解任务转化为自然语言处理中的问答格式。Lin 等人(2023)则结合了 GPT-4V 与视觉、音频和语音工具,提升了复杂视频理解任务的能力,例如为长视频中的角色动作和行为编写脚本。
并行研究探索了通过大型模型生成扩展数据集,并在此基础上进行视觉指令微调。随后,音频、语音和视觉感知专家模型被用于将视频转化为语言。语音通过自动语音识别工具进行转录,而视频描述和相关数据则通过标记、定位和字幕模型生成。这些技术表明,在生成数据集上对视频语言模型进行微调,可以有效提升其视频推理能力。
12.4.3 实验与结果
- 知识密集型模型:如 INK(Park 等人,2022)和 KAT(Gui 等人,2022a),结合了人工注释的知识,以支持复杂的知识检索任务。
- 多模态 Agent :比如 Chameleon(Lu 等人,2023)和 MM-React(Yang 等人,2023c)正受到越来越多的关注。
- 视觉指令微调:VCL(Gui 等人,2022b)、Mini-GPT4(Zhu 等人,2023)、MPLUG-OWL(Ye 等人,2023b)、LSKD(Park 等人,2023c)生成图像级别的指令微调数据集。
知识密集型 Agent。如图 22 和图 23 所示,基于知识的视觉问答和视觉-语言检索任务是多模态机器学习中的一大挑战,要求系统超越图像内容,结合外部知识。近年来,关于大型 Transformer 的研究主要集中在通过优化模型参数提升信息存储效率,而另一类研究则探讨了多模态 Transformer 能否在决策过程中使用显性知识。基于 Transformer 的预训练方法在多模态知识表示的隐性学习上取得了显著成功,但传统方法通常是单模态的,侧重于知识检索和答案预测。这带来了关于检索知识质量和相关性的问题,同时如何将隐性与显性知识结合进行推理仍是一个挑战。为了解决这些问题,我们提出了知识增强 Transformer (KAT),该模型在 2022 年 OK-VQA 开放领域多模态任务中比其他方法提升了 6% 的性能。KAT 结合了来自 GPT-3 的隐性知识和来自网站的显性知识,采用编码器-解码器结构,支持在答案生成过程中并行使用这两种知识类型进行推理。此外,整合显性知识还提升了模型预测的可解释性。
视觉-语言 Transformer Agent。接下来,我们将介绍一种名为“从标题中训练视觉-语言 Transformer”(VLC)的模型,该模型通过图像和标题对进行预训练。尽管 VLC 仅使用简单的线性投影层处理图像,但在多个视觉-语言任务中表现优异,超越了依赖对象检测器或监督 CNN/ViT 网络的方法。



我们深入分析了 VLC 作为视觉-语言 Transformer 的潜力,发现其视觉表示在 ImageNet-1K 分类任务中表现出色,并且能够准确地将图像区域与文本标记匹配。随着训练数据的增加,VLC 的可扩展性显示了开发大规模、弱监督、开放领域视觉-语言模型的可能性。
12.5 视频-语言实验
为了测试预训练的 LLM 在视频理解任务中的有效性,我们对 InstructBLIP 进行了时间扩展和微调,以适应视频字幕生成。我们采用了与“Frozen in Time”相同的空间-时间注意力机制,并扩展了 InstructBLIP 的视觉编码器。在训练过程中,我们保持了 Q-former 和 LLM(Flan-T5-XL)不变,同时冻结了视觉编码器的空间层,但保留了时间层的可训练状态,以便模型能够处理图像和视频输入,同时保持在图像任务上的性能。我们使用 WebVid10M 的 500 万视频-字幕对进行训练,图 25 展示了两个示例输出。尽管如此,现有模型在精确捕捉视频内容的细节和视觉信息方面仍存在局限。视觉指令微调方法也面临类似的挑战,缺乏接近人类水平的通用感知能力,这需要通过多模态模型和智能 Agent 进一步研究和解决。
指令微调模型在总结视频中的动作和识别基本活动(如“人坐在长凳上”)方面展现了潜力,但有时也会添加错误细节,例如“人对着镜头微笑”,这表明模型在捕捉视频的对话主题或氛围方面存在不足。对于人类观察者来说,这些错误通常是显而易见的。这一缺陷揭示了模型的一个关键限制:缺少音频和语音信息,而这些信息能够提供更多上下文,帮助更准确地理解视频内容,避免误解。为了解决这一问题,必须整合所有可用模态,使多模态智能 Agent 能够实现接近人类感知的理解水平,从而确保视频解读的全面性和准确性。



音视频语言智能 Agent 与GPT-4V。我们将 GPT-4V 作为多模态智能 Agent 进行评估,结合视觉、音频和语音,以实现对视频的细致和准确理解,参考了 Lin 等人(2023)的方法。图 26 展示了不同视频智能 Agent 在视频总结任务中的表现。经过视频指令微调的模型(Li 等人,2023g)在内容准确性上表现良好,但在全面性和细节方面仍存在不足,遗漏了一些具体动作,例如用扫帚测量树高的步骤。
为了提高视频描述的准确性,我们采用了 GPT-4V 为视频的每一帧生成标题,并利用 OpenAI 的 Whisper 模型获取音频及其转录文本。我们首先仅使用帧标题来提示 GPT-4V 生成视频总结,然后再结合帧标题和音频转录来生成总结。我们发现,当仅使用帧标题时,模型可能会引入虚构的情节,例如错误地描述“咬住棍子”的场景。这种错误会持续影响视频总结的准确性,导致描述在视觉上具有误导性,尽管在语义上可能是正确的。
然而,当我们向模型提供音频转录后,情况显著改善。GPT-4V 不仅能够准确描绘视频内容,甚至能够捕捉到详细的物理动作,例如“将扫帚垂直于身体握住,并向下旋转”。这种细节的捕捉极大地增强了信息量,使观众能够更清晰地理解视频的意图和关键细节。这些发现强调了音频、视频和语言交互在开发高质量多模态智能 Agent 中的重要性,并证明了 GPT-4V 作为实现高级多模态理解和交互的有前景的基础。
具身多模态 Agent 与 GPT-4V。如图 27 所示,我们采用结合具身多模态智能 Agent 和GPT-4V的技术来处理视频问答任务。首先,我们从 StackOverflow 获取问题,并利用“Bing搜索”API 找到相关视频和音频。接着,GPT-4V 提取文本信息并生成视频的高层次描述,同时将关键帧的音频通过 ASR 技术转化为文本片段。最终,我们利用 GPT-4V 创建视频问答中的有效回答,支持视频帧内的交互问答,并提供视频内容的总结。在推理过程中,我们整合外部知识,通过网络搜索提高回答的准确性和深度。
GPT-4V 的主提示信息描述很长,超过了一页,并且为了阅读方便,内容已经进行了缩进处理。
GPT-4V 旨在为无法观看视频的视障人士提供详尽的视频内容描述。其任务是将注释综合成 JSON 格式的高质量、详细的描述。GPT-4V 接收原始查询、视频标题、描述、音频转录以及特定时间点的噪声描述。视频片段以“[开始时间-结束时间] ‘文本’”格式标注。GPT-4V 将调整时间戳,以生成最佳的视频分段描述。
对 GPT-4V 输出的期望如下:
1.以行动为导向的描述:优先考虑音频所暗示的合理行动、动作和身体演示,用动态视觉线索丰富你的叙述。
2.完整的视频覆盖:提供连续一致的音频描述体验,涵盖视频持续时间的每个时刻,确保没有内容被遗漏。
3.简洁的分段:以集中、简洁的方式构建您的描述,每段由 1-2 个句子组成,以便有效地传达视觉动作,而不会出现过多的细节。
4.上下文音频-视觉合成:无缝融合口语音频内容与推断的视觉元素,形成反映潜在屏幕活动的叙事。
5.富有想象力和可信的推测:为您的描述注入富有创意但可信的视觉细节,与音频相对应,增强场景理解。
6.准确时间码对应:将您的描述段落与相应的时间码对齐,确保推测的视觉细节与音频叙述的时间线同步。
7.自信叙述传递:以自信的方式呈现描述,仿佛所推测的视觉正在发生,以增强听众的信心。
8.省略难以置信的细节:排除与所提供的音频和视频信息所建立的上下文不合理的对象或事件的描述。
最终输出应以 JSON 格式构建,其中包含一系列词典,每个词典详细介绍了视频的一个片段:
[{
“start”: <开始时间(秒)>,
“end”: <结束时间(秒)>,
“text”: “<详细的一句视听描述>”
}]
用于 MC 创建:我们的任务是为视频到文本检索任务创建多项选择题,这些任务可以通过查看标题和阅读音频转录轻松解决。为此,我们将获得原始查询以获取视频、描述、音频转录,以及可能在视频特定时间的嘈杂描述。
音频转录格式:-[开始-结束时间(秒)] “转录”
干扰描述的格式:- [时间(秒)] “description”
我们请求 GPT-4V 生成四个查询,其中主要查询应与视频内容一致,其他三个否定查询则与主要查询略有不同。选择主要查询时,不应仅依赖于音频转录的内容,例如原始查询文本可能包含在音频转录中。否定查询应与视频内容密切相关但不完全一致,需要对视频的视觉理解进行区分。例如,可以通过细致入微地修改语义,使得观众需要观看视频而不仅仅是聆听音频,以选择原始查询。在类似标题的语句中编写四个查询,第一个查询为改写后的原始查询。
逐步思考如何使用视频中的信息提出负面陈述,并证明这些负面查询是不正确的,但仍然令人信服的选择。这需要对视频进行细致入微的理解,以确保人类不会意外地选择否定结果而不是原始查询。通过分析视频内容,能够识别出哪些信息是与主要查询相悖的,同时保持查询的合理性和可信度。
最后,我们以以下分析和 4 个查询的格式呈现工作。无需生成您如何翻译原始查询的内容。
• 视频分析:xxx
• 查询:[查询 1、查询 2、查询 3、查询 4]
• 理由:xxx
12.6 NLP Agent
12.6.1 LLM agent
多年来,识别任务指令并执行一直是交互式AI和自然语言处理的核心挑战。随着深度学习的进步,越来越多的研究者开始关注将这两个领域结合起来,以提升人机协作的效率。我们确定了三个研究方向,专注于改进基于语言的智能 Agent,包括:
工具使用和知识库查询。这一方向强调了将外部知识库、网络搜索或其他有用工具集成到 AI Agent 的推理过程中的重要性。通过利用来自各种来源的结构化和非结构化数据,Agent 可以增强其理解能力,并提供更准确且具上下文感知的响应。此外,这种集成还培养了 Agent 在遇到不熟悉的情况或查询时主动寻找信息的能力,确保其能够做出更全面、更明智的响应。相关示例包括 Toolformer(Schick 等人,2023)和Retrieve What You Need(Wang 等人,2023)。
改进 Agent 推理和规划。增强 Agent 的推理和计划能力对于有效的人机协作至关重要。这需要开发能够理解复杂指令、推断用户意图并预测未来情境的模型。例如,可以通过要求 Agent 反思过去的行为和失败(如ReAct方法,Yao 等人,2023a),或通过将 Agent 的思维过程构建为搜索形式(如Yao 等人,2023b)。通过模拟不同结果并评估各种行动的后果,Agent 能够做出更明智且具上下文感知的决策。
整合系统和人工反馈。AI Agent 通常在两种主要环境中运行:一种是提供明确操作有效性信号的环境(系统反馈),另一种是与能够提供口头批评的人类协作的环境(人类反馈)。这一方向强调了自适应学习机制的必要性,使 Agent 能够改进策略并纠正错误,如在 AutoGen 中所示(Wu 等人,2023)。通过不断学习和适应不同反馈来源,Agent 能够确保始终有效地提供帮助,满足用户需求。
12.6.2 通用 LLM Agent
识别和理解 Agent 内容及自然语言在交互式AI和自然语言处理领域一直是一个长期存在的挑战。随着深度学习技术的发展,这两个领域逐渐结合,以实现对 Agent 规划、人类反馈、知识推理和自然语言生成的更深入理解。这些组件对于许多人机交互 Agent 至关重要,例如“AutoGen”(Wu 等,2023)和“Retrieve What You Need”(Wang 等,2023g) 等应用。

12.6.3 指令跟随型 LLM Agent
指令跟随型 LLM Agent 的研究确实成为了一个热点领域,旨在训练能够有效遵循人类指令的 Agent。早期的模型通过人类反馈强化学习(RLHF)训练 Agent,以模拟人类偏好,产生了如 InstructGPT 和 ChatGPT 等模型。为了提高训练效率,研究人员开发了无需人工标签的指令调优方法,通过人工生成或 LLM 生成的指令/响应对来直接训练 LLM Agent,如 Dolly 2.0 和 Alpaca。图 28 展示了 Alpaca 的训练流程。
12.6.4 实验与结果
尽管 AI 在对话和自我反馈系统中的应用日益广泛,但在生成基于隐性知识的准确响应方面仍面临挑战。为了改善这一点,AI 系统在推理过程中引入了网络搜索和知识检索等外部工具。提升这一能力可以显著改善用户体验,尤其是在社交平台(如 Instagram 和 Facebook)和问答网站(如 Ask 和 Quora)上,用户通过评论互动并依赖网络搜索获取信息。因此,生成对话不仅需要传统的 NLP 模型,还需要具备知识搜索能力的智能 Agent。通过在对话中加入知识检索步骤,智能 Agent 拓展了 NLP 任务的范围,并提高了响应的可解释性。将搜索和检索功能整合到对话中,可以深化社交互动。如图 29 所示,我们提出了一种新的建模范式,能够从输入文本中识别并提取关键的逻辑结构,并通过多层逻辑投影将这些结构融入输入嵌入中。这种方法将逻辑结构引入预训练语言模型,从而创建了一种新的 NLP Agent。通过逻辑检测、逻辑映射和层次逻辑投影,我们构建了面向逻辑的输入嵌入,并开发了一种新的模型,将现有的 Transformer 语言模型升级为逻辑 Transformer,以提升性能。与基线 Transformer 模型相比,逻辑 Transformer 在理解文本逻辑结构方面表现更好,帮助 Agent 更有效地协调对话和信息检索,提供更有意义和有趣的交流体验。对于人类用户而言,通过 Agent 协调对话和信息检索来提供有意义且有趣的对话至关重要。本主题将深入探讨自然语言处理领域,讨论如何增强 LLM 的 Agent 性,以及它们在各种语言任务中的应用和性能排名。这包括研究 LLM 在理解和生成自然语言方面的最新进展,以及它们如何更好地适应特定语言任务,从而提升用户体验和任务效率。

开放领域问答(QA)系统普遍采用“检索-阅读”模式,其中检索器负责从大型语料库中提取相关段落,阅读器则根据这些段落和原始问题生成答案。Wang 等人(2023g)提出了一种新型互学习框架,通过引入名为知识选择器 Agent 的中间模块来提升“检索-阅读”模型的性能,并使用强化学习对其进行训练。知识选择器 Agent 的目标是在检索-阅读范式中构建一个包含问题相关信息的小段落集合,以优化模型的性能。图 30 展示了我们的创新互学习框架,核心是知识选择器 Agent,该 Agent 通过策略梯度优化方法,依据阅读器的反馈进行训练,以挑选出信息丰富的段落。这种方法省去了穷举搜索或手动设计的启发式方法,也不需要依赖带注释的查询-文档对进行监督学习。通过不断迭代训练阅读器和知识选择器 Agent,我们在多个开放领域问答基准测试中取得了更优的预测性能。

PART 13—— AI Agent 跨模态、跨领域与跨现实
13.1 跨模态理解 Agent
多模态理解是创建通用 AI Agent 的一个重大挑战,主要难点在于缺乏包含视觉、语言和 Agent 行为的大规模数据集。目前,AI Agent 的训练数据通常是单一模态的,这导致大多数现代多模态系统依赖于冻结的子模块组合来实现。例如,Flamingo(Alayrac 等,2022)、BLIP-2(Li 等,2023c)和 LLaVA(Liu 等,2023c)都使用了冻结的 LLM 和视觉编码器。这些子模块分别在不同的数据集上训练,然后通过训练适应层将视觉编码器嵌入到 LLM 的空间中。为了在 AI Agent 的跨模态理解上取得进一步进展,可能需要改变使用冻结 LLM 和视觉编码器的策略。最新的视觉语言模型 RT-2 就是一个例子,它通过联合调整视觉编码器和 LLM,在机器人和视觉语言任务中实现了显著的性能提升(Brohan 等,2023)。
13.2 跨领域理解 Agent
创建通用 AI Agent 的一个关键挑战是处理不同领域之间的视觉外观差异和动作空间差异。人类能够理解来自现实世界、视频游戏和机器人等不同领域的图像和视频,但现有的 LLM(大型语言模型)和 VLM(视觉语言模型)往往由于训练数据与应用领域之间的差异而表现不佳。开发能够有效学习多种控制系统的通用策略,并训练 Agent 模型以预测特定动作,是一个相当大的挑战。现代系统通常基于预训练的基础模型,在特定领域进行微调,训练出独立的模型。这种方式未能捕捉领域间的共性,限制了可用的训练数据量,导致无法充分利用每个领域的数据,从而影响模型的泛化能力。
7.3 跨模态与跨现实交互 Agent
开发 AI Agent 以理解并执行跨现实任务是一项挑战。尽管在图像和场景生成方面取得了进展(Huang 等,2023a),但 AI Agent 在同时处理现实世界和虚拟现实环境时仍面临难题,因为这两者在视觉和物理特性上存在显著差异。特别是在将模拟训练策略应用于现实数据时,从模拟到现实的转移问题变得尤为关键。该问题将在下节中详细讨论。
13.4 模拟到现实的转移
技术挑战在于让在模拟环境中训练的模型能够在现实世界中有效部署,尤其是对于基于强化学习的具身 Agent。这些 Agent 通常在模拟环境中进行训练,但模拟环境无法完全复制现实世界的物理特性,如干扰、光照和重力。因此,模型在从模拟环境转移到现实世界时常常表现不佳,这一现象被称为“模拟到现实”问题。为应对这一挑战,提出了几种解决方案:
- 领域随机化:该方法通过在模拟环境中随机变化参数(如物体外观、传感器噪声和光学属性),来应对现实世界的不确定性(Tobin 等,2017)。例如,在基于强化学习(RL)的抓取技能训练中,引入物体形状的随机性,帮助策略适应不同形状的物体(Saito 等,2022)。
- 领域适应:领域适应旨在减少模拟环境与现实环境之间的差距,通常通过在大量模拟图像和少量现实图像上训练来实现。由于跨领域配对图像难以获取,常用无配对图像翻译方法,如 CycleGAN(Zhu 等,2017b)。强化学习中,改进版本如 RL-CycleGAN(Rao 等,2020)和 RetinaGAN(Ho 等,2021),常用于模仿学习。
- 模拟改进:提高模拟的真实感是实现模拟到现实转移的关键。系统识别技术有助于调整模拟参数,使其更贴近现实环境(Zhu 等,2017c;Allevato 等,2020)。此外,使用照片级真实感的模拟器在基于图像的强化学习中也非常有效(Martinez-Gonzalez 等,2020;Müller 等,2018;Shah 等,2018;Sasabuchi 等,2023)。
模拟到现实的转移是具身 Agent 研究中的核心挑战,相关技术正在不断进步,理论和实验研究对其发展至关重要。
PART 14 —— Agent AI 的持续自我改进
目前,AI Agent 能够从多种数据源学习,这为训练提供了更大的灵活性。主要有两个结果:(1)用户和人类的互动数据可用于优化和提升 Agent;(2)现有的基础模型和模型成果可用于生成训练数据。这些内容将在后续进一步探讨。由于 AI Agent 主要依赖预训练的基础模型,它们通常无法通过与环境的持续互动来学习。然而,我们认为这是一个有前景的方向。Bousmalis 等人已经展示了通过环境互动实现无监督连续学习的初步成果(Bousmalis 等,2023)。
14.1 基于人类互动的数据
利用人类互动数据的核心思想是通过大量的人类与 Agent 的互动来训练和改进 Agent 的后续版本。以下是几种通过人类- Agent 互动来提升 Agent 的策略:
- 额外训练数据:最简单的方法是将人类与 Agent 互动的实例作为未来版本 Agent 的训练数据。这通常需要过滤策略来区分成功和失败的互动示例。过滤方法可以是基于规则的、基于模型的,或者通过事后检查和手动选择有效的互动示例。
- 人类偏好学习:在用户互动期间,Agent 系统可以展示不同的模型输出,让用户选择最合适的一个。这种方法常用于大型语言模型,用户可以从多个输出中选择最符合其偏好的答案。
- 安全训练(红队测试):在 Agent AI 中,红队测试是指组织一支专门的对抗团队(人或计算机),试图揭示和利用系统中的漏洞。尽管本质上具有对抗性,红队测试有助于了解如何改进 AI 的安全性,减少有害输出的风险。其核心原则是找到诱发不良输出的方式,以便通过明确的校正数据对模型进行训练。
14.2 基础模型生成的数据
随着学术界和工业界在基础模型领域取得显著成果,利用这些模型生成有意义的训练数据的方法也在不断增加。
- LLM 指令调优:通过利用大型语言模型生成的训练数据,我们可以微调较小的开源模型,使其更好地遵循指令(Wang 等,2022b)。例如,Alpaca(Taori 等,2023)和Vicuna(Zheng 等,2023)这两个模型是基于开源的 LLaMA 系列模型,并利用 ChatGPT 和人类提供的数据进行优化。这种指令调优类似于知识蒸馏,其中大型模型充当教师角色,帮助小型模型学习。尽管如此,教师模型和学生模型在事实准确性和能力上仍存在差异(Gudibande 等,2023)。
- 视觉-语言对:近期的多项研究致力于自动生成视觉内容的标题和文本,以丰富视觉语言模型的预训练数据。例如,LLaVA(Liu 等,2023c)项目利用了 15 万个由大型语言模型生成的文本和视觉指令。研究还发现,使用视觉语言模型为图像重新生成标题可以提高训练数据的质量,进而提升图像生成模型的表现(Segalis 等,2023)。在视频理解领域,通过视觉语言模型和大型语言模型为视频生成标题,能够提升基于这些数据训练的视觉语言模型的性能和质量(Wang 等,2023f;Zhao 等,2022)。
PART 15 —— Agent 数据集与排行榜
为了推动研究进展,我们建立了两个新基准,分别针对多 Agent 游戏和视觉语言任务。同时,我们将发布两个新数据集:“CuisineWorld”和“VideoAnalytica”,并提供基准模型。我们鼓励研究者开发新模型和系统,并在排行榜上提交测试结果。
15.1 CuisineWorld 数据集:多 Agent 游戏
CuisineWorld 是一个模拟《Overcooked!》的文本互动游戏,旨在为AI Agent 提供一个合作与协同的平台。该数据集旨在评估多 Agent 系统的协作效率,特别是它们在动态环境中的合作能力,重点测试 Agent 对目标的理解以及它们之间的协调能力。CuisineWorld 支持集中式和去中心化的调度模式,参与者可以选择不同的游戏模式,并在排行榜上提交他们的测试结果。
15.1.1 基准
在我们的竞赛中,将发布 CuisineWorld 基准,包含一个可扩展的任务定义文件、多 Agent 互动接口和人机互动接口。竞赛的目标是生成有效的多 Agent 协作策略,以提高协作效率。我们将采用新的评估指标 CoS 来衡量这一效率。
CuisineWorld 数据集由微软、加州大学洛杉矶分校和斯坦福大学共同收集。竞赛旨在测试基于 LLM 的现有和新型互动技术在这一基准上的表现,并为多 Agent 游戏基础设施任务建立一个强大的基准。
CuisineWorld 的数据集包括:
- 一系列定义明确的多 Agent 协作任务。
- 促进 Agent 互动的应用程序接口系统。
- 一个自动评估系统。
15.1.2 任务
我们发布了名为 Microsoft MindAgent 的数据集和相关基准,供研究社区使用。
我们提供了评估和排名提交的 MindAgent 算法的基准,并发布了由流行基础设施生成的基准结果。
15.1.3 评估标准和评分
多 Agent 协作效率的质量由新的自动评估指标 CoS 决定,该指标源自 MindAgent(Gong 等,2023a)。最终评分是基于多 Agent 系统在所有任务上评估的协作效率指标的平均值。除了自动评分外,人类评估者还会对单独的响应进行评分,并提供对用户与 Agent 互动的参与度、广度和总体质量的主观评价。
15.1.4 评估
自动评估:排行榜将在数据集发布日启动,具体日期待定。参与者需要在“CuisineWorld”任务上提交结果,提交截止日期也待定。每个团队必须提交在测试集上生成的结果,以便进行 CoS 指标的自动评估。
排行榜上的人工评估:排行榜参与者需要提交通过本地评估脚本生成的提交文件。我们将使用 evalAI 系统来检查提交文件,并可能对顶尖选手的代码进行重新运行。因此,团队还需要提交一个包含运行代码说明的 Readme 文件。人工评估将由组织团队完成。
获胜者公告:最终,排行榜上将公布获胜者及其评分。
15.2 音视频语言预训练数据集
我们推出了 VideoAnalytica,旨在通过视频演示深入理解长篇教学视频中的复杂推理。这一任务评估视频语言模型的认知推理能力,要求其超越简单的识别与理解,达到更深层次的视频解析。VideoAnalytica 整合了音频、视频和语言等多种模态,要求模型运用领域知识对视频信息进行上下文化的解读。该平台包括两个主要任务:
1.视频文本检索:模型需从教学视频中准确检索与查询相关的文本。挑战在于区分相关与无关信息,这要求模型深入理解视频内容,并分析演示内容以获取正确的答案。为增加难度,数据集中引入了由大型语言模型生成的难度较高的负例,并通过人工验证确保任务的公平性。
2.视频辅助的信息问答:模型需根据视频中的信息回答问题,尤其是那些涉及复杂推理和深入理解的题目。
为了推动音频视频语言 Agent 在视频理解分析领域的进步,我们从 VideoAnalytica 引入了两个任务的基准排行榜。
- 排行榜参与者需要提交解决方案以便进行评估:评估将基于模型在两项任务中的表现,最终结果将在排行榜上公布。参赛者还需提交代码,并详细说明其方法和手段。
- 伦理问题:视频内容理解技术可能用于监控或侵犯隐私。我们必须考虑其道德影响和潜在滥用。我们敦促参赛者在提交作品时考虑这些问题,并促进 AI的道德使用。
PART 16 —— 广泛影响声明
本文及相关论坛旨在推动创新研究,促进合作,推动下一波AI应用的浪潮。我们聚焦于多模态 Agent,探讨人机交互、排行榜和解决方案的未来发展方向。以下是我们为更广泛社区贡献的三种方式:
首先,我们旨在创建一个 AI 研究论坛,专注于解决实际问题,如游戏、机器人、医疗保健和长视频理解。例如,多模态 Agent 可提升游戏体验,推动游戏行业的创新。适应性机器人系统有望改变制造业和农业,缓解劳动力短缺并提高效率。在医疗领域,结合大型语言模型和视觉模型可提高诊断准确性、改善患者护理,并增加医疗服务的可及性。此外,这些模型在长视频理解方面的进展,将对在线学习和技术支持等领域产生积极影响。我们的论坛将对全球各行业和人类生活产生深远的影响。
其次,我们希望论坛能够成为 AI 从业者和研究人员的重要资源,提供一个平台深入探讨排行榜的多样性和复杂性,并理解在不同环境中部署 AI Agent 的挑战。例如,在医疗诊断等专业领域开发 AI 系统时,必须识别潜在风险和限制,如 AI 行为中的危险性幻觉问题,这凸显了精细设计和测试的重要性。然而,在游戏行业,排行榜可能不是主要关注点。开发人员通常更注重 AI 的开放式生成和动态适应能力,以应对不可预测的游戏场景和玩家互动。通过参与论坛,参与者将了解不同环境如何影响 AI 开发的重点,并学习如何定制 AI 解决方案以满足特定需求并应对排行榜挑战。
第三,我们的活动将包括专家演讲、信息海报和排行榜获胜者展示,旨在提供多模态 Agent 领域最新趋势、研究方向和创新概念的清晰概览。这些演讲将总结关键进展,展示新系统、理念和技术。无论是现场与会者还是通过论坛网站访问的用户,都能通过这些内容了解多模态 Agent AI 的未来发展和创新方向。我们的目标是成为新手和资深从业者的知识库,帮助他们紧跟多模态 Agent AI 的变革性进展,掌握这一领域的最新动态和创新路径。
PART 17 —— 伦理考量
多模态 Agent AI 系统的应用非常广泛,远超互动式 AI。这些基础模型能够推动内容生成、提高生产力、辅助回放、释义、动作预测,以及生成 3D 或 2D 场景。它们的进步对于理解如何在模拟或现实世界中创建具身且富有同理心的 AI 至关重要。
然而,这项技术也可能被滥用,AI 生成的内容可能会误导或欺骗人。因此,开发时必须遵循负责任的 AI 原则。例如,应该明确告知用户内容是 AI 生成的,并赋予用户对 AI 系统的控制权。此外,AI 还可以用于开发检测虚假信息的新方法,通过识别大型模型中的幻觉,帮助解决实际问题。
在医疗领域,使用 LLM 和 VLM 时,必须考虑伦理问题。如果 AI Agent 训练的数据存在偏见,可能会导致某些群体的诊断不准确,从而加剧健康不平等。同时,AI Agent 在处理患者数据时,也需注意隐私和保密问题。在游戏行业,AI Agent 可能会改变游戏开发者的工作,从编写代码转向优化 AI 学习。在制造业,适应性机器人系统可能会改变工作性质,推动对新技能的需求,而不仅仅是取代工人。负责任地应对这些变化,可以减少对社会经济的潜在影响。
此外,Agent AI 在模拟环境中学习合作策略时,直接应用于现实可能会因为环境差异而带来风险。因此,需要建立强大的测试和持续的安全监控机制,以减少不可预测行为的风险。我们的“VideoAnalytica”数据集来自互联网,已经通过了微软和华盛顿大学的伦理和法律审查,但仍可能存在偏差。数据分布可以通过多种方式进行描述。在研讨会中,我们展示了该数据集与其他数据集在 Agent 分布上的差异。然而,仅依赖一个数据集或研讨会是不够的。我们需要更多与实际任务或话题相关的研究方法和讨论,并提供这些数据或系统,以推动研究的发展。
我们计划在项目中专门讨论伦理问题,寻找解决方案,并部署负责任的多模态 AI Agent。我们希望通过这些讨论,促进研究人员共同解决这些问题。
PART 18 —— 多样性声明
我们将研究 AI Agent 模型在各领域的应用,并支持不同的排名、观点和解决方案。该项目的目标是探索多模态和 Agent AI 的多个主题,以建立一个多元化的社区。
秉持这些原则,本项目专注于开发能在物理和虚拟环境中高效互动的先进多模态系统,并促进人与 Agent 的有效沟通。我们计划邀请来自不同技术背景、文化、国家和学术领域的专家和从业者,包括但不限于:
基础模型的应用:开发能够处理多种模态(如音频、图像、文本和传感器输入)的 Agent,以提升其在各种应用场景中的识别和响应能力。
通用端到端系统:致力于通过大规模数据训练,创建多功能且适应性强的端到端 AI 解决方案。
模态整合方法:探索跨模态信息整合的方法,增强数据处理的连贯性和有效性。
直观的人机界面:促进人与 Agent 之间的有效互动,提升用户体验。
LLM/VLM 的优化:探索新方法解决大规模模型中的常见问题,如幻觉和偏见,优化 LLM 和 VLM。
我们的目标是通过汇聚不同和多元的视角,加深对 Agent 型 AI 潜力和局限的共同理解。我们相信,这种方法不仅能拓展个人视野,还能增强社区的集体智慧,促进更包容的全局观念,从而更有效地应对多模态 AI Agent 所面临的广泛挑战。
以上内容编译自:《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》;如需原文,请与我们联系。