从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

新智元 2024-04-19 15:22:29

LLM已经可以理解文本和图片了，也能够根据它们的历史知识回答各种问题，但它们或许对周围世界当前发生的事情一无所知。

现在LLMs也开始逐步学习理解3D物理空间，通过增强LLMs的「看到」世界的能力，人们可以开发新的应用，在更多场景去获取LLMs的帮助。

AI Agent，比如机器人或是智能眼镜，它们可以通过感知和理解环境来回答一些开放性问题，比如「我把钥匙放哪里了？」

这样的AI Agent需要利用视觉等感知模式来理解其周围环境，并能够用清晰的日常语言有效地与人交流。

这类似于构建一个「世界模型」，即AI Agent可以对外部世界产生它自己的内部理解方法，并能够让人类通过语言查询。

这是一个长期的愿景和一个有挑战的领域，也是实现人工通用智能的重要一步。

Meta的新研究OpenEQA（Embodied Question Answering）框架，即开放词汇体验问答框架，为我们探索这个领域提供了新的可能。

一、EQA是什么？

EQA（Embodied Question Answering）是一种工具，用于检查AI Agent是否真正理解周围世界发生的事情。

毕竟，当我们想要确定一个人对概念的理解程度时，我们会问他们问题，并根据他们的答案形成评估。我们也可以对实体AI Agent做同样的事情。

比如下图的一些问题实例：

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

[物体识别]

问：椅子上的红色物体是什么？

答：一个背包

[属性识别]

问：在所有的椅子中，这把椅子的独特颜色是什么？

答：绿色

[空间理解]

问：这个房间可以容纳10个人吗？

答：可以

[物体状态识别]

问：塑料水瓶是开着的吗？

答：不是

[功能推理]

问：我可以用铅笔在什么东西上写？

答：纸

[世界知识]

问：最近有学生在这里吗？

答：有

[物体定位]

问：我的未喝完的星巴克饮料在哪里？

答：在靠前的白板旁边的桌子上

除此之外，EQA也更加有直接的应用。

比如，当你准备出门却找不到工卡时，就就可以问智能眼镜它在哪里。而AI Agent则会通过利用其情节记忆回答说徽章在餐桌上。

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

或者如果你在回家的路上饿了，就可以问家庭机器人是否还剩下水果。根据其对环境的主动探索，它可能会回答说水果篮里有成熟的香蕉。

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

这些行为看上去很简单，毕竟LLMs在许多人认为具有挑战性的任务中表现出色，比如通过SAT或律师考试。

但现实是，即使是今天最先进的模型，在EQA方面也很难达到人类的表现水平。

这也是为什么Meta同时发布了OpenEQA基准测试，让研究人员可以测试他们自己的模型，并了解它们与人类的表现相比如何。

二、OpenEQA：面向AI Agent的全新基准

开放词汇体验问答（OpenEQA）框架是一个新的基准测试，通过向AI Agent提出开放词汇问题来衡量其对环境的理解。

该基准包含超过1600个非模板化的问题和答案对，这些问题和答案来自人类注释者，代表了真实世界的使用情况，并提供了180多个物理环境的视频和扫描指针。

OpenEQA包含两个任务：

情节记忆EQA，在这个任务中，一个实体的AI Agent根据其对过去经历的回忆回答问题。
主动EQA，在这个任务中，AI Agent必须在环境中采取行动来收集必要的信息并回答问题。

OpenEQA还配备了LLM-Match，这是一种用于评分开放词汇答案的自动评估指标。

下方是LLM-Match打分的流程，通过问题和场景的输入，AI大模型会给出回答，该回答会去和人类的回答作对比，然后得到相应的分数。

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

三、现阶段VLM的表现

一般来说，AI Agent的视觉能力是借助于视觉语言基础模型（VLM）。

研究员使用OpenEQA来评估了几种最先进的VLM，发现即使是性能最好的模型（如GPT-4V达到48.5%），与人类的表现（85.9%）之间也存在着显著差距。

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

值得注意的是，对于需要空间理解的问题，即使是最好的VLM也几乎是「盲目」的，即它们的表现几乎不比仅文本模型更好。

例如，对于「我坐在客厅的沙发上看电视。我的身后是哪个房间？」这个问题，模型基本上是随机猜测不同的房间，没有从视觉情景记忆中获得对空间的理解。

这说明VLM其实是回归到文本中去捕捉关于世界的先验知识，以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

这也说明，AI Agent在目前这个阶段，还达不到能完全理解物理世界的能力。

但气馁还为时过早，OpenEQA仅仅是第一个开放词汇的EQA基准。

通过OpenEQA将具有挑战性的开放词汇问题与以自然语言回答的能力结合起来，可以激发更多的研究，帮助AI理解并交流关于它所看到的世界的信息，也有助于研究人员跟踪多模态学习和场景理解的未来进展。

也不是没有可能，突然哪天AI Agent又给我们带来一个大惊喜呢？

参考资料：

https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/

编辑：Mindy

来源公众号：新智元（ID：AI_era），“智能 ”中国主平台，致力于推动中国从“互联网 ”迈向“智能 ”。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品经理 AI Agent EQA Meta VLM

上一篇 > 智能生活新伙伴：AI Agent轻松入门指南
下一篇 > 实体老板2024年怎么获取源源不断的客户？给你一招

透过170家AI公司，我看到了这些AI创业新趋势

AI大模型实战篇：LATS，可能是目前最强的AI Agent设计框架

AI大模型实战篇：AI Agent设计模式 – LLM Compiler

利用AI Agent搭建供应链的三道防线

聊聊AI Agent在供应链场景下的应用（上篇）

Llama 3.1 405B VS Mistral Large 2，谁是开源之王？｜AI横评

（下篇）大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent

大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（中篇）

万字长文手把手教你用Coze打造第一个商用AI客服（上篇）

大佬们都在关注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

Agent应用竞品分析

为什么我推荐B端产品经理都来用大模型

「千字评测」体验不同的AI Agent构建平台

钉钉AI家庭医生——白衣小天使

从苦逼打工人到文案能手：钉钉AI助理让我重新爱上工作

钉钉AI助理，是普通人打开AI的第一扇窗

钉钉 AI 助理：打造新时代普惠AI

万字拆解钉钉AI助理丨如何拥有一个勤劳、聪明、睿智以及无所不能的私人助理？

我的新顾问：钉钉AI助理助我打造高效社群

收好这份实用可落地攻略，搭建你的专属秘书

走在企微、飞书前面的钉钉AI助理，到底想做什么？

AI Agent应用迎来大爆发，成为智能时代的自动化先锋

深度分析：从智障到智能体，无用阶级要到来了吗？

浅谈业务运营中的产研故事

重磅！Meta开放头显系统，市场将迎来“安卓时刻”

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

智能生活新伙伴：AI Agent轻松入门指南

开源模型越来越落后？Meta甩出全新Llama 3应战

上课还是玩游戏？Meta加码教育元宇宙虚拟课堂将颠覆传统学习模式

AI Agent是每个人的助手

Agent（智能体）：通往AGI的必经之路

OpenAI和谷歌，AI对线中的飞驰人生

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

一、EQA是什么？

二、OpenEQA：面向AI Agent的全新基准

三、现阶段VLM的表现

相关文章