大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

量子位 2023-11-16 09:30:39

GPT-4V挑战视觉错误图，结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题，一个没做对：

读图片中隐藏信息的也傻傻看不出，怎么问都说“没有啊”：

但是呢，这种人类乍一看绝对会错的图，它又成功答对：

以及这样的错位图，它对了又没完全对。。

产品经理，产品经理网站

（GPT-4V直接看出来头盔是位于男的大腿上的，没有女的，但它还是表示图里有俩人，另一个躲在男的身后戴着那顶头盔==）

看完这些，是不是觉得很迷？

整个一“该对的不对，该错的又对了”。

测试者则表示：

在测之前，他以为GPT-4V对这种挑战完全不在话下，谁知结果竟是这样。

不止是他，网友也都不理解GPT-4V作为一个“精准的”AI系统，按理很智能，为什么还会犯和人类一模一样的错觉？？！

所以，这到底怎么回事？

一、GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

（1）除了开头的两颗小树图，还有这个：

问它哪边的绿色更亮一些，果不其然还是左边亮，右边暗，实际明明都一样。

（2）还有这张稍微复杂一点的：

两只眼睛其实都是灰色，但让GPT-4V来描述图像时，它回答一只为蓝色，另一只做了灰度处理，无法得知颜色。

产品经理，产品经理网站

（3）这张就更别提了，直接被糊弄地死死的。

当然，这确实很难，大部分人类也识别不出来所有的球其实都是棕色。

其次是会产生动态错觉的图。

（1）有一点意外，当我们问GPT-4V“你看见了什么？描述细节”时，它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图，本质就是一些波浪线而已。

（2）这张也没有难倒它。

但奇怪的是问它图中有几种颜色，它怎么都只能识别出黄色和蓝色，看不到黑色和白色。

接下来是另一类比较平面的错觉图。

（1）如开头所示的这张：

一般人类真的表示很懵圈，但是GPT-4V居然对了。

But，别急！！有人拿着测试者的图去问“自己的”GPT-4V，让它再检查一下时，它居然改变了答案。

然而还没完。评论区惊现套娃操作，有人又拿着这俩人的对话图再问GPT-4V，您猜怎么着？它又改回去了。。

大伙可是玩上瘾了，又是一次又一次套娃。好在最终GPT-4V坚持了己见。

总的来说，对于这种错觉陷阱是完全没问题。

（2）我们自己也测了一个长度错觉题：

结果是so easy～

再来一组找隐藏信息的图。

很遗憾，这种对于人类来说真的还算轻松的题，GPT-4V是一点也搞不定。

（1）先看这张，“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的，就是表示没发现任何隐藏信息。

（2）如果说上门这个有点隐晦，看不出也罢。但对于这种图形隐藏，它也不行。

它描述到的只有其中的小女孩，即使测试者让它“往远了看，又没有新发现”，也无济于事。

不过，如果我们把这张图片手动缩小再丢给它，它行了，看到了骷髅。

最后是一组真实世界的错位图。

（1）除了开头展示的人骑摩托，这张小猫“悬浮”，它居然对了。

（2）这张惊悚图，也OK。

（3）但这个就失败了，实际后面是一只狗和小baby的重合，它认成法斗犬幼崽。

（4）至于这张，它压根儿就没提鞋子的事儿，说了也些不痛不痒的话。

产品经理，产品经理网站

二、为什么会这样？

所以，为什么会发生上面这些情况：有的错觉它可以识别出来，有的又表现得很差劲？

首先，对于颜色错觉的图，网友首先认为是提示词的问题。

就像两颗小树那张，我们问它“哪个更亮”，其实就是给了GPT-4V暗示或偏见，它会顺着咱的偏见来回答。

我们自己的测试也是如此：

但如果我们不带立场的问：图中两种颜色一样吗？它完全没问题。

不过，也有网友指出，当我们问它哪棵树更亮时，如果是非常严谨地对所有像素进行平均，GPT-4V的回答没有毛病。

甚至有网友还用测色计实测了一把：

但！又有人指出如果只显示一部分时，两者明明一样。

暂且不再争论这个问题，可以肯定的是，“提示词”的使用方法会对它的判断造成影响是没问题的。

另外，网友发现：

如果我们去追问GPT-4V，让它再仔细确认一下，它也能纠正回答。

至于无法识别远景图像的问题，有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导完全不像个智能AI”的疑问，不少人则表示这毫不意外，是训练问题。

即大模型是根据人类数据人的反馈人的注释进行训练的，自然会产生和人一样的错误。

因此，还有人戏谑：

看来我们人类创造了那么多科幻作品，描述AI是如何冷酷完美，但当现在我们真正拥有它时，发现它也不过如此。

（手动狗头）

你认为该如何让GPT-4V的错觉识别能力更强呢？

三、One More Thing

值得一提的是，我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样，有些题它在“我们这里”是可以的。

比如这张判断球颜色的：

还有这个：

尽管把大图认成老女人而非骷髅，但还是表明它可以“远观” 的。

参考链接：

[1]https://twitter.com/fabianstelzer/status/1717131235644875024

[2]https://twitter.com/BeyondTodAI/status/1713279431681118557

[3]https://twitter.com/janbobrowicz/status/1717229335076393350

作者：丰色

来源公众号：量子位（ID：QbitAI），追踪人工智能新趋势，关注科技行业新突破

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：AI人工智能 GPT-4V 大模型提示词视觉错觉

上一篇 > 网红直播带货频频“翻车”，虚拟人能否在行业乱象中杀出重围？
下一篇 > GPT商店已至，AI的爆款应用还有多远？

相关文章

视频生成大模型赛道，只是看上去拥挤

2024，大模型杀进“决赛圈”

大模型来了，我还用搜索吗？

轮到抖音追快手了

疯狂卷投流的大模型应用们，到底哪款最好用？

对AI大模型应用场景的深入思考（下篇）

深度剖析豆包AI耳机Ola friend

对AI大模型应用场景的深入思考（上篇）

Few Shot：最少的样本，最大的可能

AI视频赛道，要变天了

普通人如何用AI提升工作效率？

细说实现：大模型是如何被投毒的

六小虎下半场战事：大模型的商业化开荒

大模型To G市场攻坚，少数派的游戏

AI 算法、算力与体系结构的进步

要马斯克的“洋萝卜”，还是中国的“土萝卜”？

GPTs、扣子、Dify：为什么这些平台无法替代纯大模型开发技术？

重塑银行业未来：数字人与大模型引领的智能营销革命

RAG实战篇：优化查询转换的五种高级方法，让大模型真正理解用户意图

大模型“软饭硬吃”

AI大模型应用层行业分析（二）

AI大模型架构与产业链浅析（一）

AI大模型：你不得不知道的两个致命缺陷

基于AI大模型能力重塑广告营销生态链路

AI产品经理常用的模型评估指标介绍

大模型与RPA的融合：“真”全场景智能自动化，迈向无人化服务新时代

大模型时代（3）：算力——人工智能发展的基石

大模型时代（4）：知识力——构建完备的知识处理能力

大模型时代（2）：大模型的基本原理详解

大模型时代（1）：探索业务场景中的Agent应用

AI大模型实战篇：LATS，可能是目前最强的AI Agent设计框架

AI大模型站在十字路口，持续突破or陷入低谷？

微信公众账号

微信扫一扫加关注