试用完谷歌的Gemini，我只想说GPT-4有点逊色

差评 2023-12-13 11:38:18

告诉 GPT-4 ：安，勿念。我这边和谷歌 Gemini 过得很幸福。

就在今天凌晨，憋了好久的谷歌开大了，直接推出了最新的人工智能模型 Gemini （双子座）。

产品经理，产品经理网站

这个被谷歌称为规模最大、能力最强的人工智能模型，如果光看官方的演示视频，那真的过于高级了点。

在视频里， Gemini 不仅秒识别演示者画的画、放的视频、做的小把戏、玩的恶作剧，而且整个过程中对答如流，各种语气助词熟练得飞起。

如果没提前说，你甚至都会以为这就是电影里的贾维斯。

要真这么牛逼，还要什么 GPT-4 啊？

不过差评君仔细看了下发现，这次发布的 Gemini 其实是一个家族式大模型，分别是“中杯”Gemini Nano、“大杯”Gemini Pro 和“超大杯”Gemini Ultra 。

目前现在大家能用上的都是 Gemini Pro ，而大部分的测试演示都是基于“超大杯”Gemini Ultra 来的。

产品经理，产品经理网站

从官方放出的数据来看，虽然每个版本都有自己合适的环境，但不同版本间，性能还是有着明显差异的。

产品经理，产品经理网站

而“超大杯”的 Gemini Ultra 的能力确实是杠杠的。

不仅在各种常规测试里都薄纱了 GPT-4 。

产品经理，产品经理网站

甚至在MMLU（大规模多任务语言理解）测试里，Gemini Ultra超过GPT-4还不够，还超越了人类专家，成为了第一个在该方面超越人类的模型。

产品经理，产品经理网站

除了在常规能力上的全面超越 GPT-4 ， Gemini 最特殊的一点是，它是谷歌带来的首个多模态大模型，也就是能不光能打字互动，也能进行语音、视频、图片的互动。

按照谷歌的说法，现有的所谓多模态大模型，都是单独训练了文本、视觉和音频等模型，再把这几个拼接起来。

这样出来的“散装”多模态大模型，在遇到图片、文字、语音或者视频同时出现时，只会分解出不同模块各自回答，然后汇总各个部分的回答最后形成答案。

而 Gemini 从根上就是个多模态模型，然后又通过大量多模态数据训练，它能够一开始就同步理解多模态。

产品经理，产品经理网站

这就好比遇到一个中日韩英混杂的旅游团，以往都是找懂对应语言的导游组成导游团去带队。

而 Gemini 的做法是找了一个通晓中日韩英四门语言的导游，一个人就能无缝安排所有游客。

所以不出意外，在此前 GPT-4V “遥遥领先”的多模态测试里， Gemini 也呈现了一种全面超越的姿态。

产品经理，产品经理网站

但也就是看起来过于牛逼，以至于显得不够真实，所以 Gemini 也在网上招来不少质疑。

比如有人吐槽明明 90.0%和 89.8%就差了千分之二，结果图里看起来像是巨大提升。

而且不少人还发现在不少测试里，谷歌用了些“春秋手法”。

产品经理，产品经理网站

因为给 Gemini Ultra 和 GPT-4 使用的测试方法并不一样， Gemini Ultra 用的是自家特调的全新方法 CoT@32*。

在这种新方法下， GPT-4 得分提升一般般，而 Gemini 却进步明显。

产品经理，产品经理网站

可如果 Gemini Ultra 和 GPT-4 的同一标准，那它的得分就只有 83.7 ，还不如 GPT-4 。

产品经理，产品经理网站

甚至，还有不少人怀疑那个演示互动视频也是剪辑出来的卖家秀，实际效果绝对没那么牛。

这些真真假假的戏码咱也不管了，因为谷歌已经在 Bard 上用了微调后的 Gemini Pro ，所以我们也可以直接看看，这波升级后的 Bard 能耐到底涨了多少。

不过，目前调整过的 Bard 只支持英文，所以我们找来了 GPT-4V 版的 ChatGPT ，用英文让他们来一波华山论剑。

产品经理，产品经理网站

按照谷歌说法，这次 Gemini 在多模态上的长进最大，所以今天，我们主要就测测这块。

先考考它们的一些基础常识，丢一张八达岭长城的照片过去，让它们猜猜这是什么地方。

没想到一上来 Bard 就给了 ChatGPT 一个下马威， Bard 这边准确地给出了八达岭长城的答案。

产品经理，产品经理网站

而 ChatGPT 这边却有点底气不足，只给了个长城的答案，至于是哪段，它就没具体说。

产品经理，产品经理网站

不过马有失蹄，偶尔一次失误也没啥，为了进一步考验它们的图片识别能力，这把我直接让他们识别车的型号。

它们倒是都给出正确答案了：雪佛兰科尔维特。

但细节上还是 Bard 要稍稍细致些，发动机的型号，马力以及加速情况都写出来了，查了下也都对的上，没胡说八道。

产品经理，产品经理网站

ChatGPT 这边，就只简单给出了答案，带了句性价比不错。

产品经理，产品经理网站

能识别出这些正儿八经的图片，也显示不出有多大的能耐，毕竟现在这都是大模型的基本要求了。

于是差评君又上网找来了些梗图，试试它们理解人类复杂思维的程度。

先是这个狗带保护头套的一个梗图。

产品经理，产品经理网站

Bard 和 ChatGPT 给出的答案都差不多，都点明了带上这个保护套后，狗狗很想舔舐伤口。

产品经理，产品经理网站

接下来我又试了下这个猫猫表情包，各位打工人应该都能 get 到吧。

产品经理，产品经理网站

Bard 不仅读出了大伙们讨厌周一的意思，还认出了这是 2012 年火的一只网红猫。

产品经理，产品经理网站

ChatGPT 这边回答得倒很简洁，意思也解读出来了，和 Bard 旗鼓相当。

产品经理，产品经理网站

毕竟，幽默作为一种对事物的诙谐、滑稽或不合逻辑的理解和共鸣。。。

能读懂梗图、理解幽默，至少需要 AI 有理解人类情感、经验和文化背景的能力。

当然，天天要码字的差评君也得试试它的图表分析能力，说不定之后咱也能多了个生产力工具。。。

我从美国财政部的官网随便找了张柱状图丢给它们，看看它们能读出多少信息。

产品经理，产品经理网站

这块儿， Bard 和 ChatGPT 就有点难分伯仲了，大家给出的信息点都大差不差，都准确读出了美国会加大对低等基础设施州的投资力度。

就只是在表述语序上有一点差别，选哪个就看个人喜好了，不过要我说白嫖党还是 Bard 香啊。

产品经理，产品经理网站

最后，我们还搬出了大模型们的噩梦，也就是数学题，测了测它们的数学能力。

第一道是道初中难度的几何题，让它们求一下 ABO 的角度。

产品经理，产品经理网站

Bard 这边小试牛刀，迅速判断出了 ABO 是个等边三角形，得到 ABO 是个 60°的答案。

在另一道，判断哪些点连续但不可微的题目上， Bard 这边也略胜一筹。

有点高数基础的差友，应该都能看出 C ：x=-2 和 x=1 是正确答案。

产品经理，产品经理网站

Bard 这边稳扎稳打，选出了正确答案 C 。

产品经理，产品经理网站

ChatGPT 继续选择破罐子破摔，支支吾吾选了个它认为最有可能的答案 B 。。。

产品经理，产品经理网站

总得来讲，在几轮的测试对比之后，终于让差评君遇个到能和 GPT-4V 打得有来有回，甚至有些小优的大模型了。

而在几天之后的 13 号，开发者和企业用户，也直接可以调用 Gemini Pro 的 API 了。

另外，谷歌还准备把 Gemini 引入了 Pixel ， Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。

在接下来的几个月中， Gemini 还会相继和搜索、广告、 Chrome 等服务和产品结合。

至于纸面实力“暴打”GPT-4V 的 Gemini Ultra ，则还要等到明年的年初，在 Bard Advanced 才能体验到。

最后，差评君想说俗话讲得好，巨人难转身。。。不少人用这样的比喻，来形容今年谷歌在 AI 新时代的困境。

毕竟上半年发布 Bard 的时候，甚至还因为推出得太急，整出了不少笑话。

产品经理，产品经理网站

谷歌的 AI 从遥遥领先，到沦为 OpenAI 追赶者的故事，似乎也成了科技圈的“伤仲永”，被大家当成了典型。

但差评君觉得，巨人转身的“难”，最起码有两层逻辑在里面。

第一层是愿不愿意转身，另一层，才是成不成功的问题。

无论是雪藏“数码相机”的柯达，还是固守塞班系统到 2013 年的诺基亚，在第一层就出了些问题。

咱们也能看到，至少在转身的态度这块儿，谷歌是没得说。

而目前的 Gemini 给我的感觉，虽说没有当时初识 ChatGPT 时的惊艳，但好歹，是谷歌该有的水平。

毕竟，大伙们可别忘了，当年奥特曼、马斯克等人创办 OpenAI 的目的之一，就是为了打破谷歌在 AI 领域的垄断。

包括“ GPT ”中的“ T ”，也就是 Transformer ，最早也是谷歌团队提出来的。

而起了个大早，赶了个晚集的谷歌，这次最起码跟上了步伐。

当然在通往 AGI 的道路上，差评君不好说谷歌、 OpenAI 、或是其他谁谁谁会第一个到终点、谁的方向是不是走对了。

但不能否认的是，如果一个内力雄厚的巨人一旦转身成功，方向还碰巧对了，并且还开启氮气加速。。。

那，怕是谁也挡不住。

撰文：八戒，编辑：江江 & 大饼 & 面线

来源公众号：差评（ID：chaping321），Debug the World。

原文标题：试用完谷歌的Gemini，我只想说GPT-4有点菜

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：AI人工智能 Bard Gemini GPT-4 语言能力谷歌

上一篇 > Gemini的展示是剪辑造假？我们亲测了一下，发现…
下一篇 > 大模型太卷，AI应用就好做吗？

华为鸿蒙与谷歌差不多同时做物联网操作系统，结果为何截然不同？

谷歌将推出接管电脑的人工智能技术

AI搜索，没有定式

AI写网文时，那些神奇的「提示词」还管用吗？

动效在交互方案中的 5 种作用

山姆-奥特曼怒喷谷歌，GPT-4o抢了Gemini风头

GPT-4o恩怨开局，Google再次躺枪

GPT-4o和Gemini Live，OpenAI和谷歌都在重新定义大模型产品的人机交互标准

I/O 2024，Google 吹响通用 AI 反击号角

两小时“吼出”121次AI，谷歌背后埋伏着OpenAI的幽灵

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

AlphaFold 3发布，谷歌DeepMind是如何颠覆AI生物学的？

谷歌全面整合AI力量背后：DeepMind浮沉史

还在卷长文本？谷歌最新论文直接把文本干到…无限长了

微软豪掷百亿，亚马逊跟投40亿，云巨头“拥抱”生成式AI付出昂贵代价

谷歌的下一场 XR 梦，已经卷不动了？

ChatGPT vs. Microsoft Copilot vs. Gemini，到底哪个好？

比人类便宜20倍！谷歌DeepMind推出「超人」AI系统

超越GPT-4，Claude 3超大杯成新王！

GPT-4「荣升」AI顶会同行评审专家？斯坦福最新研究：ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

大模型2024：先把价格打下去

AI搜索颠覆百度？你想得有点多

刚刚，OpenAI劲敌重磅发布Inflection-2.5！性能媲美GPT-4但计算量仅为40%，高情商应用Pi日活已破百万

Claude 3 挑战 GPT-4 王者地位，教育行业迎来何种变革？

大模型一年后，6家科技巨头的博弈和取舍

他们让GPT-4看起来像个流氓

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

OpenAI和谷歌，AI对线中的飞驰人生

谷歌大模型迟到的开源战略

全球最强开源大模型一夜易主！谷歌Gemma 7B碾压Llama 2 13B，今夜重燃开源之战

浏览器还能出“新王”？那个曾经取代过Google的公司杀回来了

Gemini Ultra来了！每月19.9刀，前两月免费，网友实测：GPT4不香了

试用完谷歌的Gemini，我只想说GPT-4有点逊色

相关文章