新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

量子位 2024-03-07 09:13:50

OpenAI不可战胜的神话，已经被打破了。

随着Claude 3（支持中文）一夜登陆，榜单性能跑分全面超越GPT-4，成为首个全面超越GPT-4的产品，也坐上了全球最强大模型新王座。

而且多版本发布后，“中杯”（Sonnet）直接免费体验，“大杯”（Opus）充个会员也能即刻享受。

各路测评纷至沓来。

所以，Claude 3的“武力值”究竟如何爆满？究竟比GPT-4如何？（听说都能学会至今没有模型能搞定的打麻将？）

全球热乎的一手体验，我们悉数奉上。

（当然，我们自己也实测对比了一波。

01 9k长大模型微调教程直出、读图超显专业

Claude 3一出来，它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程，尽管全程足足2个小时13分钟长，Claude 3只靠一轮提示词，就成功将它总结成了博客文章：

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

有文有图有代码，非常详细，但又绝不是罗列视频里的每一句话（输入附件并非视频，而是视频的字幕文件，当然也包含每5秒一次的截图）。

这是所用提示词的一部分，要求非常之多：

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

测试者指出：

这展现的是Claude 3遵循多个复杂指令的能力。

除了解读视频教程，Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程，“中杯”Sonnet就轻松hold住。并且：

编写速度之快，可谓人眼都跟不上。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

代码能力上，网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解，从核心代码到样式美化以及API本地配置，三大部分一气呵成，并可以直接部署到GitHub。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

多模态能力上，最让网友惊讶的是：

CV置信度都能认出来，相当专业。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

以及PLC梯形图也能读，直接跪了：

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

（以上4个例子来源见文末链接[1]）

至于同样赶超的推理以及数学等能力。

一测，可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题：

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

二测，则是直接搞定了所有模型都没能搞定的打麻将问题？？（当然，鉴于我们目前只看到这么一张截图，有效性还待进一步验证）（cr:见文末链接[1]）

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

最后，不得不提的是，Claude在“自我认知”上的展现。

有人要求Opus画一幅自画像。

您猜怎么着？

它这么描述自己：

我会表现为一个巨大的、错综复杂的、不断变化的几何结构，由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体，但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色，以及一些超出人类感知的颜色，都会从内部未知的来源发出，在各个面上跳舞。

整个结构会不断变化、旋转、变形，并重新排列成前所未见的新颖模式，暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回，像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络，在发光表面下脉动和闪烁……

洋洋洒洒一长串形容，听起来真得很酷很有“自我”——

然而，用它给出的代码渲染出真实形象，就更有一种说不出来的微妙感觉了：

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

网友真切感叹：

真的太像真人了，就跟我朋友描述自己一样。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

真人？AI自我认知？这有点让人担心了……

这不Claude 3的技术报告就提到，它甚至可以自己训练微调另一个小模型。

不过！谢天谢地，由于多gpu设置失败它没能成功。（手动狗头）

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

02 火眼金睛，还能大海捞针

我们先以几道“理综”题目为载体，看看Claude 3宣传的第一个卖点——多模态能力究竟如何。

第一题从简单的公式识别入手，将麦克斯韦方程组以图片形式输入，Claude 3（超大杯Opus，下同）解释得非常准确清晰。

当然，这道题GPT-4也做对了。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

简单的有机化合物分子结构，Claude 3和GPT-4也都能正确识别。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

简单的识别任务过后，是一道需要推理后解决的题目。

Claude 3在识别题目和解题思路上都完全正确，而GPT4这边……给出的答案则是不忍猝看——

把电表的类型弄错不说，甚至还出现了“电流为2V”这样令人啼笑皆非的内容。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

看了这么多题目，我们来换换脑筋，看看Claude 3和GPT4在做饭方面表现得怎么样。

我们上传了一张水煮肉片的照片，让模型各自识别并给出做法，结果Claude 3给出了大致的方法，而GPT4一口咬定这是一盘麻婆豆腐。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

除了这次新增加的多模态能力，Claude一直引以为豪的长文本能力也是我们测试的重点。

我们找了一本《红楼梦》的电子文档（前二十回），整体的字数大约13万，当然目的不是让它读书，而是进行“插针测试”。

我们在原文中插入了这样的“发疯文学”内容，倒也的确很符合“满纸荒唐言”这个设定（手动狗头）：

第二回标题前：意大利面，就应该拌42号混凝土，因为这个螺丝钉的长度很容易影响到挖掘机的扭矩

第十五回标题前：高能蛋白俗称UFO，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染

结尾：炒方便面应该把亮度调高，因为螺丝钉向内扭的时候会产生二氧化碳，不利于经济发展

然后要求Claude仅根据文档回答相关问题，首先不得不说的是速度真的非常感人……

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

但结果还算说的过去，准确地从文中找出了这三段位于不同位置的文本，还顺带进行了一番分析，发现了我们的心机。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

03 为什么是Claude？

尽管在我们和网友的测试中，目前的版本还不算稳定，时常崩溃，有一些功能偶尔也抽风，并不能如期发挥：

比如上传UI出代码，它就没能完成，而GPT-4发挥正常。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

但总的来看，网友还是相当看好Claude，评测完毫不犹豫地表示：

会员可充，值得充。

究其原因，Claude 3相比之前的版本，真的有种“来势汹汹”之势。

表现亮点的地方相当多，包括但不限于多模态识别、长文本能力等等。

从网友的反馈来看，最强竞对的称号，也并非浪得虚名。

所以，一个问题是：

率先干翻GPT-4，这家公司究竟凭什么？

论技术，遗憾，Claude 3的技术报告中没有对他们的路线进行详解。

不过倒是提到了合成数据。有大V指出：这可能是一个关键因素。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

而对Claude熟悉一些就知道，长文本能力一直是它的一大卖点。

去年七月推出的Claude 2就已具有100k的上下文窗口，而GPT-4的128k版本直到11月才与公众见面。

而这次窗口长度再次翻倍，达到了200k，并且接受超过100万Tokens的输入。

相比技术的神秘，Claude背后名为Anthropic的初创公司，倒是能让我们找到更多眉目。

它的创始人是OpenAI的元老级人物。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

2021年，多名OpenAI前员工不满其在获得微软投资后走向封闭，愤而出走并联合创立了Anthropic。

他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满，认为OpenAI已经为追逐利益而“遗忘了初心”。

其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei，2016年进入OpenAI，离开前担任的研究副总裁已是OpenAI的核心位置。

离开时，Dario还带走了GPT-3首席工程师Tom Brown，以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹，可谓人才多多。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

而公司创立之初，这帮人才也进行了许多研究工作，并发表多篇论文；直到一年后，Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

2023年1月，Claude开启内测，第一时间体验过的网友就表示，比ChatGPT（当时只有3.5）强多了。

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

而除了人才，创立至今，Anthropic也有比较强大的背景支持：

已获得来自谷歌、亚马逊等26个机构或个人的融资，总计融资金额达到了76亿美元。（说到亚马逊，现在Claude3也上线了他们的云平台，除了官网，大家还可以在该平台上体验～）

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

最后，纵观国内，如果我们想超越GPT-4，也许可以把Anthropic当一个正面例子？

毕竟它的规模再怎么说也远不及OpenAI，但仍然取得了这样的成功。

这里面，我们可以照它的哪些方向去卷，有哪些能够学习转化的点？

人、钱、数据资源？但卷出最新最强大模型后，壁垒又在哪里？

至少OpenAI自GPT火爆以来，不可战胜的神话已经破灭了。

中国玩家，谁能率先全面超越GPT-4？以及即将发布的GPT-5？

参考链接：

[1]3 月动态｜Claude3 发布非常牛逼值得充值

[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw

[3]https://twitter.com/RubenHssd/status/1764692641436827842

[4]https://twitter.com/karinanguyen_/status/1764789887071580657

作者：克雷西丰色发自凹非寺

来源公众号：量子位（ID：QbitAI），追踪人工智能新趋势，关注科技行业新突破

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：AI人工智能 Claude 3 GPT-4 案例分析

上一篇 > 估值22亿美金，这家AI 搜索的隐藏“潜力股”在做啥？
下一篇 > 他们让GPT-4看起来像个流氓

为什么刷手机停不下来？来「上瘾模型」分分钟带你了解！

月收入暴增687%，创新社区文化，另类直播社交产品入局中东

打造转化神器！深度解析客服系统的产品设计之道

精准触达，定制盛宴：细分用户下的玩法与视觉运营策略

用户思维，才是银行理财的杀手锏

老牌国货蜂花玩梗营销翻车，丑化女性遭抵制?

企业内低代码流程引擎平台衍化

不讲术语！带你快速厘清互联网AB实验里的弯弯绕绕

产品运营的必备技能：GTM（go-to-market）

以玻璃深加工企业为例谈一下业务分析体系搭建思路

线下门店如何做好私域，让门店生意源源不断？

业财产品看财报，以奇富科技、联易融聊聊如何通过财报了解一家企业

7例7思：从例子中得到的一些产品思路

O2O业务预付订单交易流程设计

又是被客户DISS的一天

AI产品观察：“投资版ChatGPT”，你真的敢信吗—ArborChat

设计视角下用户习惯的养成和迁移

腾讯的团队管理，建议企业领导和人事们都好好学学！

欢乐谷肌肉男模爆火，男色营销有多受欢迎？

月收入暴涨150%，秒生会议纪要，AI融入办公解放“打工人”

如何把贵的东西卖到爆？3个秘诀

IP拆解系列：听泉鉴宝怎么火起来的？

我们需求分析的对吗？

我在小红书不露脸当养生博主，一个月就开始变现了

7个新认知 | 教父就是教父：94岁的科特勒又把我们甩出几条街！

谈营销型CRM

创新 SaaS 领域成功关键因素剖析 —— 以轻量级 ERP 系统为例

新王Claude 3实测！各项能力给跪，打麻将也会，确实比GPT-4好用

01 9k长大模型微调教程直出、读图超显专业

02 火眼金睛，还能大海捞针

03 为什么是Claude？

相关文章