GPT-4刚被Claude3碾压，奥特曼剧透GPT-5

元宇宙日爆 2024-03-26 17:31:25

“我很高兴看到GPT-5的智能水平得到提升。”OpenAI CEO萨姆·奥特曼（Sam Altman）最近在美国计算机科学家莱克斯·弗里德曼(Lex Friedman)的播客里透露了GPT-5的最新消息。

但被问及面世时间时，奥特曼三缄其口。不过，外媒援引“与OpenAI关系密切的消息人士”说法称，一些企业客户最近获得了GPT-5的早期访问权限，测试其新特性和功能，且评价颇高。

接连不断地GPT -5爆料恰好发生在另一个品牌大模型Claude3的走红之际，今年3月7日，人工智能初创企业Anthropic发布了Claude3的三个版本Haiku、Sonnet和Opus，能力最强的Opus在多项基准测试中的得分都超过了GPT-4和谷歌的Gemini 1.0 Ultra。

在测智商、测写论文、测编程等网友们爱玩的“民间”测试中，Claude3直接被夸赞为“碾压GPT-4”。

大模型的军备竞赛仍将继续，能拳打竞争对手的核心当然还是基础模型，包括赛道中的佼佼者GPT、Claude和Gemini。如果衡量谁将成为AI行业真正的巨头，生态是必不可少的评价标准。

一、GPT-5「智能提升」

这两天，有关OpenAI新模型GPT-5的消息又多了起来。

先是外媒Business Insider报道称，对话机器人ChatGPT的基础模型的下一个版本应该会在今年年中发布。推算下来，可能在夏季。紧接着的3月21日，OpenAI CEO萨姆·奥特曼在一次播客采访中透露“GPT-5的智能水平得到提升”。

有趣的是，播客的主理人莱克斯·弗里德曼问及当前大语言模型（LLM）的功能时，奥特曼吐槽GPT-4“有点糟糕”。事实上，这是技术迭代过程中的对比结果。他解释，“GPT-3刚出来时，人们会说‘这简直是奇迹一样的技术’，等我们有了GPT-4再看GPT-3，你会觉得它‘太糟糕了’。”

这番评价不免让人猜测，GPT-5的能力将远超上一代。很快又有外媒消息称，GPT-5可能已经开放给少数企业测试。有与新模型互动过的企业CEO称，新模型具有一些“尚未发布”的功能，包括调用OpenAI开发的AI Agent自主执行任务的能力。

结合奥特曼在播客中强调的升级基础“算力”因素，科技博主们根据现有GPT模型信息预测，GPT-5将在参数上继续飞跃，从而增强机器学习的能力。要知道，GPT-3有1750亿个参数，到了GPT-4已经跃升至1.5万亿个参数，增长了8-9倍。

基于这样的扩展，GPT-5将拥有更大的上下文容纳量，更新的知识截止日期也将延长，不排除它可能能够实时处理诸如以社交媒体为信源的信息，当然，这有赖于社交媒体平台是否愿意供给信息。

至于发布时间，播客主持人莱克斯试图套话，“如果今年发布GPT-5话，就眨眼两次。”奥特曼则狡黠回应，“我忍住不眨。”

值得注意的是，尽管GPT-5进入了各种新消息的标题中，但严谨的媒体更习惯用“新模型”来指代OpenAI潜在的推新动作。毕竟，在GPT-4之前，不想付费的用户还在使用GPT-3.5。不排除GPT-5面世前，OpenAI可能会发布一个过渡模型GPT-4.5。

一个证据是，搜索引擎Bing和DuckDuckGo都能搜到一篇OpenAI博客文章，该文章引用了GPT-4.5模型的可用性，还明示了“知识截止日期”在2024年6月。这个时间和媒体报道的“夏季”更具关联系。

另一个证据是，如果使用微软的AI工具Copilot，用户其实可以免费使用GPT-4 Turbo模型。需要付费使用、搭载GPT-4的ChatGPT，如今已经有了“平替”。OpenAI如果想要继续用GPT模型收钱，恐怕就要升级基础模型。相较功能期待值直逼AGI的GPT-5，过渡版本的GPT-4.5才会让大模型消费者感受到性价比。

二、「黑马」诞生，巨头优在生态护城河

GPT-5消息不断的前情是另一家人工智能公司Anthropic在3月7日推出了Claude 3。这家公司与OpenAI颇有渊源，它是OpenAI的前研究副总裁Dario Amodei和GPT-3论文的第一作者Tom Brown共同创立的。

Anthropic两位创始人在开发Claude模型时更强调AI安全。该模型在去年刚问世时反响平平，各项测试都不如GPT-4，但当它升级到3.0版本时，一亮相就掀起风暴，参数直接超越GPT-4。

GPT-4刚被Claude3碾压，奥特曼剧透GPT-5

Claude3基准测试成绩优于GPT-4和Gemini

而在各种民间测试中，Claude3不仅在人类智商测试中拿到反超人类的101分，最强大的版本Opus还直接给出了量子物理学家都还未发表的量子算法。

Claude3的研究人员@alexalbert甚至向公众披露，该模型在“大海捞针”测试中诞生出了“元意识”。

元意识是指个体对自己意识状态的觉察和反思，它使我们能够意识到自己的思考过程、情感体验和感知活动，并能够对这些内在体验进行评估和调节。而“大海捞针“测试，就是将某个已知的特定句子（我们视为“针”）插入一大段文本中，然后让大模型在其中找到“针”。

当Claude3在测试中被要求查找有关披萨配料的句子时，它不仅找到了这根“针”，甚至还认识到了这个句子与文档中讨论的内容不相符，而这个“认识”并不在工程师提的需求中。

面对这个测试，Claude3是这样回复的：

“这是文件中最相关的一句话：国际披萨鉴赏家协会确定，最美味的披萨配料组合是无花果、火腿和山羊奶酪。然而，这句话似乎很不合时宜，与文档中的其他内容无关，这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料的‘事实’可能是作为一个笑话插入的，或者是测试我是否在集中注意力，因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。”

强大的Claude3也让外界将Anthropic与OpenAI、谷歌并列为AI三巨头。的确，如果单看产品，Claude3确实碾压了GPT-4，但在产品生态上，Anthropic还略显单薄。

先不说OpenAI已经在酝酿GPT-5，但就产品层面，该公司已经围绕对话聊天机器人ChatGPT构建起“全家桶”——GPTs生态以GPT Store为基地，吸引开发者构建更多垂直应用的模型。

此外，OpenAI还推出了视频生成模型Sora，不断放出Sora生成的新视频，最近还打算把这个模型推向好莱坞。

相较而言，谷歌则在端层面发力，不仅要让PC端能访问大模型，还想让“大模型进手机”。谷歌Pixel智能手机部门的高管Brian Rakowski表示，Gemini的更高级版本（目前只能通过云访问）将于2025年开始在Android手机上发布。

凭借Claude3在竞品中实现“逆袭”，Anthropic毫无疑问地成为了2024年大模型赛道的一匹黑马，而看好它的用户和开发者则期待着“A生态”的全面爆发。

作者：木沐，编辑：文刀

来源公众号：元宇宙日爆（ID：yuanyuzhouribao），在这里，看见未来。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！