OpenAI新模型达到博士水平？我找几位博士测试了一下

知危 2024-09-20 08:51:49

今天凌晨，OpenAI 毫无预告地发布了业内期待已久的新模型。此前，大家从 CEO 奥特曼的推文中猜测这个模型会叫 “ 草莓 ”。

而在实际发布的时候，这个模型的名字叫 OpenAI o1 模型。

奥特曼对这个模型的评价是：他们迄今为止最强、最一致的模型。

在官方给出的一组数据图中，我们能很明显地看到 o1 模型在国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题上有很大提高。图中最左侧为 GPT-4o，中间是目前已经开放了的预览版 o1，最右边高高的红色柱子为满血版 o1。我们可以看到，基本每一项，o1 比起自己的前辈来说，都是接近 8 倍的提升。

如果把这些测试结果拆开来，新 o1 也几乎是在各种学科、各种领域，都全量、全面、全方位地超越 4o 版本模型。

而最让人感到可怕的是：OpenAI 说自己专门请了博士专家一起答题，结果在博士级别的测试结果上，发现 o1 答题分数均超过了博士专家，o1 得分 78，人类得分 69.7。

所以，人类一败涂地了？

为了能大概了解 o1 模型（预览版）的真实能力到底几何，知危编辑部邀请了三位知名院校博士来向 o1 模型提问，并请他们对 o1 的回答进行打分。（订阅 ChatGPT Plus 会员每周有 30 次向 o1 预览版模型提问的机会）

为了保证多样性和客观性，我们邀请的博士分别涉猎生物学、物理学、材料化学。

其中，南京大学在读物理学博士崔博士对 o1 模型的评价是最高的，他认为 o1 已经达到了 60-80 分（满分 100 分）的水平。

甚至在某些问题上，他认为回答可以给到 90 分。

崔博士的研究方向是量子光学，所以他给出的第一个问题是：远距离纠缠光子分发，有什么克服白噪声的办法？

思考 9 秒后，o1 就给出了 10 点可行的措施。

崔博士对回答的评价为：“ 答案列举的全面，符合现有的最新研究进展，对知识储备不足的人可能提供调研方向，但是可能对高级别专业人员没有提供真正有用的信息，属于科普级别的答案。”

评分方面，崔博士认为 o1 的这次回答可以打 80 分，他指出，o1 回答中提到的自适应光学的方向是今年最新的 Science 成果，回答是具有先进性的。

随后，崔博士追问了 “ 是否可以扩展到量子自适应光学？” 这一问题，o1 思考 19 秒后给出了作答。

崔博士对这个回答的评价是：“ 可以给到 90 分，这个回答对我也很有提示性，虽然不具体，但对我们只需要指个可能的方向，剩下的我们自己来调研思考。”

崔博士指出，“ 他的回答有很多是我的知识薄弱区了，有的概念我也只是简单理解，但他说的我认为都是有道理的，所以我认为还是可以的。”

相比之下，对于老版本模型相同问题的作答，崔博士的评价是不及格或是 60 分。

不过，在关于涉及实验细节的 “ 基于非线性相互作用产生的高纯度解关联单光子的自关联函数，分别在连续泵浦和脉冲泵浦的情况下，如何测量？” 这一问题上，崔博士认为 o1 的回答中规中矩，只能给 75 分。

总的来讲，崔博士认为在物理方面，o1 的表现算是不错的，和老版比下来提升基本在 20 分左右。

下面，我们来看看北京大学在读材料化学的 K 博士对 o1 模型的评价。

K 博士围绕 Fe-N4 材料问了一系列的问题，o1 给了很长的一串回答，为了精简篇幅我们这里只展示了部分问题和结果。

整体测试之后，K 博士给出的评价也差不多：可能有研究生水平，但是深入的认知和给方案的能力比较弱，主要还是针对已知内容作答。

比如问到如何调节 Fe-N4，o1 可以说出基于电子态调节，但你要是问它那该如何调节，它就有点卡壳了。虽然相比 4o 模型没那么胡说八道，但具体的问题上他俩都给不了太多建议，老版本 4o 是丧失细节乱说，新版本 o1 则是能力有限就会词穷。

下面，我们再看看清华大学在读生物学的信博士的评价，他的提问是：“ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰？”

o1 也给了一段非常长的回答，有些像综述，后面还贴了参考文献。

但出乎意料的是，当我们把这个回答交给信博士时，他看完就发现有些不对劲儿。

倒不是这 AI 回答的全错，而是 AI 在参考文献里乱编，这论文压根不存在！

不过，总体来，信博士还是觉得比之前的 AI 强了不少，起码理解能力是肉眼可见的增长了，编的时候也编的很像。。。

实际上，这个测试的结果并不出乎知危编辑部的预料——因为根据官方给出的数据来看，o1 在物理上的分数达到了 92.8，已经远超其他两门学科，这或许就是崔博士对它比较看好的原因。

综合来讲，真要说到超越专业博士水平，三位博士们认为还得缓缓。

崔博士直言，在现实科研工作中，多数情况学者们都还得自己动手，AI 只能提供大致方向，因此花钱要这样的细致 AI 意义不大。

他表示，他更推荐本科生选择这个 AI，要是硕博阶段，那这个 AI 的回答其实并不符合导师标准，组会上肯定要挨批。

清华的信博士也同样持这种看法，且不说 AI 的幻觉编造文献问题，就专业程度而言，AI 的回答也只能糊弄大同行，也就是同一大学科里面方向不同的人群；而在小同行，专业研究这个方向的人眼里，AI 的毛病还是非常明显的。

北大 K 博士则谈的更深入，他认为这个 AI 只能说在认知上有了硕士生的水平，但也只是作为一个缝补匠，谈不上说出什么创造性的成果。就创造性这一点来说，AI 是远远比不上硕博的水平的，这也是 AI 需要解决的重要问题。

在博士们的评价里，我们似乎能抓到一个重点：o1 模型之所以相对更强，是因为他有了更高维的认知和思考模式。

这，也是 o1 本次更新的要点。在 OpenAI 关于 o1 模型原理解释的文章中，他们表示 o1 变强主要是他们用上了长思维链 ( CoT，Chain of thought ) ，而不是传统的提示链（ Prompt chain ）。

第一眼看上去有点懵，说人话就是，这个大模型改变了以往那种你问我答的思考方式。

在以前的模式下，大模型的问答就跟下意识出答案一样，比如你问我天是啥颜色，这问题我想都不想，秒答蓝色。这实际上需要我本来就知道这个知识点，然后给你直接反应就完了。

但这个长思维链就相当于，我不仅要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。

这，就需要 AI 得有实打实的构建逻辑，推理论证的能力，换句话说，他不仅要长脑子，还要动脑子。

尽管思维链这个概念是 2022 年谷歌提出来的，但 OpenAI 这次是第一个实现的。

实操过程中，现在你与 o1 模型对话，除了收获答案，还可以看选择展开看他解答问题时的思维逻辑，他的思考是具象化的而不是黑盒。

我们拿崔博士提问的 “ 远距离纠缠光子分发，有什么克服白噪声的办法？ ” 这一问题为例，o1 模型的思考过程如下：

当我们询问崔博士这个思考过程是否合理时，崔博士表示：“ 合理，达到了博士级别，还是高年级博士级别。”

所以，o1 模型之所以会在物理学问答上面表现更出色，就是因为他的思维链达到了博士的水准，他会像博士一样思考物理问题。

同理，o1 模型在生物学、化学方面年表现相对不佳，很有可能是是思维链还没训练到最佳状态，但是从物理学问题的表现来看，等到训练愈发成熟，o1 会变得更强，我们可以期待一下 o1 模型正式版的发布。

哦，对了，最后放一个有趣的小彩蛋。

思维链虽然使得 o1 模型能像博士一样思考，但似乎在基础问题上训练的还是不够全面，我们发现他在简单问题上依然会犯低级错误。

他思考了 12 秒之后，自信地告诉我们 8.11 比 8.9 大。。。

怎么说呢，博士也会犯错，没毛病~

作者：知危
提供敏锐、独到的商业信息与参考，重点关注TMT、出海、新消费等

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：分析评测 OpenAI 产品分析模型测试

上一篇 > 一个地图功能，居然能从《黑神话》中蹭到600w的流量
下一篇 > MRD：信息贩卖+轻社交产品『破圈儿』的构想

拆解产品分析的框架，共5个模块，附案例！

2年收获400万用户，数字社交助力每个人的“轻松赚钱梦”

AI产品观察：人人都能做出高质量音乐—Suno

转转和闲鱼谁更胜一筹？

AI代替“李佳琦们”，已经开始掏女人的钱包了

Google AI播客NotebookLM居然颠覆传统，Sam Altman赞不绝口的小众赛道揭秘！

融合赛道又添新创意，社交+学习应用在美冲榜Top13

比OpenAI还早4个月？这款产品如何为专业创作带来全新体验

揭秘产品经理的日常工作：四大核心环节详解

问财 | 浅度产品观察

3个月情绪调节数十万美国人，一岛国开发的治愈系应用势头正盛

AI产品观察：人人都可以用AI做自己的网页前端—Vercel

AI产品观察：数分岗位快被AI代替了？—Powerdrill

ChatGPT界面大更新，开始卷应用了？这次想灭谁？

【AI+销售】Megaview销售智能会话产品分析+面试经验分享

AI产品观察：帮你讲故事可视化神器MyLens

速递｜刚刚，OpenAI 发布了高级语音模式！

深度剖析鹅厂AI：腾讯元宝

AI产品观察：针对程序员的AI搜索—Devv

Kimi 帮你看更大的世界

抖音产品分析

聊聊SaaS和传统项目的区别

OpenAI新模型达到博士水平？我找几位博士测试了一下

OpenAI“草莓”值万亿吗？

亲测MiniMax海螺视频：有惊喜，但不如Sora稳定

多邻国之后，AI游戏化教育产品的新机会在哪？

OpenAI最强推理模型O1正式发布，一起回顾那些提升大模型推理能力的黑科技

GPT5暂时没戏了

OpenAI发布最新模型o1应用场景和对大语言模型产品的7点启发

Open AI发布新一代模型01

豆包智能小助手 | 拆解100个APP

微信读书产品分析报告｜深度剖析产品、用户、商业、运营

OpenAI新模型达到博士水平？我找几位博士测试了一下

相关文章