端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

VR陀螺 2024-05-16 09:21:14

近日凌晨，OpenAI召开了GPT-4o发布会，虽然整个发布会时长不到半小时，但是全程高能：AI语音响应速度比肩真人、能够理解情绪语调信息、可实时对音频、视觉和文本进行推理…….

陀螺君在观看发布会时最大的感受便是：要么是ChatGPT里面塞了一个真人，要么则是科幻电影《Her》所构建的未来场景真的已经到来。

一、性能比肩GPT-4 Turbo，语音响应速度甚至比真人更快

本次发布会中，OpenAI CEO山姆·奥特曼并未出席，OpenAI CTO Mira Murati主持了本次活动。

在开始时，Mira Murati先简单阐述了以往所发布的GPT-4等模型的固有局限：人与人之间的互动其实相较于此前的机器对话要复杂得多。

人与人之间对话交流除了语义以外，还有语气、各种背景语境理解等，这些因素使得对话式AI想要获得类似于真人般的体验会非常复杂。不过，OpenAI最新发布的GPT 4o正是一款试图颠覆现有语音交互体验的AI大模型。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

GPT-4o（里面的“o”所代表的是“omni（全能的）”），它与GPT-4类似，可以实时处理和输出各种音频、视觉以及文本信息。不过特别之处在于，它将音频输入响应时间缩短至了原有模型的十分之一。

在GPT-4o之前，集成了GPT-3.5和GPT-4的ChatGPT音频输入响应平均延迟分别为2.8秒和5.4秒，而到了现在，GPT-4o可以缩短至232毫秒，平均为320毫秒，官方称这基本上与真人聊天感觉无异。

在OpenAI官网GPT-4o的演示页面上，官方则在显著的地方备注道：“此页面上的所有视频均为1倍语速”，已表明它对GPT-4o响应速度的绝对自信。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

图源：OpenAI

为什么GPT-4o能够实现如此大的突破，原因在于它摒弃了原有AI语音对话的常见流程。在以前，想要实现AI对话其实需要经历三个步骤：语音转文本——AI接收信息、处理并输出文本——文本转语音。而现在，GPT-4o具备了端到端能力，即所有输入和输出都由同一神经网络处理。

除了能有效改善语音响应速度外，端到端处理其实还有一个天然的优势，早些时候三段式解决方案在语音转文本环节往往会丢失大量重要信息：比如说话者的笑声、语气词、音调等，这些信息往往无法在文本信息上面反映但对于聊天却有至关重要的作用，而端到端处理信息能有效保留这些内容。

回到GPT-4o上，关于它的具体表现，我们可以先结合下面的视频感受一番。

恰巧，谷歌在也放出了一段基于Gemini驱动的AI助手的视频，我们可以基于此简单对比不同大模型之间的一些差距。

关于GPT-4o模型性能，OpenAI在其官网放出了相应的测试结果，官方表示“GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。”

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

图源：OpenAI

举例而言，GPT-4o 在0-shot COT MMLU（常识问题）上创下了88.7%的高分，超越了GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus、Llama 3 400b等竞品；而在反映音频翻译性能的MLS 基准测试中表现也优于Meta的SeamlessM4T、谷歌的Gemini。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

图源：OpenAI

Mira Murati提到，从今日起，用户可在ChatGPT中免费体验GPT-4o的能力，不过当前只局限于文本和图像功能，（ChatGPT Plus用户能享受到5倍的访问量）。关于它最为核心的语音模式，则会在未来数周面向Plus用户推出（alpha版本）。

此外，现如今开发者还可以基于API访问GPT-4o的文本和图像功能，与GPT-4 Turbo相比，GPT-4o可速度提高2倍，而价格降低一半，速率限制提高5倍。而关于语音和视频功能，则会在未来数周内面向特定的合作伙伴推出。

其他方面，Mira Murati还简单提及了ChatGPT的一些改进，如今日正式推出基于macOS的桌面版本，而Windows版本则计划在今年晚些时候推出。此外，ChatGPT的页面UI也有所改进，进一步提升了易用性。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

macOS版本ChatGPT，图源：Youtube

二、能撒娇卖萌、能看代码图表，真实演示让人叹为观止

本次发布会中，其实关于GPT-4o的底层技术讲解并不算多，只有短短数分钟，而很多细节、隐私方面的介绍也只是一带而过。相反，整场发布会有高达三分之二的时长都放在了演示上面，OpenAI的研究主管Mark Chen、后训练团队负责人Barret Zoph参与了本次演示环节。

（高度怀疑OpenAI是在内涵谷歌去年的Gemini发布会，后者在发布会上只提供了录屏演示，后续被扒出视频经过特殊剪辑处理。）

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

左二为Mark Chen，右一为Barret Zoph

根据粗略统计，发布会期间共计演示了GPT-4o八个不同场景片段，这些场景颇具代表性，能够很好体现GPT-4o的语音响应以及多模态等相关能力。

刚开始时，Mark Chen向ChatGPT询问，“我在现场演示demo有点紧张，你能帮助我吗？”ChatGPT回复时语音十分甜美，并且反应非常迅速，同时还不失幽默地说了几句俏皮话。在这个过程中，其实我们可以发现GPT-4o除了能够识别常见语音指令外，甚至还能识别出用户呼吸频率，这是有别于其他AI的一项重要能力。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

在另外一个演示中，Mark Chen向AI询问能否讲一个以“恋爱中的机器人”为主题的睡前故事，AI语音响应同样非常迅速，即便Mark Chen在AI输出过程中多次打断它的讲话，AI也能很好把握用户的需求，如增加朗读的感情、增加更多戏剧性等。AI在这个过程中声情并茂，各种停顿以及感情把控非常好，非常离谱。

此外，Barret Zoph还演示了GPT-4o的解数学题的能力，他在一张纸上面写下一个方程组，ChatGPT不仅能准确识别方程组，还能一步步给予相应的解题步骤。不过，这里我们也可以看到智能手机作为AI载体其实有点尴尬，用户需要一只手举着手机拍摄，另一只手写作业，不是十分方便。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

单从演示来看，GPT-4o的视觉能力还是相当不错的，并且响应也颇为迅速，后面，Barret Zoph写下“I ♥ ChatGPT”时，AI的回复则是充满了“宠溺”，“拟人”属性拉满。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

除手机APP外，Mark Chen还演示了macOS客户端的ChatGPT能力，比如用户能够向其询问“屏幕上面的代码代表了什么？”、“这张表格里面能读取什么信息？”等。在演示过程中，AI均给予了正确的响应。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

在发布会的最后阶段，为了给AI“上点强度”，Mira Murati读取了两个直播留言反馈，并进行了相应的演示。其中一个演示是常见的翻译功能，Mark Chen与Mira Murati双方分别使用英语和意大利语对话，而ChatGPT则很好地翻译了出来。

不过，在最后一个演示中，有用户留言表示“AI能不能通过看你的脸识别你的感受？”这里有点小翻车，AI识别到的并非Barret Zoph的人脸，而是桌子。不过Barret Zoph临危不乱通过新增提示语的方式实现了救场。（也有反馈称这是由于ChatGPT率先调用了后置摄像头所导致的失误）

三、电影《Her》照进现实，已经让人迫切希望看到GPT-4o的“泛滥”

回顾整场发布会，其实可以发现GPT-4o就像是GPT-Turbo的一个语音加强版，得益于出色的延迟以及“情感”能力，它将具备巨大的应用落地的价值以及潜力，而相较于Siri等常见的语音聊天工具更是降维打击。

Mira Murati在发布会中表示，“我们正在寻找关于未来用户与机器交互的范式，而GPT-4o（凭借其易用性），正在将这一范式变得更加自然。”

发布会结束后，Altman在社交平台上写下了“her”这个单词作为回应，这其实可以看到OpenAI以及Altman对于GPT-4o这款产品所寄予的厚望。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”

图源：X

Ps:《Her》是一部在2013年上映的科幻电影，里面讲述的是主人公西奥多爱上了搭载强人工智能电脑操作系统的故事，萨曼莎每天通过语音的方式与AI进行聊天互动，最终使得西奥多在这段感情上越陷越深。

在博客中，Altman写到：

新的语音（和视频）模式是我用过的最好的计算机界面。感觉就像电影里的人工智能一样；我仍然有点惊讶它是真的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的变化。

最初的ChatGPT暗示了语言界面的可能性；这个新事物感觉本质上是不同的。它快速、智能、有趣、自然且有帮助。

对我来说，与电脑交谈从来都不是很自然的事。现在确实如此。当我们添加（可选）个性化、访问您的信息、代表您采取行动的能力等等时，我确实可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。

就在不久前，有消息传出苹果与OpenAI达成相关协议，并有望将ChatGPT整合到iPhone当中。结合发布会来看，OpenAI对于与苹果的关系也显得颇为“暧昧”，如桌面版本应用率先在Mac平台推出，全程使用iPhone以及Mac设备作为演示等。目前暂未明确双方将会采取何种合作模式，假如苹果真的将GPT-4o引入Siri当中，想必将会极大提升iPhone的产品竞争力。

端到端训练，语音输入响应10倍优于竞品，OpenAI发布了一个AI“怪物”