再次炸天的OpenAI，大模型生态初现

光锥智能 2023-11-16 09:28:59

不出意外地，OpenAI的首届开发者大会，让人特别意外。

一夜醒来，大模型圈一只脚踏入了Agent的世界，另一只脚则踏入GPT Store生态的河流中。

美东时间11月6日，OpenAI开发者大会正式开启，创始人兼CEO山姆·奥特曼站在台上，45分钟的密集输出，再次展示了什么叫“遥遥领先”。

我们先简单回顾一下这场发布会的所有重点，其实无非就是三件事：

一是技术能力：GPT-4 Turbo升级了6大新能力，包括128K的上下文长度、更强的控制能力，模型的知识升级、多模态能力（语音和CV）、模型微调定制和更高速率的限制，性能升级的同时，还对API调用的价格进行了下调；

二是可复制的能力：从原来的GPT到GPTs，用户可以打造专属于自己的GPT助手，企业可通过OpenAI提供的全套工具链“all tools”在企业内部建设有价值的工具，同时也可以深入让GPTs进化为一个个Agents，为智能体做准备；

三则是生态能力：企业不仅可以打造GPTs，更能将其上架在市场内，即GPT Store，可分享给其他用户使用，以及获得分成，类App Store的商业生态由此为出发点。

正如网易有道CEO周枫所言，“这次模型上主要是性能和成本的优化，而在应用和生态方面，做了很多LangChain（开发工具链），LlamaIndex（开发数据框架）这些项目类似的工作，最终就是要实现以智能体作为AI App的愿景。”

总之，OpenAI提供的生态能力解决了当下大模型发展的几个重要难点，而在此之上，大模型的应用层将迎来进一步爆发。

“很兴奋，还有很多信息在消化。”

OpenAI发布之后，光锥智能在与多位国内知名大模型创业者交流中，也感受到了大家对行业前景的期待，“OpenAI的多模态能力开放，对开发者是很大的利好，可以做的事情的边界得到进一步拓展，我预计会有很多新的玩法出现。”月之暗面创始人杨植麟对光锥智能称。

这45分钟，为大模型火箭的二级爆发，再次添加燃料。

一、让大模型，飞入寻常百姓家

“有需求，打造生态，找落地。”OpenAI首届开发者大会结束后，某家国内大模型明星公司 CEO 对光锥智能发表了极为简短，却信息量极大的点评。

市场对ChatGPT的需求，无疑是巨大的。在发布会的开始，奥特曼报告了 OpenAI 平台和产品的一些数据，截至目前，已经有大约200万开发人员在其API上构建各种各样的应用，超过92%的全球500强企业正使用其产品，ChatGPT的周活跃用户达到大约一亿。

自GPT3.5问世到现在，每一次的升级都引领着大模型的下一个技术方向，不过，这次OpenAI GPT-4升级后的Turbo版本更像是查漏补缺。

首先是更长的上下文本长度，GPT-4Turbo上下文任务长度扩展至128K，相当于一本书的300多页，是 GPT-4支持的8K上下文的16倍。不仅如此，奥特曼还强调在扩展文本长度的同时，还应该保持模型的准确性。

其次是弥补OpenAI一直以来的短板——安全可控和知识库更新速度。针对前者，推出了名为Json Mode的新功能，确保开发人员更容易调用API，提升对模型输入和输出的控制；即将推出“Copyright Shield”（版权保护）功能，若其企业和API用户面临版权侵权诉讼，OpenAI将为其承担相应费用。针对后者，OpenAI平台支持用户导入文档、数据库来更新大模型的认知，同时还将新升级后的GPT-4Turbo认知理解更新到了2023年4月。

最后，此次更新中，OpenAI的多模态能力开放进入到了一个全新的阶段。上一个时期，OpenAI用了一年多的时间，实现了ChatGP能说、能看、能听，而现在才到了多模态能力释放的节点。DALL-E3、文生语音模型TTS（text-to-speech）、Whisper V3都将通过API的形式开放给开发者使用。

能力升级之后，为了让更多的开发者用起来，还做了一个大降价。

奥特曼表示，不断有开发者来向其抱怨，GPT-4定价太贵，也正是基于此，OpenAI这回干脆来了个大模型降价促销。

降价后的GPT-4Turbo输入token价格是GPT-4的三分之一，输出token价格是原来的二分之一；GPT-3.5Turbo 4K 精调版本输入token价格是此前的三分之一，输出token价格是原来的二分之一；GPT-3.5Turbo 16K精调版本输入token价格是之前的四分之一。

正如奥特曼所言开发者的需求是驱动OpenAI降价的根本原因，这背后还有技术、商业等多重因素。

从技术降本看，根据外媒爆料，OpenAI此次可能将Stateless API变为Stateful API，奥特曼此前曾表示，基于Stateful API，用户不用再“重复一遍一遍地为同样的历史对话付费”，理论上Stateful API形式可将大模型应用的开销削减为原来的二十分之一。

在商业上，OpenAI也一直在寻找突破点，从API、ChatGPT个人版再到企业版，一直在探索商业化。但其对手却未给喘息的机会，微软、Salesforce、开源生态主导者Meta都在以更具性价比的方式，背后“偷袭”OpenAI，商业化的紧迫感与日俱增。

OpenAI降价的背后，也代表着国外大模型已经进入到了普惠化、追求高性价比的新时期。

对初创企业、开发者而言是落地的机会，对OpenAI这类公司也是挑战，由降价而带来的或许是技术能力、资源分配、算力等多方面的挑战。

“在综合考量后，我们优先考虑了价格，但速度却不能同时兼得，这将是接下来研究的重点”，奥特曼道。

据多名使用GPT-4开发工具的技术人员称，GPT-4速率限制已经开始加倍。

“算力应该还好，OpenAI储备足够多”，杨植麟对此发表了意见。

二、为创业者提供“筑梦”工具

光锥智能在与多位大模型创业者交流过程中发现，很多创业者不是缺乏好点子和创业想法，而是受困于数据、算力、工具、部署、训练、推理等一个个的技术难题。

比如，知乎上一位基于大模型开发的对话解谜小游戏的开发者，就因为游戏用户数量远超预期，导致算力不足而被迫关闭了整个游戏，留给玩家的只有一片遗憾和不舍。

同样在国内，创业者们不是不知道Agent是未来的创业方向，而是心有余力不足。一位Agent创业者告诉光锥智能，“数据清洗、长文本记忆、代码编写、运行测试、部署落地、成本等等九九八十一难，关关难过，关关卡死每一个创业公司”。

据光锥智能了解，无论国内外，Agent离落地还差得很远，目前比较确定的场景可能是Code Agent。原因在于，编码本身就属于大模型训练推理和Agent执行任务的一环，距离最近，改造也越容易。

而现在，OpenAI发布的all tools工具、assistant API（助手API）则有希望使上述这些问题迎刃而解。

assistant API 是OpenAI专门为AI Agent开发者量身打造的工具助手，涵盖了长线程（Threading）、知识库（Retrieval) 、代码解释器（Code interpreter）、函数调用（Function calling）几项工具。

持久且无限长的线程，允许开发人员将线程状态管理移交给OpenAI并解决上下文窗口约束；支持检索功能，利用模型之外的知识来增强，例如专有领域数据、产品信息或用户提供的文档；支持代码解释器功能，与ChatGPT Plus中一样，可以在沙盒执行环境中编写和运行Python代码，生成图形和图表，并处理具有多种数据和格式的文件；函数调用功能也迎来更新，现在可以一次性调用多个函数，并把响应合并到消息输出中。

总而言之，这些新功能精准切中了开发者们卡脖子的痛点，在OpenAI打造的全流程工具链上开发运行，将降低研发的门槛，缩短研发、测试周期，同时节省人力成本。

“我们对OpenAI又爱又恨，一方面它升级的工具有可能一瞬间让我们的业务跑通，但另一方面，我们也得时刻警惕被OpenAI取而代之”，一位Agent创业者道。

让我们聚焦这次发布会的主角——“Agent”。奥特曼给Agent下的定义为，人们利用工具、AI来建立更个人化和定制化的分身，这些分身可以代表个人做很多事情。用户只需询问计算机所想要的东西，Agent分身就能替你完成所有任务。

光锥智能梳理OpenAI做Agent思路后发现，Agent不是凭空而来，一切都基于GPT的大模型，在大模型基础上先是长出了GPT的分身“GPTs”，而后才是“AI Agent”。

“在OpenAI，我们一直笃定渐进的、迭代的部署是解决安全问题的最佳方式，即人工智能的安全挑战。我们认为谨慎对待面向未来Agent尤为重要，这需要大量的技术工作以及关于社会的深思熟虑，所以我们正在迈出通往未来的一小步——GPTs”，奥特曼表示道。