深度剖析字节豆包AI

三白有话说 2024-06-26 09:18:06

这将会是三白的又一篇万字以上的深度分析报告，作为一个AI深度爱好者以及从业人员，从去年8月份字节豆包上线至今，我一直都在密切的关注这款产品的每一次更新和动向，并频繁和字节已经行业内的AI从业的朋友们交流和讨论这款产品，最近花了近3天左右的时间，把过去1年的积累的内容重新整理并输出形成一个完整的报告。

全篇内容共13000字，阅读时间预计需要半小时，我将按照一个标准的产品分析报告的视角，系统的介绍和分享个人关于字节豆包这款产品的一些观察、分析、思考，我将从产品、行业、商业、用户、竞品等多个角度综合分析这款目前字节炙手可热的AI产品，需要声明的是，以下全部内容仅代表个人观点，内容仅供参考，若存在有失偏颇的地方欢迎大家和我沟通讨论；

由于内容较多，为了提升大家的阅读效率，我整理了一个全文脑图如下，没有时间细细阅读的朋友可以快速看脑图即可：

深度剖析字节豆包AI

1.为什么想分析字节豆包这款产品？

一般我挑选分析对象，通常会选择该赛道比较典型、或者有代表性的产品，也最好希望通过一个产品能够把这个赛道基本了解清楚，一方面我先不选择ChatGPT，主要是它是海外的产品，可能很多用户都体验不到，而豆包为国内公开使用的产品，且目前在使用规模上据个人了解目前是用户规模前三的AI产品；另外一方面，豆包对比chatgpt，在产品特性上，除了基本具备Chatgpt的大部分功能之外，还增加了关于智能体agent、Agent开发平台、AI社交、开发者和创作者生态等多个领域，所以能够覆盖的领域，因此分析它的价值可能更高；

2.全文内容的信息获取来源？

本篇文章全部内容和信息主要基于如下几个信息来源：

个人基于长期对产品的关注、体验、思考而形成的个人观点；
来自和腾讯、字节、百度、阿里等国内大厂的AI从业朋友的讨论与交流；
参考市面上公开的深度资讯、专题分析、公开报道、数据平台等；

3.适合哪些人群？

想要系统的了解AI应用端产品，建立行业认知的朋友；
AI产品经理和运营人员；
研究AI和字节产品的金融或者战略研究人员；

一、产品概述

1.1. 产品基本信息介绍

1.1.1. 豆包是一款什么产品？

豆包是字节跳动在2023年8月份推出的一款AI产品，产品直接对标的竞品是ChatGPT、文心一言这一类的产品，属于字节跳动在chatbot领域推出的重量级产品，此外，字节还在海外上线了一款豆包海外版的产品，产品名称是cici；

产品在字节跳动公司内的组织架构是在字节去年11月份刚成立的FLOW团队，根据flow业务负责人朱骏公开信息，目前豆包在国内的月活已经有2600万，算是目前国内活跃规模最高的AI产品，目前应用内已经累计创建了800万智能体；

与ChatGPT和文心一言等ChatAI类的产品不同的是，豆包的产品定位更倾向于成为一个综合性的AI 智能体(AI Agent)平台，产品整体的交互形式以智能体的形式呈现，通过一个个智能体(Agent)的方式满足用户在不同应用场景的使用需求；通用场景下，用户可以和“豆包”默认智能体聊天对话，也可以寻找其他垂直应用的智能体对话解决垂直场景的问题；

深度剖析字节豆包AI

1.1.2. 豆包的研发背景和发展历程

官方对于为什么产品叫豆包的说法是，一开始想着是抖音内的AI工具包，或者是抖音内的所有AI应用都包了，所以叫豆包，很多用户调侃这个名字取的太过于俗气，但是目前从行业的风气上看，大厂的AI产品们都倾向于取一些比较实物化、普通而接地气的名字，而不是一些高大上的名字；

豆包的前身是字节去年内部孵化的产品项目，名称是Grace，当时Grace还没有上升到整个公司重视的程度，据了解当时公司内部高层对于AI的态度还处于想搞清楚这是个什么东西的阶段，创始人张一鸣也在不停地会话行业内的专家试图了解大模型到底是怎么回事的阶段；

23年8月份的时候豆包开始灰度上线，当时的用户体量还不是很大，月活可能10万都不到，并且在8~10月份一直保持着自然增长，根据QM公开的数据统计，豆包的整体活跃在11月份的时候开始了跳跃性的增长，月活已经开始超过1000万，个人猜测产品从11月份开始对外投放广告，因此带来了比较明显的增长，后来又经过半年左右的时间，5月月活规模达到2600万规模（参考字节官方公布数据）；

深度剖析字节豆包AI

1.2. 产品定位

1.2.1. 豆包的产品定位：从产品、公司战略的角度看产品定位

1）从产品形态的角度看产品定位从产品形态上看，前面也提到，豆包的产品定位是一个综合性的AI智能体平台；目前豆包内的智能体包括3种类型：

豆包默认智能体：这个是用户默认使用的智能体，用户首次使用时进入的是豆包默认的智能体，新建对话的时候也是默认调起默认智能体；
PGC智能体：第二部分是豆包官方创建的智能体，目前豆包官方创建了25个官方智能体，包括AI图片生成、爱聊天的小宁、全能写作助手等；
UGC智能体：这部分是用户自己创建的智能体，根据官方公示，截止到24年5月份，豆包应用内目前已经有将近800万的智能体；

2）从公司战略的角度看产品定位从公司战略的角度上看，产品的定位包括如下几点：

豆包更倾向于打造成为公司的品牌和门面的AI产品，包括从目前的产品规模和增长趋势，以及公司的大模型名称从之前的云雀大模型改名为豆包大模型，种种迹象都表明，公司有意将这款产品打磨成为一款明显标杆产品，甚至成为公司的品牌和门面的AI产品；
豆包也是字节大模型秀肌肉的产品，目前豆包整体一直都免费开放给用户使用，起成本和消耗也不小，但是个人认为这是一种通过C端占领用户市场和心智，然后带动大模型售卖的一种方式，企业级的客户通过使用和体验豆包的能力可以感受和对比豆包大模型的能力，如此更加有利于大模型的售卖，所以豆包也是字节大模型体验和秀肌肉的产品；
豆包是字节AI场景的试验田，在扶持一个体量较大的AI产品之后，豆包也承担起了AI应用场景和市场验证的责任，目前个人感受到的思路是，flow团队会将一些想要验证的场景以智能体的方式放到豆包应用内验证并观察的增长的数据情况并验证需求，一旦需求和市场获得了验证，便采用独立APP的方式单独运作；这样的案例，目前可以看到有猫箱、coze等产品；

1.3. 产品核心产品能力

目前chatbot类的产品功能基本都大同小异，因此这里也就不面面俱到的产品具体产品的功能，个人主要分享几点个人认为豆包做的相对还比较不错的，或者可以算的上产品核心能力的产品功能；

1.3.1.手机端核心产品功能

沉浸态的语音对话的功能：目前从大部分使用用户的反馈看，豆包的语音对话聊天的功能在自然度、拟人化和流畅度等方面都是相对来说比较不错的，和文心一言等竞品可以形成相对的差异，个人也主要是通过行业内的研究人员们关注到这点，可见目前字节在语音模型、语音合成等方面确实具备比较领先的技术优势；
自定义智能体：用户可以通过创建智能体的方式自己捏一个角色或者智能体，并应用于个人使用，或者公开给他人使用，目前APP内创建智能体的方式比较简单，只提供了prompt、头像、声音配置的选项，没有提供太多个性化的配置能力，这部分个性化的能力目前在智能体开发平台扣子/coze里面实现；
发现智能体：该模块主要满足需要想要寻找垂直应用场景的智能体的需求，目前发现智能体模块提供了头像生成、学习、AI绘画、游戏动漫、角色扮演、影视小说、工作、创作、生活、情感、趣味等十几类智能体；
文生图能力：豆包目前支持文生图的功能，个人体验了国内多款文生图的chatbot类产品，目前在生成质量、准确性等方面，豆包的表现还是相对比较不错的，因此个人认为目前在视觉生成方面，可能字节的能力和表现会相对更好一些；
AI生成文本短视频推荐组合形成query回复：目前当你涉及一些吃喝玩乐相关的话题的时候，豆包除了生成文字回复，还会推流一个抖音短视频给用户，这种方式主要是为了解决模型无法很好的应对实时性和物理世界相关的信息这个问题，配合人工生成的短视频，可能能够更好的解答用户的问题，让回复质量更高；
本地生活推荐：豆包支持基于用户的LBS推荐用户定位附近的商家，给用户提供本地生活推荐的服务，这块的功能，个人猜测是接入了抖音本地生活推荐的数据，但是目前该功能还没有大力做，产品体验和使用价值相对一般，但是在众多的AI产品里面，目前只看到了豆包做了这个尝试，也算是一个值得一提的功能；

1.3.2.电脑端核心产品功能

豆包电脑端目前除了网页端web版的功能，还推出了PC客户端的版本，整体产品以浏览器的形式存在，基本有点类似于对标360AI浏览器，其核心功能包括如下：

AI搜索：AI和搜索结合的场景，是AI的一个关键应用领域，目前豆包的AI搜索功能，个人认为在搜索结果的时效性、准确性等方面是相对比较不错的，其AI搜索的能力，个人认为甚至目前做的比文心一言的AI搜索还更好一些；据个人了解，百度搜索目前在AI搜索领域的布局目前还处于观望和滞后状态，可能因为AI搜索的成本比较高，并且AI搜索会冲击传统搜索广告的业务，所以目前没有重点发力；

深度剖析字节豆包AI

文档对话和阅读总结：文档对话的产品目前也比较多，包括以kimi为主的产品，大家的体验表现上其实都差不多，但是个人体验到的豆包表现优越的点在于模型的OCR能力更好，例如上传扫描件PDF文档的时候，豆包可以准确是识别文档的内容，但是kimi等产品并没有达到响应的水平；
内容创作：支持细分场景的AI内容创作，从之前通用的AI创作工具，到目前逐步支持场景化创作，总体上比之前更近一步了，但是说实话从目前的创作结果上，还没有达到专业级的水平，相比市面上垂直应用领域的AI写作产品还是差了一些；

深度剖析字节豆包AI

浏览器插件：浏览器插件的功能是今年5月份左右刚刚推出的功能，能支持在浏览器里面实现基于页面浏览的AI功能，包括划词搜索和翻译、页面摘要、视频转文字等实用功能，目前做的还比较不错并保持着很高频率的产品更新；关于插件安装体验，可访问如下文档 https://bytedance.larkoffice.com/wiki/ZwUjwehjyibYCTksatkcb9iXnKc

深度剖析字节豆包AI

电脑插件：整体功能和浏览器插件差不多，支持切换到电脑的应用场景；具体使用可搜索下载豆包电脑客户端，安装后进入首页即有相关引导；

1.4. 豆包的关键版本迭代记录

过去一年，基本豆包的每一次产品更新，我都在重点的关注，其中个人认为值得关注的重点包括：

去年11月份的版本更新是豆包产品整体改头换面的一个版本，实现了几乎豆包大部分的核心能力；
之后的版本里陆续通过各种动作探索和发展第三方智能体的价值；
2月份和扣子打通，支持扣子创建并发布智能体到豆包；
3月份强化搜索和文件对话能力，应对kimi的市场热度；
以及Q2重点发展PC客户端和浏览器插件；

具体的版本迭代明细见下：

23年11月迭代版本

推出22个豆包官方智能体：包括英语学习助手、聊天、AI生成漫画、音乐电台、智能体创建助手、ai生成图片、文学伴侣、恋爱大事、旅游规划师、电影评论家、星座运势、起名专家、本地推荐、编程助手；
强化AI联网搜索能力：和今日头条、抖音搜索数据打通，生成的搜索结果支持溯源并打开跳转头条和外部网站的内容，支持查看出处，目标是为了增加生成结果的可靠性问题；这个阶段，豆包开始和头条搜索和抖音搜索密切合作，联网搜索的能力也主要是基于头条和抖音搜索，尚未拓展到全网搜索；
增加了关联问题推荐的功能：基于用户的问题提供问题推荐的功能，节省用户输入问题的时间，提供提问的灵感帮助用户获得更多的信息，增加用户提问的频率；
支持LBS的本地生活搜索推荐：其中美食推荐还比较准确，但是其他的推荐还不准确，包括酒店、生活服务等；
支持文生图的产品能力；
首页改版强化智能体模块：发现智能体的入口从右上角迁移到底部栏，增加了AI智能体的模块，进一步的强化了智能体平台的定位，同时也可以看出对发展智能体生态的重视；
支持抖音短视频内容推荐：生成文本的同时匹配与之相关的相关匹配度最高的短视频内容；该能力主要弥补ai生成内容泛化的问题，AIGC UGC互补结合更好的解决用户对回复内容满意度的问题，同时抖音短视频的内容真实性的感觉更强，进一步解决用户对生成内容的信任感问题；

24年1月迭代版本

首页改版进一步强化智能体的露出：智能体置顶到首页顶部，支持滑动展示；
开始对智能体做进一步的分类：分类整理出不同的分类的智能体，这个阶段可见智能体的规模已经初步发展起来；
将搜索框固定到首页顶部，强化搜索功能，但是后来又将搜搜框下架，主要原因可能因为搜索体验不佳，或者也可能是针对AI搜索的一次测试；

24年2月迭代版本

虚拟聊天智能体增加聊天背景封面优化聊天氛围，体验越来越像星野，且智能体创建支持AI生成头像以及支持AI生成提示词；
国内版智能体开发平台“扣子”上线，和豆包打通，支持发布豆包；
豆包AI拓展字节内部其他产品：包括抖音应用内上线AI搜索功能，今日头条APP首页右上角上线豆包AI功能，内嵌头条；

24年3月迭代版本

智能体开始灰度支持定制个人的音色功能；
增加文档对话分析能力：支持上传PDF、表格、PPT、word、txt等格式文件，不支持图片格式，文档大小限制50个以内，大小限制20M以内；
接入bing搜索，联网搜索拓展全网搜索，支持抖音搜索和头条搜索之外的内容搜索；
上线豆包PC客户端和浏览器插件；

24年5月迭代版本

PC端推出“问答”能力：整体产品形态对标知乎产品，目前主要通过搜索问答类的内容，通过搜索引擎入口引流；为利用AI问答的能力做的搜索投放获客的能力；官方将问答内容和生成结果沉淀为问答内容，形成一个问答社区；社区链接如下：https://www.doubao.com/traffic/ask
浏览器插件更新：支持b站视频总结、ARXIV论文阅读;

24年6月迭代版本

豆包浏览器插件更新：支持youtube视频总结和中英双字幕，详细功能参考如下文档：https://bytedance.larkoffice.com/wiki/ZwUjwehjyibYCTksatkcb9iXnKc

二、产品所属赛道分析

2.1. 赛道定义与细分

2.1.1. AI的赛道细分

对于目前的AI的赛道，个人总结赛道的整体布局如下，其中今年上半年比较火热的应用领域，基本聚焦在chatbot、智能体开发平台、虚拟社交、AI搜索这几个领域：

深度剖析字节豆包AI

2.1.2. 豆包所属细分赛道：Chatbot赛道

尽管很多人对于豆包的产品定位比较有争议，称它长得像ChatGPT，又长得像character.ai，但个人认为，目前的整体产品形式，基本都是源于ChatGPT，所以我更倾向于归类为chatbot赛道；

2.1.3. 赛道内的主要竞争者和市场竞争情况

既然归属于chatbot赛道，因此其主要的竞争对手主要包括ChatGPT、文心一言、腾讯元宝等产品；另外因为豆包和核心功能还包括虚拟社交、AI搜索等场景，所以kimi、character.ai、星野等产品，也可以视为其主要竞品；

目前从用户体量上看，海外活跃规模的体量整体相对更高，ChatGPT毫无争议为目前全球活跃规模最高的AI应用产品；

对于国内，文心一言目前根据QM和similarweb提供的相关数据，截止今年3月份WEB APP的整体月活将近3000万左右，而豆包截止5月对外公开的月活规模是2600万，其后是kimi月活将近1800万；

深度剖析字节豆包AI

三、核心产品技术分析

3.1.MOE架构模型

豆包的应用内承载力虚拟社交聊天、AI搜索、文档对话、文生图、内容创作等多种使用场景，如此之多的功能放在一个产品里面，很难只是通过一个通用的大模型就能支持所有的产品能力，必然需要用到多种模型能力，因此豆包的底层采用的应该是MOE（混合专家模型）架构的模型；

MOE模型简单讲就是在模型中组合了多种类型的模型，在处理实际的任务的时候，动态匹配解决任务需要的模型组合，高效的执行任务；以在豆包内构建一个实时资讯聊天机器人并语音对话为例，整个过程中可能涉及到如下几个模型：

角色扮演模型：在用户创建一个虚拟角色的时候，后台可能会使用角色扮演模型辅助用户创建一个具体角色的Agent；
RAG模型（增强检索模型）：用户在和角色聊天的时候，因为用户对话的query要求的是实时的资讯聊天，所以模型在响应的时候，需要基于联网检索的结果做生成输入，所以这个环节可能需要调用RAG模型，完成响应输出；
TTS模型（文本转语音模型）：模型完成文本的输出之后，需要将文本合成为语音之后以语音的方式输出给用户，这个过程需要用到TTS模型；

以上我们通过一个案例理解什么是MOE架构模型以及其工作原理，接下来个人猜测一下豆包的MOE模型中可能混合的哪些专家模型：

基础大模型：也就是豆包大模型，在解决一些通用场景的内容生成，例如豆包默认智能体的生成输出的时候，大概率可能直接使用的是基础大模型；
行业大模型：包括在解决虚拟聊天和角色扮演等应用场景的时候，可能使用的是角色扮演模型；
文生图模型：涉及图像生成等场景的时候，必然使用的是图像生成模型；
语音合成模型、音色定制模型：目前语音聊天的场景，包括提供不同的音色，以及语音聊天的输出，都是通过语音合成模型和音色定制模型技术实现；
RAG模型（增强检索模型）、知识图谱：如前举例，涉及需要联网检索，或者调用外部知识库解答的问题，可能会用到RAG模型和知识图谱技术；
向量化模型：例如在回答用户问题时，通过向量化模型，系统可以快速查找到和用户问题相关的知识并生成准确的回答，向量化模型主要用于将知识库向量化，方便根据用户问题匹配到跟用户最相关的知识，然后生成回答；

四、商业模式分析

4.1.关于豆包当前的商业路径的思考

当前豆包基本完全免费，并且无限量的提供给用户使用，在C端基本没有商业付费的场景，个人认为目前豆包的商业模式更多的是C端免费使用，形成市场规模、品牌效应和用户教育之后，通过模型端收费，但是鉴于最近这段时间字节大模型大幅度降价之后，可能短期售卖模型也不赚钱，而是通过模型消耗带来的基础云服务的售卖，其商业变现的链条如下：

豆包C端免费———>企业端购买大模型，带动云服务售卖———>通过售卖云服务赚钱；

所以，当前的商业路径，表面上是在做AI产品，实际上可能兜兜转换最后可能变成了卖传统的云服务赚钱。

4.2.豆包未来可能通过什么模式实现商业化

参考目前市面上竞品的做法以及个人的看法，未来豆包的商业化方式可能包括如下3种方式：

1）个人增值订阅的模式：个人增值订阅简单讲就是付费会员，与ChatGPT的plus订阅，文心一言的会员类似，增值订阅目前是广泛的用户普遍可以接受的一种方式，而增值订阅的方式，关键在于未来通过什么增值功能引导用户付费，我觉得可能的增值点可能包括：

更强的模型：例如免费用户使用基础模型，使用更强的模型需要付费；
付费智能体：例如图像生成等对成本消耗比较高的智能体智能限量使用，超过一定使用量之后需要付费；
增值功能付费：包括深度检索功能、音色定制功能、上传文件大小等；

2）广告模式：作为互联网广告的收入大户，即使在AI产品，未来也未尝不可尝试广告变现的模式，其中包括检索生成的索引入口、商家和服务的推荐等，都可能是比较合适的广告入口，当产品的体量逐步上来之后，广告的规模可能也会比较可观；

3）应用分成模式：目前豆包应用内的第三方智能体为用户创建并维护，未来也不排除可以做成付费智能体的可能性，特别是通过coze/扣子创建并发布到豆包的智能体，当第三方智能体支持付费，并且豆包内打通支付路径之后，作为平台方也可以向第三方应用抽取分成；

以上三种方式，仅为个人猜测，并且个人认为增值订阅和广告模式的概率比较高，应用分发的难度相对会比较大，目前豆包官方暂时也没有对外公开其商业化的计划和进展情况；

4.3.豆包未来的付费用户可能是谁？

个人认为，对于豆包类的chatbot的产品，未来潜在的主要付费群体包括如下几种：

AI爱好者：也就是ChatGPT带起来的第一批AI的兴趣用户，这批用户具备非常高的质量，既理性又有消费力，愿意为价值买单，我的身边有非常多的这样的群体，他们甚至愿意想尽一切办法购买订阅费用比较贵的ChatGPT plus的会员，属于高价值、付费购买意愿比较强的群体，该部分群体的整体年龄也相对比较高，大部分聚焦在30~40岁的用户，并且男性用户居多；
办公族群体：包括商务办公、学习教育、营销创作、商业服务、金融法律等行业和场景的用户群体，解决的是不同领域的工作场景的需求，大部分用户更愿意为场景付费，该部分用户的年龄聚焦在25岁~40岁区间的群体；
中小学生群体：社交和游戏偏好的群体可能也会是主要的付费用户，虚拟社交目前也是豆包的重要使用场景，个人该领域用户画像观测分析认为，该场景在年轻人群体中的偏好较高，未来年轻一代的用户可能更加愿意为虚拟社交和娱乐聊天付费；

4.4.用户的核心付费动机和需求是什么？

为效率提升付费：现在大部分用户更倾向于希望AI产品是一个提升效率的工具，所以用户更倾向于为效率付费，包括生产效率、信息获取效率、学习效率、办公效率、沟通效率、决策效率等，其中生产效率和信息获取效率的提升是用户需求更强的场景；
为精神娱乐和情绪价值付费：AI除了以实用价值为出发点的效率场景之外，还有以虚拟社交等为例的精神娱乐和情绪价值的应用场景，该场景用户为社交猎奇、情感陪伴、情绪宣泄等付费；

那么，对于效率和娱乐这两个方向，预计哪个有可能更快看到商业变现？

个人认为娱乐方向的变现价值可能会跑的更快，因为效率场景的变现极大的依赖大模型的能力，要想要做出一个能解决具体的效率场景的产品出来，现在说实话真的太难了，而对于效率群体而言，普通的产品能力如果不能切实的解决他们的问题，用户断然是不愿意付费的，所以效率场景短期变现难；而娱乐场景，目前模型的能力基本也足以满足，用户的付费也有更多的是冲动付费的场景，因此目前从市场上看，投资人们更多的偏好虚拟社交的产品；

4.5.豆包的成本结构

对于豆包类的AI产品，其核心成本主要包括技术、人力、市场营销费用这几部分成本，至于具体的成本规模，尚不得而知；

技术成本：包括模型成本、服务器和带宽成本；
人力成本：包括研发人员、产品和运营人员的人力成本
市场费用：拉新获客的市场投放、市场营销的成本；

五、字节的AI产品布局和豆包的位置

5.1.字节激进的AI应用布局

从去年的6月份开始，字节已经开始密集的布局AI领域的应用，去年8月的时候，字节还只是上线了豆包、小悟空等少数几个产品，半年多过去，目前字节在国内和国外已经上线了十几个AI应用，覆盖了不同的热门赛道，可谓全面开花，基本在大厂里面，在AI应用层如此激进的，基本也就字节了；

纵观字节的整个AI布局，可以看到，基本上半年几个火热的AI应用领域，字节基本都入局了，包括以豆包为标杆的Chatbot领域、以猫箱为主的虚拟社交领域，以扣子为主的智能台开发平台领域，加上集团内其他旧产品和AI的结合，布局版图非常大，其中对于豆包，从目前字节在产品的增长投入、以及甚至将原来的大模型名称从云雀大模型改成豆包大模型等一系列动作可以看出，豆包在整个字节的AI应用的地位非常重要；

深度剖析字节豆包AI

5.2.如何看待字节的激进和腾讯的冷静？

一方面，个人认为字节在AI的激进是自上而下的，从字节的发展进展和动作上看，字节的高层非常重视并看到AI带来的应用端的机会，并且迅速的开启了当年互联网时代小步快跑、快速验证市场需求的节奏，个人认为字节目前的发展思路存在如下几个特点：

快速占领应用端市场：先在目前市场空白阶段先通过应用端快速占领用户市场，并顺利抛出一个AI领域的超级应用，未来掌握入局AI应用领域的第一张门票；
应用端积累更多的用户数据，反哺大模型迭代优化：应用端的数据越多，对于模型的迭代和发展就越有利；

另外一方面，反观腾讯，过去半年腾讯在AI应用侧的进展简直冷静到让人不敢相信，过去的一年里面对外公开AI应用的产品并不多，并且原生AI应用的产品也很少，目前只有腾讯元宝、腾讯元器刚刚推出没多久；虽然腾讯混元的负责人的观点认为目前AI应用的渗透整体都很低，所以大家都在同一个起跑线上，但是不可否认的是，目前腾讯在AI应用端的反应相对滞后，个人的观点认为如下：

大模型才是最核心的，应用端并不着急：虽然腾讯在应用端的发声比较少，但是根据个人了解，腾讯内部在模型端的投入并不低，腾讯混元集中了公司很多模型研发人员，并且对外招聘的力度也比较大，可见腾讯当前的重点还是先发现大模型的基础能力；
过早进入应用端，并不会拉开差距，成本和模型能力反而会限制增长规模：对于掌握着互联网大半流量的腾讯而言，孵化一个超级应用的难度并不大，但是更多的还是应该先看清楚市场之后再出手，否则过早进入，可能形成不了市场占有率优势，反而还受限成本以及模型能力，导致规模难以快速增长；

字节和腾讯对待AI应用的两种不同的态度，基本也代表了目前市面上大家对AI的态度和心智，只能说各有立场、没有优劣，只不过是不同认知下的选择而已。

六、豆包如何实现用户增长？

以下内容，为个人观测观点，尚未获得实际数据验证，个人认为豆包的获客新增策略主要基于如下4个策略：

PLG产品驱动：通过持续拓展和新增更多的产品能力，覆盖不同的AI赛道，满足不同场景的使用需求，目前豆包基本兼容了主流的chatbot、虚拟社交、智能体创建、AI搜索、AI创作等多个方向的应用场景；
广告投放：大厂的产品的快速增长，自然离不开广告投放，豆包的快速增长也主要依托字节内部的引流投放，包括抖音和头条官方广告、穿山甲广告联盟、抖音内容创作者投放等；
智能体的裂变分享：用户在使用智能体的过程中，可以把智能体链接分享给其他用户，给豆包带来更多流量；
插件化：从最近关注到的情况发现，豆包开始做浏览器插件、电脑操作系统辅助插件、以及和今日头条合作豆包ai助手、甚至传言目前豆包正在和手机厂商合作手机助手，这些动向表明了未来豆包的增长会通过插件化的方式，对外释放影响力和带动增长；

七、用户画像分析

7.1.豆包目前的用户画像分析

根据某第三方数据平台观察分析豆包APP用户的画像特征如下：

男性用户为主：豆包活跃用户中，将近70%的用户为男性用户，女性用户仅30%左右，对于该数据现象，个人认为和目前国内整体AI兴趣偏好人群的分布有关系，或许对于AI科技类的产品，本身男性用户天然就是比女性用户更感兴趣；想通的数据平台，观察文心一言等其他同类型的产品，也存在男性用户占比明显高于女性用户的特征；
25岁~40岁职场用户群体为主：豆包活跃用户中，年龄在25~40岁之间的用户占比将近70%，为豆包的主流用户，参考整个互联网大盘的数据，该年龄阶段的用户占大盘的占比近30%左右；

7.2.豆包未来的核心用户群体是哪些？

豆包当前的用户画像更多的还是受目前市场用户的整体情况所影响，个人认为，对于一个综合性的AI智能体平台，豆包的核心用户群体，将逐步拓展如下用户：

年轻一代用户：包括大学生、中小学生群体，目前豆包的整体使用用户，更多的还是以职场白领群体为主，年轻用户相对较少，鉴于虚拟社交场景也是豆包的重点发展场景之一，个人认为未来对于社交、游戏等新奇事物比较感兴趣的年轻一代群体，将会是该场景的重要用户群体；
拓展下沉用户群体：目前AI和大模型的最新资讯，主要还是在一二线城市为主，未来下沉市场的用户在AI的使用渗透可能会越来越高；
女性用户的占比逐步提升起来：AI目前对于大部分人来说，还是个技术感比较强的东西，相比更加吸引男性用户，随着未来Ai的使用门槛和工程化越来越普及，女性用户的占比会逐步提升起来；

八、核心竞品分析

8.1 核心产品能力对比

个人认为，衡量一个ChatBot类的产品，其核心产品能力的对比应该包括如下几个维度：

文本生成：这是LLM最基础的能力，作为一个崇尚技术派的人，个人比较看重的是文本生成在逻辑推理、专业性、场景化等方面的表现，因为通用的生成能力对我而言是没啥用的，我们需要专才来解决我们的问题，而不是一个什么都会的通才；
语音聊天：其次是语音聊天的能力，包括语音聊天的流畅度、真实感、交互方式，我们需要的是一个接近真实的聊天AI，而不是一个像天猫精灵那样的傻瓜机器人；
联网搜索：不言而喻，联网搜索的能力基本是一个chatbot产品非常关键的能力之一，也是一个核心竞争的产品能力点，通常对于联网能力的判断，个人主要看搜索结果的完整度、全面性、时效性、准确性；
多模态：多模态的能力主要包括跨模态的输入和输出，包括输入方式上支持的格式类型（文本、语音、图片、文件、视频等），以及输出方式上的格式类型；
垂直场景解决方案：也就是解决垂直场景的AI应用的解决能力，包括平台提供的智能体、插件的能力，以及支持用户定制智能体和插件的能力；

以下为个人对豆包及其核心竞品核心能力的对比情况，其对比仅根据个人在过去将近1年的实际使用的感受获得的结论，仅代表个人观点，如有不正确的地方欢迎指出，总结起来核心观点主要如下：

ChatGPT在文本生成的专业度、逻辑性，语音聊天能力体验，多模态表现方面相比其竞品做的都相对比较出色；但是在联网搜索、插件和GPTs发展方面相对弱一些；
豆包在语音聊天，联网搜索方面表现出色，但是在文本生成、多模态方面表现比Chatgpt、文心一言相比逊色一些；
文心一言在文本生成方面相比豆包更优秀，但是语音聊天、联网搜索表现略比豆包逊色一些；
三个产品在垂直场景的解决方案方面均没有非常出色的表现；

深度剖析字节豆包AI

8.2 终端布局对比

整体上，豆包在拓展终端，还有用户使用入口这个事情上，做的更加激进，包括浏览器插件、电脑系统插件的植入，甚至据闻未来还计划将产品能力拓展到抖音、头条等产品；

深度剖析字节豆包AI

8.3 底层大模型对比

对于模型的对比，站在使用端的角度上看，个人主要从模型基础参数、模型综合表现能力、价格这三个维度去做对，根据个人关注了解到的信息和评价，对比GPT4.0、豆包大模型、文心大模型，个人评价如下：

在基本参数方面，从模型参数规模上看，目前GPT4.0的参数规模预计应该是最高的，其训练数据规模个人猜测预计应该也是最高的，至于上下文长度，目前大家基本豆包128k水平，至于目前市面上一堆生成百万、千万级的上下文，个人并不太理解为何能做到如此大的差异，其中可能有营销的嫌疑，但是个人比较相信GPT4.0的上下文长度上限更加有代表性；
对于模型综合表现方面，尽管目前国内有不少模型都生成达到或者超过GPT4.0的水平，但是从个人实际在应用接入的表现上看，GPT4.0的综合表现基本远远超过国内所有模型；
价格方面，目前价格最低的模型是豆包大模型，今年5月份的时候其主力模型把输出的价格下降了将近60倍，低至2元/百万token，这个对于行业应用的开发者而言真的是一个福音，从个人的角度上看，GPT4o的价格虽然贵，但是能力和定价匹配，豆包大模型的能力和GPT4o能力有差异，但是性价比高，但是文心大模型的价格目前属实太高，其定价基本对标GPT4o，站在开发者的角度上看，性价比不高；

深度剖析字节豆包AI

九、未来的产品发展方向思考

对于未来这款产品将会如何发展，个人认为，未来其发展应该会包含如下5个模块：

核心应用场景能力升级和深化：除了底层大模型的同步发展之外，豆包在产品工程化方面个人认为后续会越来越深入，其中对于AI目前在虚拟社交、搜索、内容创作、办公、教育、生活助手等这些核心的应用场景的发展，后续会提供更多的功能升级和服务；
智能体生态的发展：豆包将会重点发展第三方智能体生态，其中关键的目标是孵化超级智能体，也就是使用量较高，并且能带来更高的裂变效应和产品知名度的智能体；其次是如何将未来发展起来的智能体对外拓展和赋能，让智能体的能力得到更多的使用；
多模态AI场景实现：目前豆包的大部分能力基本都是单模态，未来随着多模态大模型的发展，相信产品也必将推出更多的多模态使用场景；
插件化：豆包的插件化主要是将豆包的产品能力拓展到更多的用户使用场景，把产品能力接入到更多的终端和生态，其中包括PC使用场景的插件化、应用插件化、硬件生态插件化，目前从产品的动作和布局上，可以看到有这样的倾向；
商业化：产品的商业化是必然会启动的，尽管目前产品是一个免费产品，但是目前产品昂贵的模型成本和研发成本，必然会push产品开始探索商业化；

深度剖析字节豆包AI