24年WAIC世界人工智能大会- AI应用观察

产品萧书 2024-07-11 20:21:50

24年的WAIC在上海世博中心举办，7月4号到7号，共4天展览的时间，我是在5号花了一天左右时间去参观了一下，我比较感兴趣是基于大模型的AI应用，基本上大部分时间都在有众多AI厂商的展厅逛，展厅内参展商像华为、腾讯、阿里一线互联网大厂包括头部AI的科技公司商汤、科大讯飞、百川以及像特斯拉、蔚来等车企都参与了这次的活动。

在逛的过程中也和一些AI厂商的业务人员关于产品的使用场景背后用到的技术商业模式等聊了一些，这篇文章就把目前最前沿的部分有意思的AI应用带给大家。

先说结论：绝大部分AI厂商还都是依赖于自己研发的【小模型】来满足所在领域的场景需求，【大模型】仅作为一个辅助的技术；小部分厂商底层依赖【大模型】驱动做了一些产品，但还是要通过一些额外的辅助手段，例如小模型的加入来保证产品能够商业化落地。

大模型还未大规模作为toB领域底层AI技术的原因我认为主要有两个：一个是模型存在幻觉，所谓的幻觉是你在问模型一个问题时会有一定概率胡说八道，而toB的绝大部分场景容错率都是很低的。其二是原有的依赖小模型产品有的已经能够商业化规模化，把原有的底层技术替换成本是大的。

这里说明下大模型和小模型区别：

小模型：指厂商自研或采购的针对某垂直场景的AI模型，例如TTS、NLP、ASR等。
大模型：生成式大语言模型，我们熟知的GPT、Gemini都属于大模型。

举办展会是toB领域的一种会销行为，参展商和举办商举办活动的目的不仅仅是行业的交流，核心还是能够获取一些客户名单，销售导向，所以展会上较少有toC的产品亮相，确切来讲这篇文章所介绍的基本都是toB领域的当下最前沿的AI应用了。

一、按产品为单位介绍AI产品

1、WPS AI – 企业大脑

金山办公早在几年前就推出了自己的AI文档产品，作为终端用户有些伙伴已经体验到了，这次WAIC大会，金山办公展览的AI办公文档应用主要面向企业，官方称之为企业大脑，所谓的企业大脑，相当于将企业所有的关于产品、业务、运营等文档内容一并给到应用，应用通过底层大模型的能力实现企业员工知识问答。原本要找一个资料可能要问其他同事要或者在企业自己维护的企业网盘中寻找，找来之后还要在文档中找到你需要的信息，效率是低的，而有了企业大脑，就可以直接通过文字交互的形式问应用就可以了。

类似企业大脑、企业知识库产品背后的模型有点像RAG（检索增强生成），这里也简单介绍一下此模型原理。

RAG，即Retrieval-Augmented Generation，中文翻译为”检索增强生成”。这是一种结合了检索和生成技术的模型，它通过引用外部知识库的信息来生成答案或内容，具有较强的可解释性和定制能力；
RAG模块的工作原理可分两部分组成，分别是检索层部和生成层；
检索层：将用户输入的检索信息通过检索层神经网络生成检索需求给到数据库，数据库根据需求输出检索结果；
生成层：将检索层输出的数据结果结合用户的检索信息给到大语言模型（LLM）生成最终结果。

基于大模型知识库产品会存在一个问题就是刚才所说的模型幻觉，模型的回答不是每次都准确的，可能会出现胡说八道的情况，WPS AI给了一个解决方案，就是每次在模型回答的内容里面显示原始文档来源，如果模型引用了文档那么内容大概率是可信的，如果没有引用自由发挥的，那就需要进一步确认他的准确度了；另外一个好处是员工可以点击引用的文档查看更详细的信息，通常大模型回答的内容比较精简的。

这让我想到了toC产品领域KIMI，也是通过给出引用的原始内容的方式来进一步增加回答内容的置信度和进一步查看内容明细，KIMI背后的技术模型也是类似RAG。

WPS AI企业版的行业解决方案负责人提到了目前针对toB的实践，面向金融保险领域，保险的产品种类是比较多的，保险内的条款内容变化也比较快，内部员工和外部客户都需要通过问答的形式来获取最新的保险产品信息，原先的解决方式是人工去维护问答知识库，这样效率就比较低，而如果运用了基于大模型的AI数字员工，维护成本会降低。具体的实现路径和效果在现场没有展示，目前他们这个针对保险领域的这一行业场景实践还在共创阶段。

WPS AI其余的能力都还是围绕大模型针对内容领域的基础能力：内容扩写、内容格式化、内容提取等。

2、海豚-AI解题助手

AI解决数学题的能力在刚发布的GPT-4o就可见一斑，展厅内不止一家教育机构围绕底层大模型应用提供教学产品，我主要和海豚教育的业务人员聊了一些并且体验了他们的产品，他们的产品是面向学生群体的数学解题助手，一道数学题模型有能力将其拆分成若干的解题步骤，每个步骤是一个子问题，模型引导用户回答子问题直到最终答案。

在整个体验过程中AI给出的子问题和对我给的答案判断及引导体验下来没什么问题，只是在识别我的回答时出现一次将“两天”识别成“2000”的错误，我和机器间的交互有4次，如果单从这一次的样本来看，语音的识别成功率在百分之75。

针对他们家的产品，我也同样问到了模型幻觉的问题，像拆题和解题包括和用户的交互过程中模型出现幻觉怎么处理，概率大概多少？现场的工作人员给我的答复是概率大致在百分之98，问题出现需要人工来干预，且不谈这个概率的可靠性，就教育场景来说，哪怕百分之2的错误率意味着每一道题都要经过人工确认才行。

所以他们这个产品还是需要家长或老师的陪同下才好进行，或许这个产品的目标群体可以是家长，告诉家长解题步骤，家长掌握后再给孩子做辅导。

3、猎聘多面- AI面试官

大会来了一些做招聘试这块儿业务的公司，我们平常在找公司的时候经常用像BOSS、智联招聘这种产品，看上去都是面向toC的，实则这些招聘软件公司同样有很多toB业务且toB业务才是他们最主要的营收来源。

猎聘估计大家没用过但也有所闻，他们在大会上展示的AI能力简单用一个词来概括就是- AI面试官，解决的核心问题是帮助企业提升面试效率确切来说是首轮面试效率，从面试者的视角来看，简历通过初筛后，会进入到AI面试环节，面试者将面对AI数字人进行面试，而AI数字人所问的面试题是根据岗位的JD，也就是说企业端只要给系统一份岗位JD，系统就可以生成面试题目。最终的企业根据AI的打分结合回答来判断哪些候选人能进入到下一轮面试环节。

系统由大模型和小模型组成，大模型负责生成面试题且和面试者面试过程中的交互内容，小模型主要是指打分，猎聘通过他们私有的数据来训练小模型的评分系统。当然因为是数字人形式呈现，那大概率也会用到一些像ASR文字转语音，TTS语音转文字的小模型。

期间我问现场的工作人员，如果从降低企业面试成本的角度来说成立，但作为一个面试者，公司第一轮使用AI的方式进行面试，可能会让他们感觉企业不够重视自己，对企业的好感度的降低。他们给我的解答是，目前AI面试官还未普及的情况下有这种可能，但假如后面普及下来，绝大部分公司都采用这种方式那就不存在这个问题了。这就让我想到了如今的新能源汽车产业，电车被广大消费者接受不仅仅靠的是一家车企的努力，还需要整个产业中每个公司的贡献，比如供应链、充电桩等。之前蔚来汽车的老板李斌也说过蔚来和其他国产的新能源车企既是竞争对手也是合作者。

目前他们这个产品的售价按照面试次数，一个面试单价在20元，如果按照初轮面试有20个候选人，首轮面试的成本在400元左右，大家如果熟悉招聘行业的，可以算一下如果企业用这套系统，不从效果单从成本上是否能覆盖首轮人工面试的方式。

4、AI机器人

大会各厂商展示的AI机器人总体分两类，一类是解决某垂直场景的机器设备，有的设备也有人的属性，比如用来装载货物的机械臂等，另外一类就是长的像人类并且大多都带两条腿的人型机器人，像特斯拉的Optimus。

我和其中的一家叫达闼机器人的工作人员聊了聊，他们做的也是类似于人型机器人，大厅大屏上展示的场景是机器人在咖啡厅拿咖啡杯移动，估计是想呈现出机器人在咖啡店餐厅这种环境下的服务能力，但和现场员工聊了之后发现这也只是个概念，还无法商业化落地，目前能落地的场景在景区导览这块儿，机器人相当于充当一个导览人员的角色。

实现方式是通过先将展馆或周边环境进行3D建模，再将建模等数据给到机器人进行训练，机器人也结合了大语言模型的能力，只是在面对一些非特定任务场景的问题时可调用大模型进行回复。

这种方式实现意味着每开发一个新的客户，都需要有数据采集和预训练的环节。

大致询问了一下机器人的售价，现场人员给我了一个很泛的数字：十几万。一个三线城市景区的导览人员年人力成本在10万，如果整个机器能撑两年，意味着成本能降下来。

除了人型机器人以外，还有一些垂直场景的AI机器设备涉及像机器自动做咖啡、机器自动做冰激凌等工业化设备。

感觉机器人整个产业已经比较丰富了，因为我看到除了机器人产品之外还有像一些机器人组件的供应商，比如提供关节模组这种解决方案的厂商。

二、其他AI产品观察

除了以上所述的几个AI相关的产品服务之外，现场还有很多，部分没来的及仔细研究，初浅的了解下，这里也介绍一些。

1、华为的大模型-盘古

华为的盘古大模型除了像GPT-4这种通用模型外还提供了更聚焦的行业大模型和场景大模型，问了现场的工作人员这种更聚焦的大模型和通用大模型的差别仅在数据，一般来说要解决垂直行业或场景问题，哪怕仅是一个简单的知识库也是需要企业内部数据支持的，仅凭大模型是不行的。

2、自动驾驶

有面向民用的，例如蔚来汽车、特斯拉、极越，也有针对场景的toB端的解决方案，例如无人矿车，针对物流场景的无人驾驶等。

3、AI体检

通常我们要是想要得知自己身体的各项指标需要去医院抽血，更细致的要拍片等，在大会现场看到可以通过识别人脸就能给出部分身体指标数据的AI体检产品，例如血糖，血脂等，我没去体验，因为我不知道我实际的身体指标是多少，无从判断它的准确度，万一要是测出来有哪项指标不合格就挺糟心的。该产品背后的原理不难理解，就是一个通过人脸和对应指标数据训练出来的一个模型。