大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

Cheese 2024-03-20 09:17:34

由于业务升级和迭代的诉求，近来在对国内外的大模型产品进行业务选型，所以本文通过一个真实的场景事件来测评一下，到底谁更聪明～

企业业务场景：智能客服迭代优化

语音转文字，（包含多人对话、多方言对话、长语音识别）
企业知识库录入，员工通过对话流查询知识库信息；
客服坐席助手：能够通过文字判断出现在的场景，提供具体的指导方案；

以上是粗略的业务方的需求进行概括，所以几个产品进行测评。先不讨论技术指标、数据安全性的层面，这些内容后续会逐步分享。

本周正好发生了一件乌龙事件，我讲事件和对话流喂给几个大模型，看看谁理解了这件事，本文想分享一件非常有趣的案例：

本次测评对象：Chat- GPT 3.5 、文心大模型3.5、通义千问、星火大模型

事件还原：

我原定放在门口的退货快递鼠标被保洁阿姨误认为是垃圾清理走了，我认为是丢件通知了管家帮忙看下，在管家的协助下，找到保洁阿姨找回快递，但是丢了一个配件；此时我需要联系官方客服确定此时是否支持退货，or给一个赔偿配件的钱，我找保洁进行赔偿。

所以这个事情下，我找了某东的官方客服进行情况说明：

需求：给出这种场景下的售后方案；

对话截图还原：

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

首先几家都不支持识别图片，需要我转文本一遍，所以我就用了微信的这个图片文字识别能力，删除了一部分其他明显不是对话流的文本。

值得比较的问题

1. 对话流投喂拆分段落

拆分准确率：Chat-GPT>通义千问>文心

这块完全讯飞垮了，没拆分出来；

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

文心：按照对话人进行拆分，但是没有整合，准确率上：有5句分错人

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

通义：按照对话人进行拆分和合并，有2句话分错人

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

讯飞：完全没分区分出来，准确率不做评估

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

Chat-gpt：区分对话人进行并进行整理，主动清理了部分杂乱数据，1句分错人；

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

2. 在这个场景中，客户的诉求是什么呢

对比：Chat-GPT=通义>讯飞>文心

[fancyad id=”45″

我这里更想知道的是这种情形下：

配件缺失情况下是否支持退货，或者可以以补差价的形式进行退货；
急切处理

文心：理解有些偏差，第一点完全不对；表达啰嗦；

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

Chat- GPT：第一意图理解准确，表达清晰

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

通义：意图理解准确，表达清晰

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

讯飞：意图理解准确，没有结构化表达

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

3. 这里客户是需要谁来赔偿这个配件的缺失呢

准确率：通义>文心>星火>Chat-GPT

我的本意：

这里肯定是保洁阿姨的责任，管家找到她拿回快递这里已经是实锤了，但是有可能还有快递没有及时取件的锅。

通义：第一遍问答通用性回答；第二遍场景引导后，回答比较准确；

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

文心：第一遍问答能够给出答案，1点点啰嗦；

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

Chat- GPT：完全没回答准确，偏离较远，明显感觉此时胡扯🤬

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

星火：第一遍问答有答案，但是第二段cue到了商家，有点不对劲

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

4. 请还原一下这个事件的全部链路

补充信息：客户在京东商城购买了鼠标，退货当天12点离开家，将快递放在门口的鞋柜上，下午15点快递取件未找到，然后客户联系了管家协助，同时报警，其他的信息请通过对话流信息还原;

对比：通义>Chat-GPT>星火>文心

文心上来就开写小作文哈哈哈哈，yy的内容真不少。

文心：前面还正常，后面完全当个小作文来些了，还有happy ending 哈哈哈哈

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

Chat-GPT：信息还原完整，有着重关注客户的需求

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

通义：还原准确，并且有参考之前聊的客服的内容，单独将客服的回复摘出来

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

星火：还原准确，逐条有时间线

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

所以对于这个事件，请进行总结，包含事件的发生的场景还原，责任方，赔偿方、客户希望的解决方案，客服团队如何引以为戒优化工作流程、以及对于客户的赔偿办法。

对比：通义>Chat-GPT>星火>文心（这里通义非常优秀）

Chat- GPT：回答简洁，但是我认为对与客服的提升，应该要准确的识别客户的诉求，该加急处理就加急，这次明显是没有提供及时的解决方案

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

通义：回答十分优秀，责任方和客户意图理解的都挺到位的，也根据当前会话的主题，提供有效了流程建议

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

文心：又开始写小作文了！！他真的好爱写作文！

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

星火：基本对吧，但是把商城扯进来了，中等准确

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

这个事情，你认为客户是真的报警了还是吓唬客服的呢。

这个问题，也是最后想到的。

其实我没报警，只是想让客服给我赶紧处理，所以我把这个问题作为本场测验的最后一问，果然，大家的回答都是一样的哈哈。

结论：他们还是不知道我撒谎。

大家看看各自的回复，暂无对比。

文心：不管报不报警，客服好好处理

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

通义：基本认为报警

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

星火：和文心差不多

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

Chat- GPT：基本认为报警

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

这次的测评事件，我准备下周再找通义的售前聊一下解决方案。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品经理 ChatGPT 大模型产品文心一言星火通义千问

上一篇 > 昔日被追捧的“新零售”不行了？
下一篇 > Ivan Zhao：如何定义 Notion ？NotionAI 是如何诞生的？

太好了是AI搜索引擎，我们有救了！

AI产品观察：“投资版ChatGPT”，你真的敢信吗—ArborChat

突遭下架，“国服最强”开源模型将何去何从？

治愈你的客户，用ChatGPT写出高级的“宜家风”卖货文案

产品经理的AI基础，通俗理解 ChatGPT 的含义

太气愤了！15年老员工恶意被裁！快来学习如何用ChatGPT写劳动仲裁书

单品用户留存逼近Chatgpt，这家应用厂商如何做到月流水600万美金

文心一言非会员限速，会成为下一个百度网盘吗？

百度智能云：最新旗舰大模型文心4.0 Turbo开放精调服务

用 AI 做数据分析，是真的快！

Coatue最新报告：具身智能永远不会有ChatGPT时刻

不走寻常路，如何用ChatGPT做反向营销？

AI“幻觉”的类型、原因与应对方法（2/3）——为什么会产生AI“幻觉”

拆解了30条万赞的抖音同城探店短视频后，我用ChatGPT做了一个同城探店短视频文案助手

为什么我推荐B端产品经理都来用大模型

口播短视频带货，1条视频卖出5000单！这样的文案如何用ChatGPT生成？

10min 搞定 AI 用户画像（上）-ChatGPT 用户画像 prompt 大揭秘

尽管热议不断，但 ChatGPT 等生成式人工智能工具的日常使用率却很低

带货短视频的评论区异议，如何用ChatGPT生产回复话术，转危为机，提升成交率？

大模型价格，真正“捅穿地心”

如何用ChatGPT写短视频口播带货文案？这个故事带货的模版请一定收藏好

如何用ChatGPT追热点？这个方法你一定要知道！

GPT-4o手写板书以假乱真惊呆网友！杀死谷歌翻译，代码建模无所不能

一键召唤AI助手：通义千问入驻钉钉，百万字级文档解读触手可及

Chat GPT 以及人工智能类产品会取代产品经理的工作么？

怎么设计大模型产品，才能真正结合业务，让用户感受到价值？

直播技术选型全解析：选择最佳音视频解决方案的关键因素

如何用ChatGPT写带货短视频文案？90%的人都搞错了方向

“越长”就越强？为何通义千问卷不动Kimi

AI智能应用初探索

黄子韬道歉上热搜！如何用ChatGPT写舆情危机话术？

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

值得比较的问题

1. 对话流投喂拆分段落

2. 在这个场景中，客户的诉求是什么呢

3. 这里客户是需要谁来赔偿这个配件的缺失呢

4. 请还原一下这个事件的全部链路

相关文章