评估智能对话机器人的7大数据指标
如果你正负责一款智能对话机器人产品,不管是软件还是硬件,不管叫“小a”还是叫“小b”,总要遇到一个对于产品本身好坏的衡量指标的难题。如果你是leader更要弄清楚到底怎么给做这款产品的下属制定OKR及考核指标。
其实,当前多数对话机器人产品都还是一些长远战略布局的产品定位,既不能要求它达成百万千万的gmv,也不能要求它实现app那样的日活月活高留存。理解它的产品定位,理解当前你所在的对话机器人的领域,才能更清楚的去评判自家产品的好坏以及在竞品中的排名地位。
智能对话机器人,或者有些公司会将其命名为“智能助理”“智能小助手”,多数是以“工具+闲聊”的组合方式出现的,因此通常支持多个领域的支持多轮对话。而市面上的产品形态也以是否有GUI分为纯语音对话交互和多模态对话交互两种。
而本文讨论的目标产品主要聚焦在支持多模态对话交互的“工具+闲聊”的软硬件产品。当然,单轮指令式机器人或只有VUI的纯语音机器人也可以进行部分指标维度的借鉴,在此不做特别指出。
评估智能对话机器人产品的数据指标维度分为2大部分:产品维度指标、技术维度指标。本文重点聚焦产品维度的7大数据指标,同时给出3个核心技术维度指标供参考。
一、产品维度七大指标
1. 产品使用率
指标目的:分析用户对于产品的感兴趣度(与之相关的指标就是N日留存率,不在赘述)
指标含义:使用了对话机器人产品的用户数占用户总数或者曝光用户数的比例。
计算公式:使用用户数 / 总用户数或曝光用户数。其中分母根据产品类型有区分:如果是硬件类产品那么分母则是所售出的硬件总数;如果是软件类产品,则要分2种情况:1.独立对话机器人app则分母是每天打开app的用户数;2.寄生于主app上的对话机器人则分母是每天机器人入口的曝光用户数。
统计周期:按日、周、月
2. 最终结果触达率
指标目的:分析对话流程的流畅度
指标含义:使用了对话机器人产品的用户在有效会话中有多少比例获得了最终的结果(比如一段文本答案、一条图文链接等)
计算公式:最终结果数 / 会话session数
统计周期:按会话session,或按日
3. 结果准确率
指标目的:与上一个指标是关联指标,用于分析结果的准确程度
指标含义:每次有效会话结束,虽然产品给予了用户最终结果,但不一定是用户想要的正确结果。
计算公式:反馈给用户的正确的结果数 / 反馈结果总数。其中分子的统计口径有2种,一种是用户反馈的好评度(如果产品设计有这样的功能点),一种是人工抽样。
统计周期:按日
4. 平均对话轮次
指标目的:分析任务型对话机器人的对话流程健康度
指标含义:某一类任务(或技能)的对话轮次的平均数
计算公式:某类任务的对话轮次/某类任务的对话总数
统计周期:按日
5. 跳出率
指标目的:分析对话机器人的产品设计友好度
指标含义:某一类任务(或技能)对话中断的比例
计算公式:某类任务的对话中断数 /某类任务的对话总数
统计周期:按会话session,按日
6. 异常率
指标目的:分析对话机器人的异常率找出关键问题并快速修复
指标含义:用户使用对话机器人过程中的异常状况出现的比例
计算公式:异常报错数 / 会话session数
统计周期:按时、日
7. 推荐结果点击率
指标目的:分析有GUI的产品推荐内容的精准度
指标含义:在初始化场景或某类特定场景,产品给出推荐内容的用户接受比例
计算公式:推荐答案或内容的点击(或采纳)次数 / 推荐次数
统计周期:按会话session,按日
二、技术维度三大参考指标
1. 意图识别准确率
指标目的:意图识别直接影响最终结果是否准确,所以用于分析产品所涉及的领域内用户意图识别的准确率
指标含义:正确识别单次会话session用户意图识别的准确程度
2. 文本泛化能力
指标目的:好的泛化能力才能更好的支持人类语言表达的复杂性理解,也是nlp的核心指标
指标含义:对指定模块进行抽样,看是否支持提问文本、槽位等多种表达形式的识别
3. 纠错/同义/歧义处理能力
指标目的:用户进行文本/语音输入时,有概率产生错误的、别名类的、或者有歧义的表达,而系统能否根据上下文识别准确的含义或给出多种含义的可能性则直接影响产品的用户体验
指标含义:对用户的对话进行分析,找到三种细分场景的case进行抽样或模型比对给出相应的正确处理比例
本文作者:丸子妹,微信公众号:丸子笔记,欢迎随时讨论交流~
本文作者 @丸子笔记
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!