如何评测语音助手的智能程度（5）：指标权重设计

饭大官人 2023-07-22 06:02:32

知己知彼，百战不殆，调研评测其他公司的产品是从业者的日常操作，那么当一个产品放到我们手里的时候，到底看什么呢？看哪些方面呢？专业性不到位的同学怕是无法下手。

而往往具备专业视角的人则游刃有余，他们知道考虑哪些点，结构清晰，主次分明，用解构的方式去理解一款产品，这才是AI从业者专业化思考的表现。

如何定义权重

哪位同学问了，这四大维度，什么是重点呢？答案是：基于需求自定义。

定义权重高低，两个维度考量，一个是行业需求，一个是硬件载体。

行业需求（出行、教育、医疗、金融、电商、旅游、餐饮、客服等）
硬件载体（音箱、耳机、手表、车机、机器人等）

AI智能助手，往往都会解决某个行业领域的特定业务需求。AI智能助手，往往都存在于一个或多个硬件载体上，与人类进行交互行为。跟买房子、招聘员工所考虑的标准非常多一样，你在意什么，就给对应维度，对应指标以高权重。

比如：某产品的定位是用来听歌的，【意图理解】各个模块做得非常好，但是由于版权原因，无法播放，这个对用户而言就非常糟糕，因为满足不了听歌的需求。

再比如：某助手的定位是线下生活服务，比如订外卖或者是电影票，这类往往不具备版权垄断特质，但由于业务流程的复杂，有太多叠加查询条件，自然对【意图理解】有很高的权重要求。

再比如：某个玩具/手办具备语音交互功能，用户非常在意玩具/手办的语音交互是否匹配角色气质，故而对这类用户而言，【人格特质】就是高权重。

大维度自定义权重，同理，每个维度上的指标也基于需求自定义。

如何评测语音助手的智能程度（5）：指标权重设计

指标的选择和量化

做清单真的是一件非常麻烦和费脑力的事情，这份清单花了笔者太多的时间，有太多的问题值得讨论。

为什么是4个维度，而不是5个或者是3个？
各维度是否穷尽了“智能化”评测的角度？
每个维度的指标是不是做到了穷举？
每个维度的指标是不是平行、独立关系？
每个指标的用词的和定义是否精准无歧义且易于理解？
基于什么依据设置每个维度的重点和加分项？

特别是在保留哪些指标，合并哪些指标之间，笔者做了很多权衡。

哪位同学说了，你遗漏了一个指标：语音识别表现，这个指标，与其说是遗漏，不如说是笔者的选择。

笔者所知道的，目前最好的ASR识别率是97%，且这已经是非常成熟的技术。ASR和TTS在未来属于AI领域水电煤一样的基础服务，就跟选腾讯云还是阿里云一样，花钱选技术买服务就能搞定，差距不会太大，故而不值得纳入评测范畴。

故而这类语音识别的基础表现，就直接归到【交互流畅】维度“服务稳定性”指标上了。

ASR这项技术未来差距一定会被抹平，而如果做到了方言（音轨）转普通话（音轨）然后转文本那就是另外一个话题了，方言转普通话和任何一种语言转普通话才是同一逻辑。那笔者可能会归纳到【意图理解】维度上。

这就是笔者选择指标，以及归类的逻辑。上面的这些问题考虑，笔者已经尽自己所能去做到MECE了。

笔者力求全面，但并非每一个都需要用到，各位同学也可以基于自己的需求，自由添加、删除和修改分类。

例如：如果是一个智能耳机或者语义翻译棒，那么“反馈样式丰富性”上，就不必要纳入评测范围了。

但选择本身就是一个难题，这件事情非常考验认知，我举个例子：苹果手机前面几代产品，玻璃屏幕特别不耐摔，这在诺基亚的评测维度里面，是无法出厂的。后来的故事，我们都知道了，这个故事各位细品。

指标的量化标准，这对大家也不是一个难题。拿测试集去验证，最终统计各个指标的表现，然后再横向比较竞品就好。

商业比得是相对位置，而不是绝对指标，即，我不需要考满分，我只要在这个科目上，领先与其他竞品一段距离就好，然后就可以宣称，这是当前市面上“某某指标”表现最好的产品。

产品的上限和下限

除去调研和评测其他AI助手，这份清单的还可以用于立项做产品定位，以及当checklist评价产品表现。

产品在立项的时候，要哪些不要哪些，边界范围有多大，就是一个思考题。一开始，各音箱都是没屏幕的，大家都在抄亚马逊的Echo，后面为什么又出现了有屏幕的音箱呢？这个就是产品的定位和选择。

从商业逻辑上来看，有明显缺陷的产品无法存活于市场，没有长板的产品也注定平庸。而企业也没法把所有的资源平均分配，那样的东西注定平庸，唯有极致才可以生存。

上限就是自己的产品卖点，这样才能够从竞争之中脱颖而出。

典型如一些千元智能手机，大多数资源都分配到CPU和大屏幕上，其他的硬件一律堪堪及格线就好，这2个卖点到位，就能够出现在各种评测上做到前列，继而去影响消费者选择。

而再烂的智能手机也要搭配一颗摄像头，且摄像头的性能表现不能低于某个标准，如果这个太烂的话，注定无法存活。前面苹果手机的例子，其实也抗震，不是一摔就碎的东西，这种就是下限保障。

下限要做到什么程度，这个就是及格线，存活于市场的前提。

在保证了及格线达到平均线标准之后，理所应当把更多的资源堆到某个维度上。大家比的是在资源有限的前提下，基于定位做产品交付。

每个维度都做好，不现实，也不正确。

战略的第一步就是放弃，敢放弃什么，拼的是认知。

总结

综上所述：

基于产品定位选择重要的维度和指标，做权重优先级排序。
基于选择的指标，使其数值可衡量，做量化标准。
基于公司资源保障产品下限，基于人才禀赋提升上限。

说明书介绍完毕，可用于立项定位产品，也可以就已有产品做评测，量化优缺点，做迭代改进升级。掌握使用说明书，这份清单的价值也就到位了。

在遇到问题时，高手和普通人的思维决策过程不一样。

普通人是逢山开路遇水搭桥，也就是我们常说的见招拆招。高手却总是为自己制定各种决策系统，在遇到问题时直接依据清单做决策。

人的理性是有限的，见招拆招，总会遇到环境影响，情绪波动的时候，结果往往不可控。而以原则清单行事则更加可控，减少纠结犹豫，提升效率，所以高手有时候就像是一台稳定而又客观的程序，冷静而又客观，更容易做出正确理性的决策。

笔者在设计评测指标的时候，往往是朝着最理想的人工智能去做比对的，它能帮助我们在各个维度上去逼近超级人工智能，打造令人尖叫的产品。

谢谢各位看到这里，希望这份业务清单能够帮助到大家。

如何评测语音助手的智能程度（5）：指标权重设计

如何定义权重

指标的选择和量化

产品的上限和下限

总结

相关阅读

相关文章