用户产品：敏捷体验度量思考与实践

AaronCui 2023-07-26 00:07:01

关于体验度量方法行业内案例已有一些，但普遍为较为全局，实施与结果输出成本相对较高，对一些小团队可能运用起来比较困难。

本文结合过往项目实际经验，从一个新的角度介绍，相对敏捷且普遍适用的小团队体验度量方法，较为完整地还原了从构建，实施，验证，最终成型的过程思考。体验度量好像近些年来正在成为行业内的一种新的趋势，希望这篇文章能对大家在体验度量方面的工作有所启发。

Ps: 文章少部分内容对设计圈内成熟的体验度量经验分享有所借鉴与参考，在此表示衷心的感谢。

随着体验设计行业和相关职业逐渐走向深耕，价值一词被越来越多地提及。我们进行这次体验设计度量实践的原动力，某种意义上讲，也是源于我们对于体验设计价值的新的理解或者说一次新的尝试。

长文预警，本文主要包含以下内容：

体验设计价值理解
什么是体验度量
为什么要做体验度量及其重要性
如何进行体验度量
全文要点总结

01 体验设计价值的理解

这些年体验设计价值越来越多的被提起及受到重视，但是大部分设计师或者从业者，普遍还是说不清楚感受不到，弄不明白体验设计的价值到底是什么？

我个人目前的理解是：用户体验设计与业务价值的强关联，是其真正的价值体现。用户体验不是主观的艺术，它有一套科学的、可度量的设计方法和策略。

体验设计的价值是更好的实现产品价值、用户价值、商业价值、社会价值的交付。也是基于这种理解以及对价值的追求，驱使我们进行了公司内信息流项目的体验度量工作。

02 什么是体验度量

目前行业内好像还没有特别明确的体验度量的定义，在《用户体验度量》一书中，作者：Tom Tullis & Bill Albert 大概给出了如下定义：

“度量”是一种测量或评价特定现象或事物的方法（需建立在一套可靠的测量体系之上）。

“用户体验度量”是建立在一套可靠的测量体系上: 使用同一类的测量手段对事物进行测量时，得到的结果是可以相互比较的，所有用户体验度量都是可观测、可量化并以数字的形式表示出来的。

这个定义我个人觉得不是特别直观易理解，我们可以提炼一下其中的关键词：可靠的测量体系，可观测的量化表达。基于这些关键词，我尝试给用户体验度量一个更直观且易于理解的定义：

用户体验度量是： 通过一套可靠的测量体系，量化用户体验的过程
是让用户体验从“抽象”到“具象”的过程
是使用户体验从“玄学”到“科学”的重要基础
是更好的实现体验设计价值及体验设计体系化的关键路径

03 为什么要做体验度量

我想每个设计师职业生涯中普遍都会面临一些趋于一致的“灵魂拷问&质疑&难以回答的问题”：

你们对产品指标有什么贡献？
我觉得这个优化没有竞品的好？
你怎么证明你做的更好？
你做了这么多对产品有多大影响？
我觉得你做这些没有意义
你们只关心美不美，浪费资源
我们看着可不如就竞品好

为什么会面临这些“拷问&质疑&难以回答的问题”？

这个问题曾经其实也困扰了我很久，后来随着工作时间渐长，自己更多的思考结合与业界各种大神之间灵魂的交流，可以尝试解答一下这个问题。

原因主要有两点：

大部分人其实并不知道用户体验具体是什么，因为体验是一种很主观的东西，看不见也摸不着，但又确实能感受到它的存在，“一万个人心中有一万个阿姆雷特”。

用户体验这个命题非常大，设计范畴十分广阔没办法单纯地以“好用”和“不好用”作为简单直接的衡量标准。

所以，当没有绝对权威及清晰且合适的标准的时候，结果往往就是：别人用自己的“感觉”质疑你的“感觉”，你也会用自己的感觉质疑同行水准。

比如，很多设计师可能没有办法理解，某公司一个简单的品牌升级，需要花费几百万的设计费用，在我们看来，这个logo我一天能画10个。多半是因为我们自己很多时候也看不到设计背后的完整链路和其带来的长远价值。

那用户体验真的是一种“玄学”吗？

这个答案一定是否定的，不然那些被设计师疯狂喜爱的、伟大的公司也不可能成功。如：乔布斯构建起来的商业帝国，目前已经是全球最有价值的公司。

用户体验其实是有一套科学的、可度量的设计方法和策略的。设计师的问题在于，如何真正在工作中运用“用户体验”的思维，在产品中完成落地，在商业中获得价值和利益。

设计师不单单是体验微观的设计者，更是体验宏观的管理者。设计师本质上也可以理解为是在不断追求更好的构建与管理用户体验。

基于以上认识回到本节问题，我们做体验度量的原因：

现代管理学之父：Peter F. Drucker 有一句名言：If you can’t measure it，you can’t manage it（如果你不能很好地度量它，也就无法有效地管理它）

国内设计圈也有一些普遍共识：

如果不能获得用户可量化的反馈结果，就很难谈有改进迭代的效率
如果体验设计不能很好的被证明，就很难谈设计存在的价值
如果体验设计价值不能很好的被体现，就很难规避“某些”质疑

所以这就是我们需要进行体验度量的原因：为了更好的设计，为了更多的价值。

因为体验度量可以帮助设计师获得：

直观的体验感
明确的资源投入方向
良好的用户体验管理
价值性的探索设计破局点
清晰的设计价值体现&进阶

体验度量与可用性测试的区别：

有时候我们容易讲体验度量与传统可用性测试相混淆，但两者其实是有显著区分的。

可用性测试：更多的是关注用户使用产品成功完成某项任务的能力
用户体验度量：是更宏观的视角，强调用户与产品之间的整体交互，以及在交互过程中形成的想法、感受和感知

以上，我通过介绍自己对体验设计价值的理解，及什么是体验度量、为什么要做体验度量的分析，阐述了体验度量的基本概念及进行体验度量的重要意义。下面通过对之前工作中进行的，信息流项目体验度量评测过程的回顾，向大家讲解如何进行体验评测（从构建到实施）。

04 如何进行体验度量

找准体验度量切入点：

度量需要方法，而方法构建的第一步是找准切入点影响用户体验的因素有哪些呢？

美国著名学者：Fred D. Davis：

1989年，在技术接受模型(TAM )中，指出了两个影响技术类产品使用的核心因素：“有用性”和“易用性”

有用性：在使用某一特定系统时，主观上认为其所带来的实际作用户用、价值（有没有用的问题）。
易用性：用户在使用某一特定系统时，主观上认为简单、易理解、愉悦、顺畅的程度。

“有用性”更多是产品能力本身层面的属性，关乎功能和商业；而“易用性”则是设计师大多数情况下更能把握和发力的核心，也是大多数体验度量模型的切入点。所以，信息流体验度量工作的切入点是：从度量产品的易用性角度切入。

切入点找到了，那有没有成熟的方法可以直接套用或者借鉴学习？

目前较为成熟体验度量模型：国际标杆模型Google HEART，国内大厂较为成熟的模型阿里云的UES，蚂蚁金服的TECH, 哈罗出行的体验度量模型，以及网页时代的经典PULSE 模型。

在分析中发现，PULSE模型诞生比较早（还是互联网的洪荒时代）且指标更多关注网页产品的可用性（只要确保产品能稳定快速运行，不会出现负面的体验就行了），不是非常适合我们。而Google的HEART模型属于经典模式，适用于大部分C端产品，其他几种模式也基本脱胎与它，或对他有所借鉴。所以，我们找到的巨人就是Google HEART模型。

Google HEART模型评测模式: 其定义了体验评价的5个维度，每个维度定义了对应的指标及相应的度量手段。从而完成抽象至具象的过程，实现体验评测，检测。

Google HEART模型评测模式

模式方式清楚了，那“巨人”有什么特点呢？通过发分析我们总结了HEART模型如下特点，我把它分成优势与成本（都是相对而言的）：

Google HEART模型特点

模型优势：全维度、多参数、多角度、系统性的评估方式，评测着眼角度为产品全局且有大厂背书值得信赖。

与此相对应的，此种评测方式也带来了相应的成本：实施成本较高；结果分析输出成本高（如项目内无良好且完善的数据统计及分析工具基础）；跨部门协作依存度较高（强调多部门较好的协同配合）。

那HEART模式适用于我们的项目吗？于是，我们对我们项目的特点也进行了简单分析：

产品特点：为公司APP内的一个功能模块
项目特点：基础设施不完善，项目资源相对紧张，节奏快
迫切困惑：体验与头部竞品差异较大，设计急需明确发力点（是内容导致？是使用体验所致？…）
服务特点：内容消费，多为图文内容（自身内容特征），核心流程较为聚焦
设计侧特点：人员有限（3UI+1UE），支持常规需求+体验驱动需求

通过对大厂模型与自身特点的对照，我们发现：进行类似HEART模型式的全维度评估，似乎不能较好且有效率的解决我们当前的迫切问题，落地实施对我们当前项目现状来说也仿佛有点难。

通过进一步分析现有“巨人”模型，发现其除了普遍借鉴、参考了HEART模型外，还有具有一个共同特征，同时，我们也得到了一个新的认识：

一个共同特征：

它们各有切入点，也各有其适应场景。虽然方法各具特色、不尽相同，思维却可归纳。无论模型怎么变化，表达产品体验的重要度量指标，总逃不开这三个范围：用户感受、用户行为、系统表现。

一个新的认识：

体验度量具有较强的业务特点：不同的业务类型、业务阶段、业务规模、资源情况都会有与之相配的不同的合适的度量方式。

基于以上理解，得出结论：现成的模型很好，但是我们不合适。

信息流项目需要的是：我们当前需要的应该是与当前项目特点，项目情况，产品特征、阶段性目标匹配的专有评估方法。

所以下一步我们需要制定体验度量的目标，对当前我们体验度量的目标进行梳理：

量化并跟踪信息流核心使用流程的用户体验水平
量化并跟踪信息流产品在核心流程上与主流竞品的优势与差距
指导设计侧体验优化工作方向，验证体验优化结果，推动产品排期
解决我们体验优势是什么？好多少。我们体验劣势是什么？差多少的问题

基于对项目特点，当前度量目标的拆解，我们分析出适合我们自身的体验评测方式：

聚焦搜索APP信息流模块
关注用户核心使用流程的体验
更多着眼用户主观感受
清晰与竞品差距与机会点

接下来我们结合前期分析，提炼了信息流核心路径感官体验评测的评价维度：

信息流核心路径感官体验评测的评价维度

基于信息流内容消费的产品形态特征，结合项目现阶段困惑、目标、资源能力确定评测维度为：

接受度（内容质量、整体使用感受）
愉悦度（清晰度，样式舒适美观度，特色功能）
任务效率（功能易用性、完备度）

依据确认的维度，提炼明确了评测的目标物：

核心内容质量（图文内容为主）
主路径使用感受（易用性，一致性，设计舒适度）
核心功能使用感受（评论，赞&不喜欢，分享等
整体体验感受（主观感受打分
主竞品的同维度对比

根据本次体验评测特征（倾向主观感受评测），结合对业内成熟评测方法的参考分析，确定本次评测的形式：采用专家评估。

我们又参考了一些启发式评估的经验数据（如：试验表明，每个评审人员平均可以发现35％的可用性问题，而5个评审人员可以发现大约75％的可用性问题）

将评测形式进一步明确为：

通过每期招募不少于10名符合要求的“专家” ,通过一对多前期宣讲，投放调研问卷，集中评测的形式进行信息流核心路径感官体验评测。

什么样的专家是符合标准的：

信息流核心路径感官体验评测的评价维度

结合信息流核心路径感官体验评测的特点，我们梳理出了适合本次评测专家的标准：

公司内部招募
优先被评测项目，项目组内成员
设计职能为主，产品职能为辅
专家尽量阶段性固定（考虑到多次实施成本，及结果的可靠性）

基于以上，我们最终确定了信息流核心路径感官体验评测的最终形式：

项目组内UX为主体，兼顾产品，运营，开发等角色组成的专家式评估。每期招募不少于10名符合要求的“专家”通过一对多前期宣讲，填写问卷，集中评测的形式进行信息流核心路径感官体验评测。

评测形式确定后，下一步我们就要着手进行调研问卷的设计：

根据前期分析推导结合信息流产品特点与近期目标设定调研问卷大框架

明确列表至图文详情页核心主路径的评测细节点
明确主要评测流程：先看、看那些、看多少而后后评
明确评测采样机型：根据后台机型数据覆盖，抽取主流用户覆盖机型进行评测
明确主要对标竞品：**，**

根据框架指引，最终我们设计了:（经过多轮修改，也借鉴了许多成熟的可用性，易用性相关问卷等）

针对列表：内容、样式、整体三维度，10题5分制问卷
针对详情页：内容、样式、功能、整体三维度，21题5分制问卷

初版问卷示意（非最终版）

完成完整方法设计后，我们立即推动执行了首轮《信息流核心路径感官体验评测》:

首轮评测共招募专家13人：UED侧7名、产品&运营侧6名专家（项目组内）
通过2天集中组织的测评，完成首轮信息流核心路径感官体验评测,评测部分工作

其实，首轮评测除了前面讲到的目标，我们还有两个额外较为重要的目标：

初步验证整体评测方法的可行性
获取体验评价体系基准点，作为核心流程体验优化的参考系(前面提到了，本次评测核心目标之一为：迫切的想解决我们与头部竞品的体验主要差异问题

在完成评测后，我们分析输出了首轮评测的结果。通过对结果的分析，我们也得到了一些有价值的结论：

量化明确了我们与头部竞品在内容层面的具体差异
定位了样式层面的问题及与竞品的差异点，帮助设计师确定下一步工作目标
透过功能层面分数对比，看出一些特色功能对用户的整体感受影响显著（定位深入探索的方向）

在通过第一次体验评测完成基点贮备与目标确认后，我们针对性推动了核心流程体验优化工作：

针对性体验优化行动路径

由于有量化的评测结论佐证与指引，结合明确的行动目标、清晰的行动路径，使得整个体验提升计划，以较高效率完成实施上线。

经过一段时间线上沉淀后，我们在疫情期间，通过线上组织进行了第二次信息流核心路径感官体验评测（线上评测也是不得已而为之的一次有趣尝试，最终从实施过程及结果上也验证了，之前对评测专家应阶段性固定设定的价值，确实会逐步提升评测的效率与结果可靠性）。

第二次体验评测的关键性结论：

得益于第一次评测的指引，我们发现在第二次评测中我们的产品在：内容、样式、功能层面体验评测分都有非常不错的提升，也验证了针对性体验提升计划，方向是正确的、结果是成功的。

通过依据对评测结果分析后的针对性回访调研，也发现了一些之前缺乏关注的体验问题点。同时，通过对功能评分数据的详细分析：明确围绕产品某些特定模块的创新挖掘，为下一步体验设计突破方向。

自己在心里其实，是将两次评测定义为验证性评测，去验证我们的方法，我们的思考，我们的假设等等。

总结一下，通过两次体验评测或验证我们都收获了什么：

针对性体验优化行动路径

我们验证并实践了信息流体验评测方法
我们获得了信息流体验评测的基点储备
我们量化了产品当前的体验水平以及与头部竞品的差异
基于评测我们最终完成信息流项目的体验升级计划的最后一环，并得到了科学的验证。同时，具象化的解决了项目长期的体验困惑
进一步提升了体验设计部门在项目组内的“权威性”，变相提升了整体项目组的运转效率
解决了后面怎么走的问题，明确了创新方向，解决了资源投向的问题，也为项目中的设计决策提供了重要的新参考系

同时，经过这两次评测，我们也有一些思考或者说反思：

评测维度是否完真正彻底整覆盖核心使用流程
有无更加效率的评测方式（线上vs线下，因为前期专家侧评估时间周期较长）
问卷设计是否非常合理（咨询用研专家结合专家讨论）
最终统计方式、结果是否合理且可信
需要推动建立固定评测机制，从而产生长效收益

基于以上的思考与反思，我们组织了包含评测设计者、执行者、参与者以及用研专家的复盘会，对评测方式进行了如下几个方面的优化改进：

重新梳理评测维度(结合全新的全新的维度拆解）对核心流程评测维度进行细化
优化题目&分数（优化不易理解的题目及题目循序，优化题目总数与分数设置梯度等使之评测过程更符合用户使用与思考逻辑，降低评测难度。同时，提升评测结果的可靠性与统计难易度）
优化评测流程（对评测流程细化，对每一个环节设定详细的操作说明与注意事项，如：增加提前使用环节及其实施说明）
优化数据计算机制（增加数据清洗环节，增加用户评测问卷验证可靠性验证，增加数据信度分析）

通过以上，我们优化输出了《信息流核心路径感官体验评测》第三版。

同时，基于对评测过程效率的思考，我们尝试启用了去中心化评测形式（线上集中宣讲，线下一段时间内分散评测集中回收的评测方式）

基于对问卷可靠度的思考，我们设计了精简版更“普世化”的用户问卷，同步在线上向真实信息流普通用户进行投放。考虑到信息流用户问卷填写意愿普遍较低的客观事实，及问卷的属性，结合用户研究有效问卷回收的经验值，我们设定了用户侧问卷回收的有效标准：最佳目标500份，不少于200份。

通过参考业内成熟经验，及用研专家建议结合信息流体验评测的自身特征，我们设定了体验总评分 = 专家分*0.8 + 用户分*0.2 的计算方式。

完成以上工作后，我们按照既定计划，组织实施了第三次信息流核心路径感官体验评测（结果详细数据属于敏感数据，在此不做详细介绍，大家见谅）

说一下第三次评测结果输出的变化：