移动 APP 可用性测试：实验室测试和现场测试的比较（上）

2016-10-09 09:30:00

当测试一款移动APP的用户界面时，现场测试可能不是最好的选择；多数还是因为它比实验室测试更加耗时。

可用性测试的重点

可用性测试是在移动APP在设计、投入市场后用来评估可用性的一种常用工具。可用性测试实施时一般是使用发声思考，即用户在一个测试环境中被给予任务，并鼓励他们在尝试完成任务时出声思考。这能够帮助可用性测试的主试即实验者知道用户界面（APP设计）是如何帮助用户自然地思考和执行操作，强调对于产品的特色和改善方法的认知。

如何去定义一个可用性问题修改的紧迫性？

可用性问题的严重等级是一个重要的因素。当这个问题阻止用户任务完成时，就需要最紧急的修复行动了。Dumas和Redish（1993）使用了4个关键等级，至今仍被用户研究员引用的较多：第一个等级为最严重的等级，表示最严重的问题，第四个等级为表示最轻的严重性。Kallio等人（2004）也将问题按严重性进行分类：高（导致任务执行失败），中等（不是那么严重，任务可以完成）和低（小问题）。

实验室 VS 现场

传统的实验室测试

传统的可用性测试一般是在可用性测试实验室实施完成，如阿里、网易游戏都有专业的实验室，一般是由一间类似于办公室的区域和一面单向玻璃的可监视房间组成。必须保障实验室环境是一个安静的空间，测试的用户能够全神贯注于任务的执行。

实验室测试的担忧

经常在实验室进行测试的用户研究员都会担心在实验室进行的评估会由于没有模仿用户的使用情境而缺少生态效度。因为在现实的使用场景中，打断、移动、声音和多重任务操作等，这些没有出现在实验室测试中的因素，都可能在现实情景中影响到用户的操作。

现场测试

然而现场的可用性测试是非常罕见的，大部分（70%以上）的移动APP评估是在实验室设备中做的。这可能是因为数据的收集，如出声思考、视频记录或者观察记录，这些在现场做比较困难。

幸好由于便携式录像设备在近两年快速发展，使得在现场进行用户测试变得容易些。这些发展允许用户研究员像在实验室那样，可以在现场做一些小测试了；也使得他们能够有意识的去跟踪屏幕上发生的事情，去倾听用户的评论。同时也允许在现场的可用性测试中使用出声思考的方法。尽管发展了合适的工具，现场测试仍然比实验室更加耗时，也可能需要测试的用户和主持人付出更大的努力。

研究目的

敏捷用研在APP快速迭代开发的环境下被提出和倡导，以用户为中心的设计和可用性测试一定要非常高效。敏捷测试需要用户研究员在产品开发时间被严格限制的期间内，发现最重大的可用性问题在上线前进行修复。所以，可用性测试的焦点绝不是发现每个可能的细小问题。

如何使测试的结果最优化，选择正确的评估方法尤为重要。对可用性测试者来说，经过科学验证的合适的测试方法是非常宝贵的。在我们的研究中，主要的目的是了解清楚，当评估移动APP可用性时，现场测试是否有风险，或者实验室环境是否可以模拟出足够的生态效度。

对比研究

为了解清楚可用性测试中环境的影响，我们实施了一个对比研究，即同时在现场和实验室两种环境下开展可用性测试，并且保证其他因素（执行的任务，发声思考的方法等）都是一样的，只有测试的环境不同。

两种测试环境分别是：

实验室：一般用户研究员进行可用性测试的地方，预算较低；
现场：一个用户会真正使用移动APP的地方。

研究问题和假设

（1）问题：在实验室和现场会发现同样数量的问题和现象吗？

假设：如果进行对比的两组测试都是在足够多的用户中进行，那么现场测试发现的问题数量会更多。

（2）问题：在两个测试环境中发现的问题和现象会是一样的吗？如果不是，有什么差异？

假设：两种环境中的问题将会是不同的。例如最常下载时间在现场可能更能被容忍。

（3）问题：如果发现的问题有不同，那么是因为实验室或现场发生问题的严重性不同吗？

假设：现场的问题会因为在任务执行过程中被打断而更加严重。

（4）问题：任务执行时间会不同吗？由此我们可以从测试中推断出什么？

假设：任务执行时间在现场将会更长。

（5）问题：环境会影响测试用户的执行吗？

假设：现场测试的任务在执行过程中将会有更多的被打断机会，而打断行为的发生次数会影响用户操作。

（6）问题：当评估移动APP的可用性时，是实验室更适合还是现场测试更合适？

假设：当评估移动APP的可用性时，现场测试将会更适合，因为情境影响使用和操作。

研究结果

然而对比研究的结果使我们惊讶，因为结果并没有支持大部分我们之前的假设。

（1）问题：在实验室和现场会发现同样数量的问题和现象吗？

根据我们的研究：现场测试发现的问题会比实验室多，但并未达到显著差异。

我们的假设是在现场测试会发现更多的问题，但是没有被实验结果支持。

（2）问题：在两个测试环境中发现的问题和现象是一样的吗？如果不是，有什么差异？

尽管观察到了同样的问题，但是同一问题在现场测试中发生的频率更高。

（3）问题：如果发现的问题有不同，那么是因为实验室或现场发生问题的严重性不同吗？

假设是在现场会发现更多严重的问题，但是没有被证实。有关问题的严重性，在两种测试环境中没有差异。

（4）问题：任务执行时间会不同吗？由此我们可以从测试中推断出什么？

个人任务完成的时间，现场测试的用户没有比实验室测试的用户更长。当然在测试所需要的总时间上，现场的确要比实验室长，这说明现场测试是一个更消耗时间的方法。

（5）问题：环境会影响测试用户的执行吗？

在现场，测试有潜在的干扰，但是对于用户的操作似乎没有太大的影响。因为当执行复杂任务时，用户会寻找一个安全的地方（方位/角度）去执行，只有一小部分用户会一边执行一边踱步。在现场，用户的注意力会非常集中在测试上，例如在进出地铁时也会持续工作，在地铁上他们似乎也没有被其他地铁乘客打扰到，即使其他乘客会来和主持人说话。

尽管主持人的行为在两场测试中是一样的，但是现场测试中用户的表现似乎更加放松、随便，表现在他们更频繁的去发表关于APP的评论。