问卷调研结果的可信度:随机抽样与调研样本量
在以往的问卷调研中,有的同学总会问到两个关键性问题:
Q1.“做问卷调研,需要多少的目标用户?”
Q2.“调研的目标用户难以触达,只有X份问卷数量够吗?”(问卷数量少,不足百份)
通常来说,用户研究员的建议是根据调研要回答的问题,至少能回收384份有效问卷,有条件的话可以在此基础上提高回收量。那么“384”这个数字是怎么得出来的?问卷调研的回收量一定要达到这个标准吗?如果达不到这个标准,对调研的结果有什么影响?要回答这些问题,我们首先需要了解问卷调研是什么。
一、问卷调研
1. 问卷调研适用场景
问卷调研指的是调查者运用统一设计的问卷向被选取的调查对象了解情况或征询意见的调查方法(源自百度词条“问卷调查”)。与其他的用户研究方法相比,问卷具有低成本、高匿名、高效率的特点,因此在调研中被广泛使用。
问卷调研的适用场景包括收集被调查者的个人信息、了解被调查者的观点态度、行为习惯等。问卷可以通过一系列精心设计的问题,帮助研究者达成摸底、评估、预测的研究目的。
图1 问卷调研的适用场景
2. 普查与抽样调查
根据抽样原则的不同,问卷调研可分为普查和抽查。
普查是指对所有的目标群体进行调查。例如我们想要了解北京居民的收入水平,采用普查的方式就需要对北京市的所有居民做调查。对,你没有看错,是“北京市的所有居民”,严格地说不能有遗漏。
这样做的好处是所有人都能被调查到,收集到的资料非常全面不会有偏差性。但缺点也显而易见,庞大的工作量需要投入大量的人力物力,调研周期也很长。目前我国的人口普查采用的就是这种方式,由全国各地的调查人员,深入到每家每户进行核查。受制于普查耗时耗力的特点,实际的调研中几乎不会采用这种方法,使用更普遍的方法是抽样调查。
抽样调查是从调研的全部目标群体中抽取一部分人,根据这部分人的调研结果对整个群体的状况做估计和推断。其中全部的目标群体称为总体,抽取的一部分人称为样本。延续上面的例子,我们想要了解北京居民的收入水平,用抽样调查的方法仅需要从北京市的居民中选取一部分人做调查。在这里,全体北京居民是总体,抽取的部分居民就是样本。根据抽取居民的调研结果,可以推论整个北京市的居民收入水平。
这样做的好处是方便快捷,仅需要调研一部分人就能推测整个群体的状况。而它的缺点也非常明显,由于无法覆盖所有的调研对象,调研结果会存在一定的偏差性。
图2普查与抽样调查的区别
如何保障抽样调研的可靠性,减少结果的偏差呢?这就需要降低样本的代表性误差。
二、代表性误差
在上一部分我们已经知道,抽样调查的目的是“窥一斑而知全豹”,即从调研的目标总体中抽取样本,用样本的调查结果推论总体的状况。而推论结果的可靠性取决于样本是否具有代表性,是否可以将样本的调研结果推论到总体。因此代表性误差指的就是由样本数据向总体数据做推论时产生的误差。代表性误差主要受抽样方式和样本数量的影响。
1. 抽样方式的随机性
抽样的随机性要求总体中的每个个体都有均等的机会被抽取到,没有倾向性或主观性。如果抽样方法的随机性无法保证,就会导致抽取的样本有偏差,从而得出错误的调研结论。
典型案例就是火车票购买难度的调查:记者想要了解春运的火车票是否难买,于是随机选择了一列春运火车做采访。采访结束后,记者发现火车上的乘客都买到了票,于是得出结论春运火车票很好买。这个调查的纰漏在于记者选取的调研样本有问题,存在很大的偏差。记者只调查了购买到车票的群体,遗漏了没有买到车票的群体,因此得出的结论是错误的。
图3抽样偏差推论出错误的调研结论
随机抽样主要有四种方式:简单随机抽样、整群抽样、分层抽样、系统抽样。目前平台使用的调研大多采用简单随机抽样,确定调研的目标人群后,向这部分用户定向推送调研问卷。图4简单总结了四种方式的操作流程和各自的优缺点,具体内容不在此做详述,感兴趣的同学可以自行深入学习。
图4 随机抽样的四种方式
2. 调研样本的数量
除了抽样方法的随机性外,调研的样本数量也会影响代表性误差。样本量越大,代表性误差越小,样本的调研结果也就越接近总体结果。
为了更好的理解样本量对结果的影响,我们用一个案例来做说明:
某校共有5000名学生,在一次英语考试中5000名学生的平均成绩为76.4分(百分制)。按照抽样调查的思路,可以从5000名学生中随机抽取一部分学生,用他们的考试成绩推测总体情况。结果如图5所示,抽取的样本量越大,结果越接近总体均分76.4。
图5 样本量与调研结果
因此,问卷调研对于样本量的要求实质上是为了保证结果的可靠性,即让调研结果更接近总体的真实情况。虽然样本量越高,调研结果会越趋近于真实状况,但出于回收成本的考虑,也需要控制样本量的上限,减少不必要的人力物力浪费。
三、确定样本量的方法
说了这么多理论性的内容,最关键的问题还没有回答,用研建议的384份样本量到底是怎么得来的?在这一部分,我们将回答这个问题,通过了解三种确定样本量的方法,进一步明确如何确定问卷调研所需要的样本量。
1. 经验值估计
这种方法最为简单粗暴,完全依照研究者个人的过往经验决定,样本量的数字也大相径庭。有的人用30作为标准,有的人用50作为标准,也有的人用100甚至是300作为标准……你看,这样拍脑袋式的估算不仅无法达成统一,更重要的是缺乏理论依据,科学性难以保证。
2. 公式推算
利用计算公式(公式见图6)可以求出问卷调研所需要的样本量。其中n代表样本量;Z代表置信水平的统计量,统计检验中一般设置95%的置信水平,对应的统计量是1.96,置信水平越高,得出的结论可信度越高;p代表的是选项的可能性,调研中可取0.5;e代表抽样误差,一般取5%,抽样误差越小,得出的结论可信度越高。
计算后得到的结果是384,所以用研一般建议根据调研要回答的问题,至少能有384份有效问卷,这是保证调研结果可信的最低要求。需要注意的是,有时调研会有精确的细致需求,例如在全国的数据中看某个城市或某个区域的调研结果。如果要回答这类细致的问题,该类样本的数量也需要达到384的要求。
当然,如果我们想要进一步提高调研结果的信度,也可以通过提高置信水平或是降低抽样误差来实现,但这也意味着需要更多数量的调研问卷(见图6)。
图6 不同置信水平和抽样误差所需要的样本量
3. 检验效力分析
随着统计学的发展,严谨的学术研究对于样本量的计算提出了更加精确的要求。通过检验力分析,研究人员能计算出更加精确的计算出需要的样本量。简单来说,在样本量(sample size)、效应量(effect size)、显著水平(Alpha)、检验力(test power)四个统计量之间,知其三可推断另一个。
具体的使用场景主要是两个,一个是在研究前计算所需要的样本量;另一个是在研究结束后,计算研究的效应量。一些软件已经能够提供相应的计算功能(如G*Power),并有较好的可视化展示。
图7G*Power绘制的所需样本量曲线
四、结语
得益于低成本、高匿名、高效率的特点,问卷在用户研究中被广泛地使用。样本的代表性是问卷调研结果是否可信的关键因素,通过随机抽样、增加样本量可以提高样本的代表性,从而得出更接近真实总体状况的调研结论。384份有效问卷是保证调研结果可信的最低样本量要求,如果回收量无法保证,在推导结论时就需要考虑与真实情况存在偏差的风险。条条大路通罗马,能够达成目的、解决问题的就是好的调研方法。
作者:艾露尼,公众号:贝壳KEDC
本文作者 @贝壳KEDC
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!