我们用什么来衡量设计3：定量研究的风险

作者：Jakob Nielsen 时间：2009-07-19 14:14:00　

统计分析常常会出错、存在偏见或过于狭隘。数字崇拜者常因专注于统计分析而把可用性研究引入歧途。强调洞察力和定性研究更为重要。

用户研究有两种类型：定量研究（统计学）和定性研究（洞察力）。定量研究有着奇特有趣的优势，但定性研究能以最少的金钱交付最好的结果。并且定量研究常常太过狭隘并会产生误导。

定量研究的主要好处十分明显：把复杂的情况变成单一、便于理解和讨论的数字。我自己有所体会，例如在对人们使用网站的报告中：残疾用户比普通用户要困难206％，成年人用户比主流用户要困难122％。

当然，上面的数字结果忽略了需要厚厚一叠纸来解释的细节：为什么对于这些人群来说网站难于使用？我们应该要怎么做？

在上面的例子中，数字的确告诉了我们一些事情：

它告诉我们相比成年人用户，残疾用户所处的情况要糟糕得多。知道这个数值能帮助公司更好决定如何分配宝贵的资源。

它还告诉我们这不是一个小问题。如果一部分用户使用网站只比其他人难了5％，绝大部分人会说“无所谓，就这样吧”，但206％对我们许多人来说难以接受。

数字也可以帮助比较不同设计的优劣和进行长期跟踪。如果十年后，成年人使用网站的难度只比年轻用户高50％，那就可以说我们取得了实质改进。

提防数字崇拜

当阅读其他人的研究报告时，我常发现他们的定性研究结果要比定量研究结果更为可靠和有价值。认为统计研究比基于洞察力的观察研究更有价值是一个危险的倾向。实际上，绝大多数统计研究比定性研究的可靠性更低。设计研究和医学不一样，在传统学科中最为接近它的是人种学。

UI和可用性是与情境高度相关的，它的有效性依赖于对人类行为的深刻了解。典型的情况是设计师需要对设计指导规范（Design Guidelines）进行组合和取舍，这就要求去了解这些设计准则后的基本原则及原理。针对一个特定功能的事件常常和实际设计毫不相关。

迷恋数字、抛弃定性的洞察会把可用性研究引入歧途。在接下来列举的这方面，定量研究存在着与生俱来的风险：

风险1：随机结果

研究人员常常用统计分析来决定哪些数字结果具有“统计显著性”。根据惯例，小于5％的界限常被认为更可能是随机结果而不是具有重要意义的发现。

听起来十分合理，但这也暗示着如果研究者完全依赖定量分析的话，1/20的“显著结果”也许只是随机现象。

幸运的是，许多优秀的研究员——特别是那些在用户界面（UI）领域的，并不单纯使用定量研究。他们发布的报告在简单统计数字之上常有着更高的洞察力。

还有一个反面例子：有时因为研究实验的设计原因，一个真正有价值的发现在统计上却并不引人注目。也许是没有包含足够的参与者从而观测到真正重要、但是稀有的发现。仅仅因为没有出现在定量研究结果中而把相关因素给剔除，可能是错误的。

2000年大选时在弗洛里达州的“蝴蝶投票”是一个很好的例子：一个基于100选民的研究可能没包含拥有统计显著性的人数，去发现这么一个情况：那些打算投戈尔的票的人却投给了Patrick Buchanan。小于1％的投票者会犯出现这种情况。一个定性的研究可能会揭示投票者的一些行为如“好吧，我想投票给戈尔……等等，看起来 Buchanan更加靠谱，我还是不投给戈尔了”。犹豫不决和差不多抉择是观测研究者的宝藏，但是把它们翻译为设计建议需要定性分析去观察并组合可用性原则。

风险2：魔术般变出许多相互关联来

如果测量了足够多的变量，你不可避免会发现其中一些看起来是相互关联的。用软件统计所有测试然后一定会有几个具有“统计显著性”的关联蹦出来（记住：1/20的分析是“显著的”，即便根本就没有真正有价值的现象）

测量7个标尺的研究会在变量之间产生21种可能的联系。因而根据平均值，这里面有1个关联会被统计认为“显著重要”，即便这里面根本就没有真正的联系。

在我2004年的一个网页可用性项目中，我们从53个不同方面收集用户行为的衡量标尺，因而有1,378种可能的关联可以让我丢到漏斗中去。即便在研究中我什么都没有发现，还是有69个关联会表现出“统计显著性”。

很明显我不会弯下腰去专注于捕捉相互关联，我只会报告有合理假设的、基于有真正潜在价值的统计数据。（实际上，统计研究程序假设研究员是拥有一个假设为前提的。如果你只是为了捕捉“统计上的显著重要”，你就是在滥用软件）

风险3：忽略了协变因素

即便一个关联看起来表现出真正重要的现象时，也有可能产生误导——如果真正的关联是并不是在你当前测量的两个变量之中，而是和第三个变量有关。

例如研究显示智力随着出生的顺序而递减。换句话说第一胎的孩子会比第二胎的孩子拥有更高的平均智商，以此类推，第三胎、第四胎孩子的智商会更低。这个研究看起来非常明显的警告父母：“不要生太多的孩子，否则他们会变得越来越蠢”。

其实根本不是这样。

在这个例子中有着隐藏的第三个隐藏变量：聪明的父母往往更倾向于拥有更少的孩子。当你想要衡量第一胎孩子平均智商低的时候，你针对所有的父母进行采样，却不关注他们拥有孩子的数量。但是当你衡量平均值的时候，很明显你只对那些拥有五个或更多孩子的父母进行采样。这样会造成低智商的后生孩子比重更高。当衡量随机取样的孩子智商的时候，你忽略了他们的父母——这个真正起影响的因素。

（2007年的补充：最新研究揭示家庭大小和父母的经济教育因素对首胎智商的影响是非常小的，但是要点仍然是你需要去更正这些协变量，当你做了这点的时候，智商的差异会比那些你可能会相信的偏差平均值要小很多。）

拿网页上的例子来说，你也许会观察到更长的链接文字会和用户的成功访问有正面相关性，这并不意味着你就应该去写更长的链接。在这里网页设计师是隐藏的协变式：粗心的设计师会倾向使用“更多”、“点击这里”之类的短链接文字，或自己创造的词语。相反注重可用性的设计师会试着把选项解释为用户容易理解的语言，去强调文字和内容丰富的设计元素，而不是用一些幻想的元素如“微笑的女人”。

2 下一页

标签：用户,设计,风险

投稿

我们用什么来衡量设计3：定量研究的风险

猜你喜欢

Python转换字典成为对象,可以用"."方式访问对象属性实例

2007流行网站导航设计欣赏

python记录程序运行时间的三种方法

关闭窗口时保存数据的办法

Pycharm学习教程（5） Python快捷键相关设置

python执行子进程实现进程间通信的方法

Linux 修改Python命令的方法示例

简述python Scrapy框架

php中ob_flush函数和flush函数用法分析

Python内置的HTTP协议服务器SimpleHTTPServer使用指南

FSO组件之文件操作（上）

Pycharm 安装 idea VIM插件的图文教程详解

Vue过滤器的用法和自定义过滤器使用

Python获取"3年前的今天"的日期时间问题

js取得当前鼠标的X,Y坐标

基于Python实现视频的人脸融合功能

仿google的asp分页代码

浅析Git 分支的新建与合并

MySQL数据库表被锁、解锁以及删除事务详解

Oracle数据库的安全策略