Skip to content

模块 4:量化与质性研究 (Research Methods)

TASTE-303 批评方法论 · 模块 4/6 · 预计学习时间 90 分钟

"能被测量的不一定重要,重要的不一定能被测量。不是每一件有价值的事物都可以被量化,也不是每一件可以量化的事物都有价值。" — 改述自 Albert Einstein(常被引用,实际措辞有多种版本)与 William Bruce Cameron,《Informal Sociology》(1963)

Don Norman: Why Beautiful Things Work Better — 探讨情感设计与可用性之间的关系

学习目标

完成本模块后,你将能够:

  1. 评估眼动追踪、热力图等注意力研究工具在品味分析中的价值与局限
  2. 辨析 A/B 测试作为品味判断工具的适用范围和根本盲区
  3. 运用质性研究方法(访谈、有声思维、民族志)捕捉量化方法无法触及的品味维度
  4. 整合量化与质性证据,在批评写作中实现数据与叙事的互补
  5. 判断何时数据支持了品味判断、何时数据遮蔽了品味问题

一、品味可以被测量吗?

1.1 一个挑衅性的问题

这个问题的答案是:可以,但只能测量品味的某些侧面——而且"测量"的含义需要被严格界定。

品味判断包含多个维度:注意力分配(你看了什么)、情感反应(你感受到什么)、认知评估(你认为什么)、行为选择(你选择了什么)。其中一些维度——特别是注意力分配和行为选择——确实可以被量化。但另一些维度——特别是情感的微妙性和认知评估的深层逻辑——在量化时会不可避免地被简化。

这不是说量化研究没有价值。恰恰相反:当量化方法被恰当使用时,它能提供直觉无法提供的洞察。问题在于,当量化方法被不恰当地用来"证明"品味判断时,它可能制造一种虚假的确定性。

1.2 神经美学的承诺与局限

神经美学 (neuroaesthetics) 是一个新兴的跨学科领域,试图用脑科学方法研究审美体验。Semir Zeki 在 2000 年代初期创立的这一学科,使用 fMRI(功能性磁共振成像)来观察人们在观看艺术作品时大脑的活动模式。

一些发现是引人入胜的:面对被认为"美"的作品时,大脑内侧眶额叶皮质 (medial orbito-frontal cortex) 的活动增强——这个区域与奖赏和愉悦感相关。这暗示审美体验确实有一个生理基础,不完全是文化建构。

但局限同样明显。fMRI 告诉你大脑的哪些区域被激活,但不告诉你为什么。知道"看美的东西时大脑的奖赏中心活跃"并不能帮助你判断什么是美的——它只是在生理层面确认了一个你已经知道的事实:人们喜欢美的东西。批评者需要的不是确认偏好的存在,而是分析偏好的理由。

1.3 实验美学的传统

早在神经美学之前,实验美学 (experimental aesthetics) 就已经有超过一个世纪的历史。Gustav Fechner 在 1876 年出版的《Vorschule der Aesthetik》开创了用实验方法研究审美偏好的传统。他著名的"黄金比例偏好实验"——向被试展示不同比例的矩形并询问偏好——至今仍被频繁引用(虽然后续的重复实验结果并不一致)。

Daniel Berlyne 在 1960-1970 年代发展了"新实验美学",提出了"最适复杂性"理论 (optimal complexity theory):人们偏好的不是最简单或最复杂的刺激,而是位于中间某处的"最适点"——既足够复杂以引起兴趣,又不至于复杂到令人困惑。这个理论对设计有直接的启示:过度简化和过度复杂化都可能导致审美体验的下降。

但 Berlyne 的理论也面临批评:什么算"复杂"本身依赖于观察者的经验和文化背景。一个训练有素的音乐家对爵士即兴的"最适复杂性"与一个非音乐人截然不同。复杂性不是刺激的客观属性,而是刺激与观察者之间的关系属性。

研究方法

黄金比例迷思:当数据被选择性引用

问题:黄金比例 (φ ≈ 1.618) 是设计领域最持久的迷信之一。Fechner 1876 年的实验似乎表明人们偏好黄金比例的矩形。但后续研究如何挑战了这一结论?这个案例对「用数据支持品味判断」有什么警示?
分析:Fechner 的原始实验确实显示被试对接近黄金比例的矩形有偏好。但后续重复实验(如 Godkewitsch, 1974; McManus, 1980)发现:(1) 偏好分布非常分散,并不集中在黄金比例上;(2) 矩形的呈现方式(横向/纵向)显著影响偏好;(3) 文化背景和审美训练影响结果。更关键的是,即便偏好存在,从「人们偏好接近 1.6:1 的矩形」到「设计中应该使用黄金比例」的推理是不成立的——偏好一种孤立的形状不意味着这种比例在复杂的设计构图中仍然最优。这个案例警示我们:量化数据可以被选择性引用来支持预设的结论(确认偏误),而关键的推理步骤——从实验室发现到设计原则——往往被省略了。

二、注意力研究:眼动追踪与热力图

2.1 眼睛看到了什么

眼动追踪 (eye-tracking) 技术使用红外线追踪眼球运动,记录人们在观看屏幕或实体对象时的注视点 (fixation) 和扫视路径 (saccade)。其产出通常是热力图 (heatmap)——红色表示高注意力区域,蓝色表示低注意力区域——或注视路径图。

Jakob Nielsen 和 Nielsen Norman Group 在 2000 年代的大量眼动追踪研究为网页设计提供了有影响力的发现:

  • F 形阅读模式 (F-pattern, 2006):用户在文本密集的页面上倾向于以 F 形扫描——先看顶部水平线,再看中部较短的水平线,最后沿左侧垂直扫描。
  • Banner 盲视 (banner blindness):用户系统性地忽略看起来像广告的区域,即使该区域包含有用信息。
  • 首屏效应:屏幕折叠线 (fold) 以上的内容获得的注意力显著高于折叠线以下。

2.2 眼动追踪对品味分析的价值

眼动数据对品味分析的贡献在于:它提供了一种客观验证视觉层级的方法。当你在批评中主张"这个界面的视觉层级不清晰"时,眼动数据可以作为证据——如果用户的注视点分散、没有形成清晰的扫描路径,那就证实了你的判断。

更微妙的是,眼动数据可以揭示设计意图与实际效果之间的差距。设计师可能希望用户首先注意到页面中央的英雄图像,但眼动追踪显示用户的眼睛首先落在了角落的一个按钮上。这种差距本身就是批评的有力材料。

2.3 眼动追踪的根本局限

但眼动追踪不能做的事情同样重要:

它测量注意力,不测量理解。用户长时间注视某个元素,可能是因为它引人入胜,也可能是因为它令人困惑。热力图不区分这两种注视。

它测量位置,不测量品质。用户看了某个地方,不等于他们喜欢他们看到的东西。注意力和偏好是不同的心理过程。

它测量个体行为,不测量文化含义。一个元素获得大量注视,这是一个行为事实。但为什么它获得注视——是因为视觉重量?因为文化熟悉度?因为在视觉层级中的位置?——需要定性分析来回答。

它在实验室环境中运行。用户知道自己被追踪时的注视行为可能与日常使用不同。任务设定("请找到注册按钮"vs"随意浏览")也深刻影响注视模式。

判断眼动数据的解释有效性

以下四段对眼动追踪数据的解释,哪些是有效的推论,哪些越过了数据支持的范围?

样本 A
样本 B
样本 C
样本 D

三、A/B 测试:品味的民主化还是劣化?

3.1 A/B 测试的逻辑

A/B 测试(也称分割测试)是数字产品设计中最普遍的决策方法之一:将用户随机分为两组,一组看到版本 A,另一组看到版本 B,然后比较两组的行为差异(点击率、转化率、留存率等)。统计显著的差异被视为版本优劣的证据。

其逻辑基础是简洁的:不要猜测用户会怎样反应——让数据告诉你。

Google 在 2000 年代将 A/B 测试推向了极致。Marissa Mayer 时代的 Google 曾经著名地测试了 41 种蓝色来确定链接的最佳颜色 (2009)。Douglas Bowman(Google 的第一位视觉设计总监)在 2009 年的离职文章中写道:"当一个公司愿意为一个边框到底是 3 像素还是 4 像素而做 A/B 测试时,是时候离开了。"

3.2 A/B 测试能回答什么

A/B 测试在以下问题上是有力的工具:

短期行为差异:版本 A 的注册按钮点击率是否高于版本 B?这类问题有明确的度量指标,A/B 测试可以给出统计上可靠的答案。

微观优化:在总体设计方向已经确定的情况下,A/B 测试可以帮助微调——按钮颜色、文案措辞、元素位置。这些细节的累积效应是真实的。

消除团队内部的主观争论:当设计师和产品经理对某个具体选择争执不下时,A/B 测试提供了一个"让用户决定"的仲裁机制。

3.3 A/B 测试不能回答什么

但 A/B 测试在品味问题上有根本性的盲区:

它只能比较已有选项:A/B 测试的前提是你已经有了 A 和 B 两个版本。它不能告诉你还有没有一个你没想到的版本 C 更好。原创性、突破性、范式转换——这些品味最看重的品质——不在 A/B 测试的视野中。Steve Jobs 的名言虽已被引用到陈腐,但在这里仍然精确:"People don't know what they want until you show it to them."

它优化局部,可能劣化整体:每个 A/B 测试优化一个指标,但产品是一个系统。100 次 A/B 测试的结果叠加,可能产生一个在每个局部都"最优"但整体上不协调的产品——就像一张由各自完美但互不匹配的五官拼成的脸。Jeff Bezos 将此称为"局部最大值陷阱"(local maximum trap)。

它衡量行为,不衡量意义:版本 A 的点击率更高,但用户是因为喜欢它而点击,还是因为被误导而点击(暗黑模式/dark pattern)?A/B 测试不区分这两种情况——它只看到了点击。

它放弃了长期视角:A/B 测试衡量的是短期反应。但品味有时是需要培养的。用户第一次看到一个大胆的新设计时可能不喜欢(因为不熟悉),但三个月后可能深爱它。A/B 测试会系统性地惩罚创新、奖励保守。

3.4 Bowman 困境的启示

Douglas Bowman 的离职故事不只是一个轶事——它触及了数据驱动设计的哲学困境:当所有决策都由数据做出时,品味判断被什么取代了?

答案是:品味判断被群体行为的统计均值取代了。但群体行为的统计均值不是品味——它是偏好的加权平均。品味(至少在本课程的定义中)不是"大多数人喜欢什么",而是"经过训练的判断力认为什么是好的"。这两者有时一致,有时不一致。当它们不一致时,A/B 测试总是站在群体偏好一边。

A/B 测试能决定的与不能决定的

适合 A/B 测试的决策

注册按钮用绿色还是蓝色?结账流程分三步还是四步?推荐列表每行展示三个还是四个商品?首页轮播图自动播放间隔 5 秒还是 8 秒?——这些决策有明确的行为指标、影响范围有限、不涉及根本性的设计方向。A/B 测试在这些微观决策上效率极高。

不适合 A/B 测试的决策

产品的整体设计语言应该极简还是丰富?品牌色应该用红色还是蓝色?是否应该从传统导航转向手势交互?产品是否应该牺牲功能密度来获得审美品质?——这些决策涉及长期品牌认知、整体系统协调、以及价值优先级的根本选择。它们的效果无法在短期 A/B 测试中捕捉。

危险地带:看似适合实则不适合

登录页的布局是否应该从图文并排改为全屏视频?商品详情页是否应该去掉用户评价摘要?——这些决策表面上可以 A/B 测试(有行为指标可量化),但它们涉及产品体验的结构性改变,短期数据可能误导长期决策。全屏视频可能短期提高停留时间但长期降低信息获取效率。

思考:你在自己的实践中经历过(或观察过)A/B 测试与设计直觉冲突的情况吗?当数据说用户更喜欢 A但你的品味判断说B 更好时,你如何处理这种矛盾?

四、质性方法:捕捉数据无法触及的维度

4.1 为什么需要质性研究

量化方法测量行为——用户做了什么。质性方法理解经验——用户经历了什么、感受了什么、为什么那样做。

在品味研究中,质性方法的价值尤其突出,因为品味判断在很大程度上是一种质性经验——它涉及细微的情感反应、文化联想、个人记忆、审美愉悦或不适。这些维度难以用数字捕捉。

4.2 三种核心的质性方法

半结构化访谈 (Semi-structured Interview)

与设计师或用户进行 30-60 分钟的深度对话,围绕预设的话题框架但允许跟随有趣的方向自由延伸。

在品味研究中的应用:

  • 询问设计师的决策过程——"你在这里为什么选择了圆角而不是直角?"
  • 探索用户的审美反应——"你第一次打开这个 App 时感受到了什么?"
  • 追问判断背后的标准——"你说这个设计'不够精致',你所说的精致是什么意思?"

Ellen Lupton 在其策展和教学实践中大量使用了设计师访谈作为批评的素材来源——直接引用设计师的自述,然后将其与作品的实际效果进行对照。

有声思维法 (Think-Aloud Protocol)

要求参与者在执行任务时持续口头描述自己的思考过程。这种方法由 Clayton Lewis (1982) 和 K. Anders Ericsson 与 Herbert Simon (1984) 在认知心理学中发展起来,后被广泛应用于可用性测试。

在品味研究中的独特价值:它能捕捉用户在遇到设计元素时的即时反应,包括那些在事后访谈中会被遗忘或理性化的感性判断。

例如,用户在浏览一个电商网站时可能会说:"嗯,这个页面感觉...有点挤...到处都是促销标签...我都不知道该看哪里...哦等等,这个产品图拍得不错..."——这种即时的、未经过滤的反应串流,提供了量化数据无法捕捉的审美体验细节。

设计民族志 (Design Ethnography)

长期沉浸在目标用户的真实使用环境中,观察他们如何与设计产品互动。

这种方法时间成本最高,但洞察力也最深。Jan Chipchase 在为 Nokia 工作期间(2000 年代),通过在全球各地进行田野调查,发现了大量实验室研究无法发现的使用行为——例如,在识字率较低的地区,手机的语音功能远比文字功能重要;在缺乏稳定地址的社区,手机成为了身份标识的替代品。这些发现深刻地影响了 Nokia 的产品设计方向。

4.3 质性研究的严谨性问题

质性研究常被批评为"不科学"——样本小、不可复制、依赖研究者的解释。这些批评有一定道理,但它们误解了质性研究的认识论基础。

质性研究不追求统计意义上的"代表性"——它追求的是"理论饱和" (theoretical saturation, Glaser & Strauss, 1967):当新的访谈或观察不再产生新的洞察时,数据收集就可以停止了。5-10 个深度访谈可能比 1000 份问卷更能揭示品味判断的内在逻辑——前提是访谈被精心设计和深入执行。

关键的质量标准不是可复制性,而是:

  • 可追溯性 (traceability):你的解释能追溯到具体的数据(引用、行为描述)吗?
  • 反思性 (reflexivity):你是否意识到自己的偏见可能影响了解释?
  • 可转移性 (transferability):你的发现在什么条件下可能适用于其他情境?

设计一个品味研究的质性方案

30-40 minutes

假设你想研究以下问题:'用户在选择一个新的效率工具(如笔记 App 或任务管理 App)时,审美品质在决策中扮演什么角色?'请设计一个包含访谈和有声思维的质性研究方案(不需要真正执行,只需设计方案)。方案应包含:研究问题的细化、参与者的选择标准、访谈问题提纲、有声思维任务设计。

建议结构:

研究问题细化~15%

将宽泛的问题分解为 3 个可操作的子问题

参与者选择~15%

什么人是合适的研究对象?多少人?如何确保多样性?

访谈提纲~40%

6-8 个问题,从开放性热身问题到具体的品味追问,注意避免引导性提问

有声思维任务~30%

参与者需要完成什么任务?你期望从他们的即时反应中捕捉什么?

  • 最常见的错误是问引导性问题——你是不是觉得这个设计很好看?应改为你怎么描述这个界面给你的感觉?
  • 有声思维任务应该足够自然——不要让参与者觉得在考试。请浏览这三个 App 的首页,就像你在决定用哪个一样比请评价这些设计更好。
  • 考虑加入一个对比环节——让参与者比较两个 App,对比会激活他们平时不会明确表达的审美偏好。
目标:500 字

五、互补性:当数据与叙事携手

5.1 混合方法的力量

最有说服力的品味批评往往同时运用量化和质性证据。它们不是互相替代的,而是互补的——量化数据提供"什么"和"多少"的答案,质性数据提供"为什么"和"如何"的答案。

Don Norman 在《Emotional Design: Why We Love (or Hate) Everyday Things》(2004) 中展示了这种互补性的典范。他引用了实验心理学的量化研究(Masaaki Kurosu 和 Kaori Kashimura 在 1995 年关于 ATM 界面美学与感知可用性关系的实验),同时穿插了丰富的个人观察和定性案例分析。定量数据证实了一个反直觉的发现(美观的界面被感知为更好用,即使实际可用性相同),定性分析则解释了为什么(正面情感拓宽了认知灵活性,使用户更能容忍小问题)。

5.2 在批评写作中整合证据

将两种证据整合进批评写作,有几种有效的策略:

量化锚定+质性展开:先用一个数据点建立客观基础,然后用质性分析展开。

例:"用户测试数据显示 72% 的参与者未能在 10 秒内找到设置入口(量化锚定)。在有声思维记录中,参与者的反应揭示了问题的本质——「我以为那个齿轮图标是装饰」「设置入口和旁边的按钮看起来一样重要,但它比其他功能使用频率低得多」——不是信息缺失,而是视觉层级的扁平化导致了关键功能的淹没(质性展开)。"

反直觉数据+解释性框架:当数据呈现出与直觉相反的模式时,用质性分析提供解释框架。

例:"尽管 App B 在美学评分上显著高于 App A(7.2 vs 5.1, 5 分制),App A 的月活留存率却高出 23%。深度访谈揭示了一个被美学评分忽略的因素:App A 的'朴素'界面被长期用户描述为'不分散注意力的''像一个安静的工作伙伴'——它的审美价值不在于愉悦感,而在于不干扰。"

趋势数据+个案深描:用量化数据描绘大趋势,用个案的深度描述提供纹理。

例:"过去五年,Top 100 App 的首页平均颜色数从 5.2 种下降到 3.1 种,平均字体数从 3.8 种下降到 2.4 种——极简化是一个明确的行业趋势。但 Duolingo 逆势而行:它在 2022 年的重设计中不仅没有减少颜色,反而增加了角色动画和夸张的视觉反馈。这个偏离案例值得深入分析:为什么在学习类应用中,'热闹'可能比'安静'更有效?"

5.3 何时数据支持品味,何时数据遮蔽品味

最后,回到本模块的核心张力:量化与质性研究能在什么程度上支持品味判断?

数据支持品味的情况

  • 数据证实了批评直觉("我觉得这个导航有问题"+ 眼动追踪显示用户确实在导航区域反复迷失)
  • 数据揭示了直觉未捕捉到的模式(用户在特定时段使用产品的行为与其他时段显著不同)
  • 数据帮助量化差异的程度("这两个方案的差距有多大?")

数据遮蔽品味的情况

  • 数据被用来回避品味判断("数据说 A 更好所以就用 A"——放弃了批判性评估数据本身)
  • 数据优化了错误的指标(点击率提高了但用户体验恶化了——暗黑模式的典型症状)
  • 数据创造了虚假的精确性("A 方案的用户满意度是 4.2,B 方案是 4.1,所以 A 更好"——0.1 分的差异是否有实际意义?)
  • 数据系统性地惩罚创新(A/B 测试总是偏好熟悉的方案,因为新方案需要学习成本)

判断数据与品味的关系

以下四个场景中,数据分别在支持品味判断还是遮蔽品味问题?请做出判断并说明理由。

样本 A
样本 B
样本 C
样本 D

延伸阅读

  1. Don Norman,《Emotional Design: Why We Love (or Hate) Everyday Things》, Basic Books, 2004 — 情感与认知在设计体验中的交互
  2. Daniel Berlyne,《Aesthetics and Psychobiology》, Appleton-Century-Crofts, 1971 — 实验美学的奠基之作
  3. Jakob Nielsen, "F-Shaped Pattern for Reading Web Content", Nielsen Norman Group, 2006 — 眼动追踪在网页设计研究中的经典应用
  4. Semir Zeki,《Inner Vision: An Exploration of Art and the Brain》, Oxford University Press, 1999 — 神经美学的开创性著作
  5. Jan Chipchase,《Hidden in Plain Sight》, Harper Business, 2013 — 设计民族志的实践范例
  6. K. Anders Ericsson & Herbert Simon, "Protocol Analysis: Verbal Reports as Data", Psychological Review, 1984 — 有声思维法的理论基础
  7. Bent Flyvbjerg,《Making Social Science Matter》, Cambridge University Press, 2001 — 为质性研究在社会科学中的地位辩护
  8. Stefan Thomke,《Experimentation Works》, Harvard Business Review Press, 2020 — A/B 测试和实验文化的系统性讨论

本模块要点

  1. 品味的某些维度(注意力分配、行为选择)可以被量化,但核心的品质性判断——什么是好的以及为什么——无法被还原为数字
  2. 神经美学确认了审美体验有生理基础,但它确认偏好的存在,不分析偏好的理由
  3. 眼动追踪测量注意力分布,可以客观验证视觉层级——但注意力不等于理解,注视不等于喜欢
  4. A/B 测试在微观优化上效率极高,但在品味的根本性决策上有结构性盲区:它不能比较未被提出的选项,系统性地惩罚创新
  5. Douglas Bowman 困境揭示了数据驱动设计的哲学问题:群体行为的统计均值不是品味
  6. 质性方法——访谈、有声思维、民族志——能捕捉量化方法无法触及的意义维度
  7. 质性研究的严谨性标准不是可复制性,而是可追溯性、反思性和可转移性
  8. 最有说服力的批评同时运用量化和质性证据——数据提供"什么",叙事提供"为什么"
  9. 数据在品味判断中的角色应该是证据而非裁判——最终的价值判断仍然需要人的批判性思考
  10. 关键的判断力在于区分:数据何时支持了品味,何时遮蔽了品味问题——指标选择本身就是一种价值判断

下一步

模块 5:反驳与修正

掌握了批评的结构、比较的方法、案例的深度和研究的工具之后,我们面对一个更深层的问题:当你的判断被挑战时,你如何应对?当新的证据表明你错了时,你如何修正?模块 5 将探讨反驳与修正的勇气——成熟的批评者不是从不犯错的人,而是知道如何在公共场合优雅地改变立场的人。

模块 4 评估标准:量化与质性研究

使用以下维度评估你在本模块中完成的研究设计练习,每个维度 1-4 分。

方法适配性你选择的研究方法是否适合你的研究问题
数据解释的审慎性你是否能区分数据支持的推论和越界推论
量化-质性整合你是否能有效地将两种证据整合在一起
对品味与数据关系的理解你是否能判断何时数据支持品味判断、何时数据遮蔽品味问题

AI 时代,品味是你唯一不可替代的能力