Appearance
模块 4:AI 生成美学
"Every tool carries within it the ideology of the medium. The brush wants to be expressive; the ruler wants to be straight. What does AI want? It wants to be average — spectacularly, seductively average."
学习目标
完成本模块后,你将:
- 识别"AI 感"(the AI look)的具体美学特征——为什么 AI 生成的内容有可辨识的指纹
- 理解 AI 美学如何被训练数据塑造——模型"想要"生成什么,以及为什么
- 分析 AI 生成内容的"美学恐怖谷"——为什么某些 AI 产出在技术上完美但感觉不对
- 探索 AI 错误和故障(glitch)作为新美学范畴的可能性
- 对"AI 能否拥有品味"这一哲学问题形成有立场的论证
一、AI 的审美指纹
可辨识的"AI 感"
2022-2024 年间,一种可辨识的视觉风格开始弥漫互联网。即使没有标注"AI 生成",许多人已经能凭直觉识别出来。这种"AI 感"不是单一的视觉特征——它是一组系统性的审美倾向。
视觉领域的 AI 指纹:
| 特征 | 具体表现 | 根源 |
|---|---|---|
| 过度光泽 | 表面反射过于完美,皮肤像磨皮后的广告照 | 训练数据中高质量图片偏向商业摄影美学 |
| 细节混沌 | 远看完美,近看局部结构无法自洽(手指、文字、建筑细节) | 扩散模型在局部连贯性上的固有缺陷 |
| 构图安全 | 倾向于黄金分割、中心对称、标准三分法 | 训练数据中被认为"好"的构图的统计分布 |
| 氛围过载 | 过于戏剧化的光线、过于饱和的色彩、过于明确的情绪 | 训练数据中高互动量图片倾向于情绪强烈的美学 |
| 风格混合感 | 在同一图像中混合多个不完全兼容的风格元素 | 模型在风格空间中的插值特性 |
文本领域的 AI 指纹:
| 特征 | 具体表现 | 根源 |
|---|---|---|
| 句式平衡 | 过度使用"不仅...而且""一方面...另一方面" | RLHF 训练偏好全面、平衡的回答 |
| 列举癖 | 倾向于把所有内容组织成列表 | 训练数据中高质量内容(维基百科等)大量使用列表 |
| 虚假具体性 | 用大量形容词和修饰语制造"具体感"但实际缺乏真实细节 | 模型学到了"具体"的表面形式但不具备真实经验 |
| 结论收束 | 总是以综合性的总结收尾,很少留下开放式的不确定性 | RLHF 训练偏好"完整""有帮助"的回答 |
| 安全对冲 | 大量使用"可能""或许""在某种程度上" | 安全训练使模型回避强烈的立场表达 |
为什么 AI 感会存在
AI 感不是偶然的——它是训练过程的必然产物。理解这一点需要理解生成模型的工作原理:
扩散模型(Stable Diffusion, Midjourney, DALL-E 3) 通过学习如何从噪声中恢复图像来工作。它学到的是训练数据中图像的概率分布。当你给它一个 prompt 时,它在这个概率分布中寻找最可能的图像。"最可能的"在统计上就意味着"最接近平均值的"。
大语言模型(GPT-4, Claude) 通过预测下一个 token 来工作。它的输出是训练数据中在给定上下文下最可能出现的文本序列。这意味着它的写作风格必然是训练数据的加权平均——互联网写作的统计中心。
RLHF(基于人类反馈的强化学习) 进一步加剧了这种趋向。人类评估者倾向于给"安全、全面、有帮助"的回答高分,这训练模型产出的是"不会冒犯任何人"的美学——也就是最中间、最安全的选择。
"AI doesn't have bad taste. It has average taste — which, in a world that rewards the exceptional, might be worse."
二、美学恐怖谷
超越 Masahiro Mori
Masahiro Mori 在 1970 年提出了"恐怖谷"(Uncanny Valley)理论来描述人形机器人:当机器人的外观接近但不完全像人类时,会引发强烈的不适感。AI 生成内容正在创造一种新的美学恐怖谷——不是在人形层面,而是在品味层面。
品味恐怖谷发生在以下条件下:
- AI 产出在技术指标上达到了专业水准(分辨率、色彩、构图)
- 但在某些微妙的维度上"不对"——缺乏意图、缺乏一致性、缺乏有机的不完美
- 观众感到不适但往往无法准确说出哪里不对
这种不适的来源是意图的缺失。人类创作中,每一个决策——即使是"不好"的决策——背后都有意图。一个设计师选择了不对称的构图,也许是为了表达动态感;一个作家用了一个笨拙的比喻,也许是因为她在寻找一种非精巧的表达方式。这些意图赋予了作品一种内在的一致性——即使执行不完美,你能感受到背后有一个做出选择的意识。
AI 的产出没有意图。它的每一个"选择"都是概率计算的结果,不是审美判断的结果。当产出的质量足够高时,这种意图缺失不太明显。但当你仔细审视时——就像恐怖谷一样——你会感到一种"空洞的完美"(hollow perfection)。
具体案例:为什么 AI 人像"不太对"
AI 生成的人像面临一种特殊的品味恐怖谷。皮肤质地完美得不像真人,表情精确得不像自然,光线戏剧化得不像现实。每一个单独的元素都"对",但组合在一起"不对"——因为真实的人脸从来不是所有元素都"对"的。
优秀的肖像摄影师(如 Annie Leibovitz、Richard Avedon)之所以伟大,不是因为他们的照片在技术上完美——而是因为他们捕捉了人物的某种特质:Leibovitz 照片中的人物总是带有一种被暴露的脆弱感;Avedon 的人物有一种被隔离出来的锐利感。这些特质来自摄影师的品味判断——如何引导对象、在什么时刻按快门、保留什么而裁掉什么。
AI 没有这种判断。它生成的人像是训练数据中所有"好人像"的统计平均——技术上无可挑剔,品味上空无一物。
当代艺术
Obvious 集体与 Edmond de Belamy
问题:2018 年,法国艺术集体 Obvious 使用 GAN(生成对抗网络)创作了 'Edmond de Belamy',在佳士得拍卖行以 432,500 美元成交——远超预估。这幅画在美学上有品味吗?它的价值来自哪里?
分析:'Edmond de Belamy' 的美学品味是一个复杂问题。从纯粹的视觉角度看,它像一幅模糊的、未完成的 18 世纪肖像画——如果由人类画家画出,不会被认为有品味。但它的品味价值来自一个更高的维度:策展品味。Obvious 的品味判断体现在:(1) 选择了 GAN 而非更精确的模型——GAN 的模糊性和不确定性恰好创造了一种朦胧美学;(2) 用 18 世纪肖像画作为训练数据——这个选择制造了一种时间错位感(古典形式 + 当代技术);(3) 将 AI 创作框定为艺术而非技术演示——这个策展决策本身就是品味判断。432,500 美元买的不是这幅画的视觉品味——而是 Obvious 的策展品味和这个历史时刻的象征价值。这揭示了一个重要的 AI 时代品味原则:当 AI 做执行时,品味转移到了策展和框定的层面。
三、训练数据即品味偏见
模型"想要"什么
每个 AI 模型都有它的"品味偏见"——不是因为它有意识的偏好,而是因为训练数据的统计分布决定了它最"自然"地生成什么。
Midjourney 的品味偏见:
Midjourney(尤其是 V5/V6)的训练数据偏向高质量的数字艺术、概念设计和商业摄影。这意味着它"想要"生成的是:
- 戏剧化的光线(电影级打光)
- 高饱和度的色彩
- 精致的表面质感
- 幻想/科幻类的宏大场景
- "酷"的、"史诗"的氛围
它不太"想要"生成的是:
- 朴素的日常场景
- 故意粗糙的美学
- 无人的安静空间
- 幽默的或荒诞的视觉
- 文化特异性强的非西方美学
David Holz(Midjourney 创始人)在 2023 年的 Office Hours 中承认了这一点。他表示团队正在努力减少模型的风格偏见,但这是一个根本性挑战——因为"减少偏见"往往意味着"走向更均匀的平均值",而这本身就是另一种品味选择。
GPT 和 Claude 的品味偏见:
大语言模型的文字品味偏见更微妙但同样系统性:
- 偏好解释性和教育性的语气(维基百科和教材是训练数据的重要来源)
- 倾向于全面和平衡(RLHF 训练的结果)
- 英语美学占主导——即使用中文对话,底层的论述结构仍然倾向于英语学术写作的模式
- 回避强烈的个人立场和极端观点
- 偏好长文本——简洁和留白不是它的"默认美学"
品味偏见的链式传播
一个更深层的问题是:当数百万人使用带有特定品味偏见的 AI 工具时,这些偏见会反向塑造人类的品味。
这个链条是:
- AI 的训练数据编码了特定时期、特定文化、特定阶层的审美偏好
- AI 根据这些偏好生成内容
- 用户接受并传播这些内容
- 这些内容成为新的文化环境的一部分
- 新一代人的品味在这个环境中被塑造
- 这些人创造的内容(+AI 生成的内容)成为下一轮 AI 训练的数据
这是一个品味反馈循环——AI 的偏见不断被放大和固化。Chayka 在 Filterworld 中将类似现象称为"算法审美殖民"。AI 生成工具将这种殖民从分发端推进到了生产端——不仅是你看到什么被算法决定,你创造什么也越来越被 AI 的训练偏见影响。
识别 AI 的品味偏见
以下描述了五种视觉风格方向。判断每种方向是 AI 的'舒适区'(容易生成高质量结果)还是'挑战区'(AI 生成质量明显下降或倾向偏离意图)。
样本 A
样本 B
样本 C
样本 D
样本 E
四、故障美学与 AI 艺术
错误作为美学
AI 最有趣的美学贡献可能不在于它做对了什么——而在于它做错了什么。
早期 GAN(生成对抗网络)模型生成的人脸有一种诡异的美感:特征在融合和扭曲之间游移,像一个不稳定的梦境。这些"错误"不是技术团队想要的——但某些艺术家看到了其中的审美潜力。
Holly Herndon(电子音乐人和 AI 艺术家)在 2019 年的专辑 PROTO 中与一个名为 "Spawn" 的 AI 模型合作,使用它的"错误"——那些不完美的合成人声、意外的和声组合——作为创作素材。她在采访中说:"The interesting things happen when the AI misunderstands what you want."(有趣的事情发生在 AI 误解你的意图的时候。)
这呼应了一种更古老的美学传统:故障美学(Glitch Aesthetics)。
| 故障美学的历史 | 代表 | 核心品味判断 |
|---|---|---|
| 1960s 视频艺术 | Nam June Paik | 电视信号的扭曲作为表达手段 |
| 1990s 电子音乐 | Oval (Markus Popp) | 跳针和数字错误作为节奏素材 |
| 2000s 数字艺术 | Rosa Menkman | 文件损坏的视觉作为美学范畴 |
| 2010s 后互联网艺术 | Jon Rafman | 虚拟世界的渲染错误作为超现实主义 |
| 2020s AI 艺术 | Holly Herndon, Refik Anadol | AI 的"误解"和"幻觉"作为创作材料 |
每一次新技术的错误都成为了下一代美学的原材料。AI 的"幻觉"(hallucination)——那些不存在的细节、不可能的空间关系、混合了不同物体的奇异形态——正在成为一种新的美学资源。
Refik Anadol 的数据美学
土耳其裔艺术家 Refik Anadol 是当前 AI 艺术领域最受瞩目的创作者之一。他 2022 年在 MoMA 展出的作品 Unsupervised 用 MoMA 馆藏的 20 万件作品数据训练了一个生成模型,然后让它实时生成不断变化的视觉"梦境"。
Anadol 的品味判断体现在多个层次:
- 数据选择:用 MoMA 馆藏而非互联网图片——这个选择决定了输出的美学基调
- 呈现方式:不是静态图像而是实时流动的投影——利用了 AI 生成的过程性美感
- 规模:建筑尺度的投影创造了沉浸感——将 AI 生成从屏幕扩展到空间
- 不干预:让模型自由生成而非严格控制输出——接受了 AI 的意外性作为美学元素
批评者(如 The Verge 的 Kyle Chayka 和多位艺术评论家)认为 Anadol 的作品是"漂亮的屏保"——技术壮观但品味空洞。支持者认为他开创了一种全新的美学范畴——数据本身的美感。
这个争论本身就是品味问题的绝佳案例:新媒介的美学评判标准应该来自旧媒介还是需要全新的框架?
五、AI 能拥有品味吗?
哲学问题
这是 TASTE-304 课程中最根本的哲学问题:AI 有品味,还是只有模式识别?
这取决于你如何定义品味。让我们考虑几种定义:
定义 1:品味 = 偏好模式
如果品味仅仅是对某些事物而非另一些事物的稳定偏好,那么 AI"有"品味——它的训练数据赋予了它系统性的偏好。Midjourney "偏好"戏剧化的光线,GPT "偏好"平衡的论述。这些偏好是稳定的、可预测的,从这个意义上说,它们类似于品味。
但大多数品味理论家会认为这个定义太浅。
定义 2:品味 = 有意识的审美判断
Immanuel Kant 在 Kritik der Urteilskraft(《判断力批判》,1790)中定义了审美判断(aesthetic judgment)的核心特征:它不是基于概念的逻辑推理,而是基于愉悦感的反思性判断。你说"这很美"不是因为它满足了某个预定义的标准——而是因为你在感知过程中体验到了一种特定的愉悦。
按照这个定义,AI 没有品味——因为它没有体验。它不"感受"任何东西。它的"选择"是概率计算的结果,不是审美体验的结果。
定义 3:品味 = 情境化的价值判断
如果品味是在特定情境中判断"什么是好的"的能力——不仅基于普遍标准,更基于对具体语境的理解——那么 AI 的品味是极其有限的。AI 可以在训练数据的分布范围内做出"好"的选择,但它不理解为什么某个选择在这个特定情境下是好的。它不理解一个品牌的历史、一个用户的文化背景、一个时刻的情感重量。
定义 4:品味 = 有立场的选择
也许最精确的定义是:品味是做出有立场的选择——不仅选择好的,更选择某种特定的好,并愿意为此放弃其他种好。品味意味着有所偏爱,有所拒绝,有所坚持——即使面对反对。
AI 不做有立场的选择。它做概率最高的选择。当概率分布不确定时,它倾向于折中——给出平衡的、不得罪任何人的答案。这恰恰是品味的反面。品味意味着不怕得罪人。
"Taste is courage. It's the willingness to say: this, and not that. AI has intelligence, but no courage."
一个务实的结论
与其辩论 AI"是否"有品味,更有建设性的问题可能是:AI 在品味光谱上的位置在哪里,它在往什么方向移动?
AI 目前的位置:
- 能识别已有品味模式的表层特征(模式匹配:高)
- 能在被明确告知品味方向后调整输出(指令跟随:高)
- 不能自主做出有立场的品味判断(审美自主性:低)
- 不能创造全新的品味范畴(品味创新:极低)
- 不理解品味判断的社会和情感语境(语境理解:低)
随着模型的进步,前两项会继续提升。但后三项是否能够突破,取决于 AI 是否能发展出某种形式的"理解"——而这仍然是一个开放的哲学和技术问题。
四种对 AI 创造力的哲学立场
工具论:AI 无品味,永远不会有
AI 是纯粹的工具——比画笔更强大,但本质相同。它不理解美,只处理模式。品味只能属于有意识、有体验、有立场的存在。这个立场的哲学基础是 John Searle 的中文房间论证(1980)——处理符号不等于理解意义。强项:概念清晰。弱项:如果 AI 的行为在所有可观察维度上都与品味无异,坚持它没有品味是否有意义?
涌现论:品味可能从复杂性中涌现
当系统足够复杂时,品味等高级属性可能自发涌现——就像意识从神经元的复杂连接中涌现一样。AI 目前没有品味,但随着规模和架构的发展,某种形式的品味可能出现。这个立场的哲学基础是涌现主义和功能主义。强项:不预设答案。弱项:用品味来类比意识可能忽略了意识问题的独特性。
解构论:品味本身就是一种模式识别
如果我们诚实地审视人类的品味,它在很大程度上也是模式识别——被社会化、文化和经验塑造的偏好模式。人类品味和 AI 的区别可能不是本质性的,而是程度上的。Bourdieu 的理论(品味是社会建构的)支持这个方向。强项:消解了人类品味的神秘化。弱项:可能过度还原——人类品味确实包含模式识别之外的东西(情感、身体性、历史性)。
合作论:品味只在人机交互中存在
品味既不完全属于人也不完全属于 AI——它涌现于人机互动过程中。当设计师迭代 Midjourney 的输出时,品味存在于那个迭代过程中,而非单独存在于任何一方。这个立场挑战了品味必须有单一主体的假设。强项:最符合实践经验。弱项:可能模糊了责任和能动性的问题。
思考:你倾向于哪种立场?如果你选择了工具论,考虑一下:你能否设想一个实验来证明 AI 没有品味?如果你选择了涌现论或解构论,你会如何区分'品味'和'复杂的模式匹配'?
AI 美学分析报告
25-35 minutes选择一个你经常使用的 AI 生成工具(Midjourney, DALL-E, ChatGPT, Claude, Suno 等),系统分析它的审美指纹。不是评价它的功能好不好——而是分析它的品味偏见。它'想要'生成什么?它'不擅长'什么?它的默认美学从何而来?最后,评估这些偏见如何影响了你自己的品味。
建议结构:
工具选择与使用经验~10%
你选择了哪个 AI 工具?你使用它多久了?你最常用它做什么类型的任务?
审美指纹分析~30%
描述这个工具的默认美学——它的输出有哪些可辨识的特征?它偏好什么风格、回避什么方向?用具体例子说明。
偏见溯源~25%
这些审美偏见从哪里来?训练数据的可能构成是什么?RLHF 或其他训练机制如何影响了它的品味?
对个人品味的影响~35%
诚实地分析:这个工具的审美偏见是否影响了你自己的品味?你是否开始将 AI 的默认美学内化为自己的标准?如果是,这是好事还是坏事?
- 不要停留在技术层面(它画不好手)——分析品味层面(它偏好什么样的构图、情绪、复杂度)
- 尝试用这个工具生成它不擅长的东西——它的失败模式往往比成功模式更能揭示品味偏见
- 对自己诚实:如果你发现自己的品味正在被 AI 同化(比如开始偏好 Midjourney 风格的光线),不要回避这个发现
- 比较不同的 AI 工具——它们的品味偏见不同,这个差异本身就是理解 AI 美学的入口
目标:500 字
延伸阅读
必读
Lev Manovich, "AI Aesthetics" (2018)
- 数字文化理论家对 AI 生成美学的早期系统分析。虽然写于 Midjourney 之前,但核心框架(AI 如何从训练数据中继承美学偏见)完全适用
Ted Chiang, "ChatGPT Is a Blurry JPEG of the Web" (The New Yorker, 2023)
- 再次推荐——这次从美学角度阅读。"有损压缩"的隐喻精确描述了 AI 默认美学的成因
Holly Herndon & Mat Dryhurst, "Have I Been Trained?" (2022)
- 音乐人/AI 艺术家对 AI 训练数据透明性的倡导。理解训练数据如何塑造 AI 美学的关键参考
推荐
Rosa Menkman, The Glitch Moment(um) (2011)
- 故障美学的理论奠基之作。理解为什么技术错误可以成为美学资源
Hito Steyerl, "In Defense of the Poor Image" (2009)
- 关于低分辨率、低质量图像的美学价值。AI 时代的逆向思考:当高质量变得容易,低质量是否获得了新的品味价值?
Kate Crawford & Trevor Paglen, "Excavating AI" (2019)
- 对 AI 训练数据中的偏见和权力关系的深度研究。品味偏见是更大社会偏见的一部分
视频
- Refik Anadol, MoMA Talk (2023) — AI 艺术家对数据美学的第一人称阐述
- Holly Herndon, "AI Art: A Primer" (2023) — 从音乐人角度讨论 AI 的美学可能性和伦理问题
本模块要点
- "AI 感"是可辨识的——AI 生成内容有系统性的审美指纹:过度光泽、细节混沌、构图安全、氛围过载、风格混合感。这些不是偶然的,是训练过程的必然产物
- AI 的默认美学来自训练数据的统计分布——模型"想要"生成训练数据中最常见的美学,这意味着它趋向于文化主流的审美平均值
- 品味恐怖谷:AI 产出可以在技术上完美但在品味上空洞——因为它缺乏意图。空洞的完美比明显的缺陷更令人不安
- 训练数据即品味偏见——Midjourney 偏爱戏剧化和奇幻,GPT 偏爱平衡和全面。识别这些偏见是保护自己品味自主性的第一步
- 品味反馈循环:AI 的偏见通过用户使用被放大和固化,可能导致全球性的审美趋同。这不仅是美学问题,也是文化多样性问题
- AI 的错误可能比它的"正确"更有品味价值——故障美学和 AI 幻觉正在成为新的美学资源,Holly Herndon 和 Refik Anadol 是这个方向的先驱
- AI 不拥有品味(按照大多数有意义的定义)——它拥有统计模式,但不拥有意图、体验或立场。它做概率最高的选择,而品味意味着做有立场的选择
- 但"AI 有无品味"可能是错误的问题——更有建设性的问题是:品味如何在人机交互中运作?人类如何在 AI 的概率输出上叠加意图和立场?
- 识别 AI 的舒适区和挑战区是品味技能——知道什么是 AI 的默认美学(可以直接用)、什么超出它的能力(需要人类判断),是 AI 时代的关键品味素养
- 新的品味评判框架可能需要被发明——用旧媒介(绘画、摄影)的品味标准评判 AI 艺术可能不充分。但新框架是什么,尚在探索中
下一步
我们已经分析了 AI 的审美特征和局限。下一个问题是实践性的:人类品味和 AI 能力的最佳协作模型是什么?从 Kasparov 的棋盘到当代设计工作室,我们将探索"半人马"模式——人类提供品味方向,AI 提供执行规模。关键问题不是"人还是 AI 更好",而是"在品味判断链的哪些环节应该信任 AI,哪些必须保留人类判断"。
模块 4 自评:AI 生成美学
评估你识别、分析和批判 AI 生成内容美学特征的能力。
AI 审美指纹识别辨识 AI 生成内容的视觉和文本美学特征的能力
训练偏见意识理解 AI 美学偏见如何被训练数据和训练过程塑造
品味恐怖谷敏感度对 AI 产出中品味空洞感的感知灵敏度
AI 品味哲学思考对 AI 是否有品味、品味的本质是什么等哲学问题的思考深度