Lecture Guide · Block 3 / 10

AI特论第1回「逆行之美学」
久保田晃弘 · 前半

来源：Tama Design University 讲座当前块：第 3 块 · 预测媒体与图像进化

前面两块讲了现在的技术和文化。从这一块开始，久保田开始"逆行"——他先回到大约两年前的一个关键议题"美学对齐"，然后借媒体理论家列夫·马诺维奇（Lev Manovich）的视角，把生成式AI重新定义为"预测媒体"，并顺着这个思路梳理图像媒体的五阶段进化史。

五、美学对齐与数据饱和

久保田说，事情一多，人就容易忘记不久前的事。如果回想大约两年前，一个重要的议题是 Aesthetic Alignment（美学对齐）。Alignment 很难翻译，大致是"调整"的意思，核心问题是：如何让生成式AI符合人类的价值观。

生成式AI学习的两个步骤

久保田强调，生成式AI的学习其实分前后两半，不能只看前面的基础训练：

前半：Self-Supervised Learning（自监督学习）

以前也叫无监督学习。计算机的方便之处在于：数据多了，就能自动出题。比如文章的话，挖掉一个单词让它预测，这样就有正确答案，可以无限出题、无限学习。这就是 Transformer 模型所做的基础学习。

久保田把这种题目比作"先端入试"（前沿入学考试）式的"穴あき問題"（填空题）。数据越多，题目就越多，模型学得越多。

后半：Reinforcement Learning / Reward Model（强化学习 / 奖励模型）

基础训练之后，还要通过强化学习或奖励模型来调整到人类喜好的方向。这其实是很多技术人员正在努力的地方：让 AI 能好好回答提问、体察用户处境、避免伦理问题内容。这些"调整层"实际上非常多。

久保田指出，这个调整层在技术上极其困难，而且实际上是劳动密集型的问题，其中涉及劳动与剥削问题——"讲起来也是没完没了"。但如何把这些做好，曾是至关重要的课题。

关键点：一旦加入这个调整层，生成式AI就不是"与人类不同的智能"，而是越来越像"模拟人类的智能"。如果你现在用的工具让你觉得"不像人"，你大概就不会用了。所以把它调教得"仿佛邻座坐了另一个人"，是第二个重要要点。

"美学对齐"的问题：平均化的美

当时大家讨论的问题是：这种"人类偏好调整"在制作图像时会不会成为障碍？

原因在于：监督学习和奖励模型，本质上是在模型化统计学上"平均的人类偏好"。越多人喜欢的东西，奖励越高。于是产出物会越来越接近那种平均的、bit-like（比特化的）东西。文本也会变得像"顾问写的文章"——虽然可以用 prompt 指定风格，但最后的监督学习层都会介入，把它驯化为那种风格。

视频画面：蒙克（Edvard Munch）的《呐喊》（The Scream）

久保田举了美术史上的例子：正是那些不平均的东西创造了历史。比如《呐喊》，即使尝试数值化地测量其美感，也很难成功。过去有很多人尝试定量处理绘画之美，有一个叫信息美学的领域，比如用秩序与复杂性的比值或乘积来求，或者测量图像熵、分形维度、颜色对比、计算机视觉特征提取等。同样的问题也出现在生成式AI中：给图像数据附上美学分数来学习，但这类东西很难涌现，产出物难免趋于平均。

这成为了对生成式AI产出物批判的焦点之一，大约两年前曾引发大量讨论和论文。比如"普遍的美的调和会窄化艺术表现"，或者 aesthetic value 的有无问题——没有它当然无法做美学评价，但赋予这种价值本身的是非也成为话题。在图像生成领域，这至今仍可说是一个问题。

数据饱和与 AI Cannibalism（AI 同类相食）

大约同一时期，另一个问题出现：学习数据开始饱和。2022 年后大量人开始使用生成式AI，生成内容喷涌而出，学习对象逐渐变成了 AI 生成的内容。

久保田把这叫作 AI Cannibalism（AI 同类相食）：基于"平均之美"生成的图像又被用于训练，这个循环会不断加速。结果是：异端、怪异、罕见之物相对越来越少，平均的刻板印象被放大。

当时有人提出解决方案：把训练层个性化。既然奖励标准因人而异，那每个人持有自己的美学指标，按此生成不就好了？但细想问题一样：最终只会不断固化自己喜欢的东西，filter bubble（过滤气泡）在生成式AI中也会发生。这个问题确实被指出了。

六、互联网的局限与生成式AI的本质

重新审视这一时期，久保田认为有一个关键点需要强调：以前很多人——尤其是科技产业的人——说"因为学习了互联网上的庞大数据所以才这么聪明"。但仔细想想，互联网其实是非常狭小的世界。

互联网缺少什么感官信息？

久保田说，前面提到的"触觉泛滥"到底是什么意思？至少触觉信息在互联网世界中几乎不存在。味觉和嗅觉恐怕也非常稀少。所以视觉信息一家独大。

视频画面：纳米布沙漠（Namib Desert）的实时直播画面

他举了纳米布沙漠直播的例子：我们现在看着直播，但终究只能看到沙漠的极小部分。生成式AI学习的，不过是现实沙漠中我们能感受到的极小一部分。大家要重新意识到这一点。

核心判断：无论生成式AI还是互联网，那个世界都非常狭窄，之外还有广阔的现实世界。反过来说，生成式AI能做的，只是计算机能做的一部分。

互联网有多重？一个关于重量的寓言

久保田顺便讲了一个话题：互联网有多重？有两种说法：

50 克：这是当前运转中的电的重量。按现在的数据量重新计算，大约是一颗土豆的重量。
1.2 微克：以存储的数据重量来算，只有一粒沙子的十分之一。

互联网终究只有这么重。但 paradoxical（悖论式）的是：尽管只有这么点重量，为了支撑它，全世界都在建造数据中心。去年也有"世界最强AI数据中心建成"之类的新闻，大量"将新建数据中心"的报道层出不穷。为了处理刚才说的极其狭窄的互联网世界数据，不断建造这种巨大设施——这是矛盾的现实。

也因此，大家意识到互联网世界狭小到连"同类相食"都不可避免。

七、列夫·马诺维奇的视角：预测媒体

接下来久保田继续"逆行"，回到所谓的"生成式AI元年"。他说，当时他自己有一个根源是媒体论和信息设计，从这个视角看生成式AI，通过媒体进化史、历史的眼光来看，是极其重要的。

Lev Manovich 是谁？

他引入了一位核心人物：列夫·马诺维奇（Lev Manovich），媒体理论家。2001 年出版了《新媒体的语言》，现在已有日文译本。他因写就这本关于"数字媒体是什么"的书而备受瞩目，此后也从媒体角度讨论软件、生成式AI等问题。

"生成" vs. "预测"：哪个词更准确？

马诺维奇当时提出的问题是：大家都在说"生成、生成"，但其实表达生成式AI最好的词可能不是"生成"，而是"预测"。

久保田解释了这个区分的意义。"生成"在英语中是 generative / generation。以前就有 generative art（生成艺术）这个词，它指的是用代码、程序来生成各种图形，而且不是单一输出，而是通过微调参数或加入随机变化元素，创造多样化、不再重复的图形输出。

但看 Transformer 或生成式AI系统的内部，它们做的其实是如何读懂上下文、准确预测下一步。这其实不是媒体话题，而是关于人脑功能的讨论。

马诺维奇：别被"生成"骗了，想想"预测"。

久保田引用了一个观点：脑的最大功能是预测能力。我们并非感知世上的一切然后分析，而是从现在状况预测"接下来会怎样"，然后据此行动。最早提出这个的应该是 Jeff Hawkins，2000 年代很多人开始讨论这个话题。

同样，生成式AI之所以与人类契合，也是因为它的预测能力变得非常出色——也就是能读懂语境。所以才能对话，聊天界面才得以成立。以前人与AI的交互界面很粗糙，基本是关键词匹配式的反馈；现在能像对话一样，随着不断提问，问题被逐渐细化。这都是因为预测能力实现了。

八、图像媒体的进化：从记录到预测

从这个"预测媒体"的角度，久保田梳理了图像媒体的变化。马诺维奇将其归纳为五个阶段。

图像媒体进化的五个阶段

手动表现：画笔、雕刻等，依靠身体、物质性的身体来手绘。
辅助设备：Camera Lucida（暗箱）是辅助描绘透视的工具，或者看着各种框架来画画、考虑比例等辅助工具。
记录：照片、视频等信息记录出现。"记录"这个词变得重要。
模拟（Simulation）：最好的例子是 3D CG——用数学表达光、物理法则进行模拟，也就是物理建模。比如 90 年代的计算机图形学会议上，研究者的课题是"如何让窗帘真实飘动""如何真实模拟水和火"。
预测：基于数据集的概率性像素预测得以生成。

图 1：马诺维奇归纳的图像媒体五阶段。生成式AI把图像媒介推入了"预测"阶段。

智能手机相机：图像媒体进化的缩影

久保田认为，图像媒体的五阶段变化，最典型地体现在我们日常使用的智能手机相机上。他说，大家可能都有同感：大概在 2000 年代，要拍好照片必须用数码单反或微单这种大传感器相机、好镜头，这是从胶片时代沿袭下来的常识。但这十年左右，反而觉得那种相机拍不好，智能手机拍得更好的感觉越来越普遍。

建议观看视频画面：iPhone 相机演进的相关示例图片或发布会截图

其背后其实是机器学习、AI 技术。所以不管大家说用不用生成式AI，只要用智能手机拍照，就已经在用 AI 技术了。久保田梳理了这十年的进化：

第一阶段：数字相机 = 模拟相机的同系物

最初的数码相机与模拟相机是同系的。有传感器，CCD 有噪点，所以要降噪、调白平衡、压缩、图像化。大概到 2010 年左右，相机基本都是这样的。虽然方便，但那时候还没人说 iPhone、智能手机能拍出更好的照片。

第二阶段：从记录媒体到计算媒体

在顺序性算法/流程推进中，发生巨大变化的是：照片从所谓的"记录媒体"变成了"计算媒体"，进入了计算摄影时代。与其说叫数码相机，不如说正在变成软件相机。

HDR：自动调整对比度。
Burst Shooting（连拍）：按一次快门，但之前已经拍了很多张，合成选出最佳、进行混合。
多摄像头：多个镜头可以测量被摄体的深度。比如长焦和广角裁剪后混合，就能知道哪个在前哪个在后，从而进行图像处理。这是硬件性能提升带来的发现。

第三阶段：机器学习进入相机

到了 2019 年左右，比生成式AI元年还早三四年，机器学习已经引入相机：判断拍的是什么——"这张照片有人""是脸""还有天空"——然后根据内容调整图像。当时发布会上说"拍一张照片要计算一万亿次"。

第四阶段：拍摄与处理并行，照片变成"先拍数据"

现在计算不再是以拍完再处理的方式进行，而是拍摄同时并行处理。这意味着什么？视频也能做到同样的事。比如拍完后还能改焦点。也就是说，照片不再是"拍这里"，而是"先把数据拍下来，之后什么都能做"。正是因为这样，才能拍出美丽的照片。

第五阶段：生成处理

近几年更出现了所谓的生成处理——自动移除物体、换背景。所以现在的照片虽然不是 fake，但确实已经变成了生成物。看这些生成装置/相机，正像走马灯一样，把图像媒体进化十几年间的历程快速展示了一遍。

个体发生与系统发生同步：正如生物进化论中的说法，相机进化被内嵌到处理流程中：记录、合成、理解、生成。只要用智能手机，就已经深陷生成式AI世界。

因此，照片的定义也改变了：最初是尽量详细记录光线的装置，现在变成了基于不完整数据预测生成最优图像的系统。

第三块总结：生成式AI的学习不仅是"看数据"，还要经过"美学对齐"调整到人类偏好——但这会导致平均化、窄化艺术表现。同时，互联网数据其实非常狭窄，触觉/味觉/嗅觉几乎缺失。马诺维奇把生成式AI重新定义为"预测媒体"，图像媒体也由此被理解为五个阶段：手动表现 → 辅助设备 → 记录 → 模拟 → 预测。智能手机相机就是这五个阶段的缩影：它已经从"记录光线的装置"变成了"基于不完整数据预测最优图像的系统"。