Lecture Guide · Block 3 / 10

AI特论 第1回「逆行之美学」
久保田晃弘 · 前半

来源:Tama Design University 讲座 当前块:第 3 块 · 预测媒体与图像进化

前面两块讲了现在的技术和文化。从这一块开始,久保田开始"逆行"——他先回到大约两年前的一个关键议题"美学对齐",然后借媒体理论家 列夫·马诺维奇(Lev Manovich) 的视角,把生成式AI重新定义为"预测媒体",并顺着这个思路梳理图像媒体的五阶段进化史。

五、美学对齐与数据饱和

久保田说,事情一多,人就容易忘记不久前的事。如果回想大约两年前,一个重要的议题是 Aesthetic Alignment(美学对齐)。Alignment 很难翻译,大致是"调整"的意思,核心问题是:如何让生成式AI符合人类的价值观。

生成式AI学习的两个步骤

久保田强调,生成式AI的学习其实分前后两半,不能只看前面的基础训练:

前半:Self-Supervised Learning(自监督学习)

以前也叫无监督学习。计算机的方便之处在于:数据多了,就能自动出题。比如文章的话,挖掉一个单词让它预测,这样就有正确答案,可以无限出题、无限学习。这就是 Transformer 模型所做的基础学习。

久保田把这种题目比作"先端入试"(前沿入学考试)式的"穴あき問題"(填空题)。数据越多,题目就越多,模型学得越多。

后半:Reinforcement Learning / Reward Model(强化学习 / 奖励模型)

基础训练之后,还要通过强化学习或奖励模型来调整到人类喜好的方向。这其实是很多技术人员正在努力的地方:让 AI 能好好回答提问、体察用户处境、避免伦理问题内容。这些"调整层"实际上非常多。

久保田指出,这个调整层在技术上极其困难,而且实际上是劳动密集型的问题,其中涉及劳动与剥削问题——"讲起来也是没完没了"。但如何把这些做好,曾是至关重要的课题。

关键点:一旦加入这个调整层,生成式AI就不是"与人类不同的智能",而是越来越像"模拟人类的智能"。如果你现在用的工具让你觉得"不像人",你大概就不会用了。所以把它调教得"仿佛邻座坐了另一个人",是第二个重要要点。
"美学对齐"的问题:平均化的美

当时大家讨论的问题是:这种"人类偏好调整"在制作图像时会不会成为障碍?

原因在于:监督学习和奖励模型,本质上是在模型化统计学上"平均的人类偏好"。越多人喜欢的东西,奖励越高。于是产出物会越来越接近那种平均的、bit-like(比特化的)东西。文本也会变得像"顾问写的文章"——虽然可以用 prompt 指定风格,但最后的监督学习层都会介入,把它驯化为那种风格。

视频画面:蒙克(Edvard Munch)的《呐喊》(The Scream)

久保田举了美术史上的例子:正是那些不平均的东西创造了历史。比如《呐喊》,即使尝试数值化地测量其美感,也很难成功。过去有很多人尝试定量处理绘画之美,有一个叫信息美学的领域,比如用秩序与复杂性的比值或乘积来求,或者测量图像熵、分形维度、颜色对比、计算机视觉特征提取等。同样的问题也出现在生成式AI中:给图像数据附上美学分数来学习,但这类东西很难涌现,产出物难免趋于平均。

这成为了对生成式AI产出物批判的焦点之一,大约两年前曾引发大量讨论和论文。比如"普遍的美的调和会窄化艺术表现",或者 aesthetic value 的有无问题——没有它当然无法做美学评价,但赋予这种价值本身的是非也成为话题。在图像生成领域,这至今仍可说是一个问题。

数据饱和与 AI Cannibalism(AI 同类相食)

大约同一时期,另一个问题出现:学习数据开始饱和。2022 年后大量人开始使用生成式AI,生成内容喷涌而出,学习对象逐渐变成了 AI 生成的内容。

久保田把这叫作 AI Cannibalism(AI 同类相食):基于"平均之美"生成的图像又被用于训练,这个循环会不断加速。结果是:异端、怪异、罕见之物相对越来越少,平均的刻板印象被放大。

当时有人提出解决方案:把训练层个性化。既然奖励标准因人而异,那每个人持有自己的美学指标,按此生成不就好了?但细想问题一样:最终只会不断固化自己喜欢的东西,filter bubble(过滤气泡)在生成式AI中也会发生。这个问题确实被指出了。

六、互联网的局限与生成式AI的本质

重新审视这一时期,久保田认为有一个关键点需要强调:以前很多人——尤其是科技产业的人——说"因为学习了互联网上的庞大数据所以才这么聪明"。但仔细想想,互联网其实是非常狭小的世界。

互联网缺少什么感官信息?

久保田说,前面提到的"触觉泛滥"到底是什么意思?至少触觉信息在互联网世界中几乎不存在。味觉和嗅觉恐怕也非常稀少。所以视觉信息一家独大。

视频画面:纳米布沙漠(Namib Desert)的实时直播画面

他举了纳米布沙漠直播的例子:我们现在看着直播,但终究只能看到沙漠的极小部分。生成式AI学习的,不过是现实沙漠中我们能感受到的极小一部分。大家要重新意识到这一点。

核心判断:无论生成式AI还是互联网,那个世界都非常狭窄,之外还有广阔的现实世界。反过来说,生成式AI能做的,只是计算机能做的一部分。
互联网有多重?一个关于重量的寓言

久保田顺便讲了一个话题:互联网有多重?有两种说法:

  • 50 克:这是当前运转中的电的重量。按现在的数据量重新计算,大约是一颗土豆的重量。
  • 1.2 微克:以存储的数据重量来算,只有一粒沙子的十分之一。

互联网终究只有这么重。但 paradoxical(悖论式)的是:尽管只有这么点重量,为了支撑它,全世界都在建造数据中心。去年也有"世界最强AI数据中心建成"之类的新闻,大量"将新建数据中心"的报道层出不穷。为了处理刚才说的极其狭窄的互联网世界数据,不断建造这种巨大设施——这是矛盾的现实。

也因此,大家意识到互联网世界狭小到连"同类相食"都不可避免。

七、列夫·马诺维奇的视角:预测媒体

接下来久保田继续"逆行",回到所谓的"生成式AI元年"。他说,当时他自己有一个根源是媒体论和信息设计,从这个视角看生成式AI,通过媒体进化史、历史的眼光来看,是极其重要的。

Lev Manovich 是谁?

他引入了一位核心人物:列夫·马诺维奇(Lev Manovich),媒体理论家。2001 年出版了《新媒体的语言》,现在已有日文译本。他因写就这本关于"数字媒体是什么"的书而备受瞩目,此后也从媒体角度讨论软件、生成式AI等问题。

"生成" vs. "预测":哪个词更准确?

马诺维奇当时提出的问题是:大家都在说"生成、生成",但其实表达生成式AI最好的词可能不是"生成",而是"预测"

久保田解释了这个区分的意义。"生成"在英语中是 generative / generation。以前就有 generative art(生成艺术)这个词,它指的是用代码、程序来生成各种图形,而且不是单一输出,而是通过微调参数或加入随机变化元素,创造多样化、不再重复的图形输出。

但看 Transformer 或生成式AI系统的内部,它们做的其实是如何读懂上下文、准确预测下一步。这其实不是媒体话题,而是关于人脑功能的讨论。

马诺维奇:别被"生成"骗了,想想"预测"。

久保田引用了一个观点:脑的最大功能是预测能力。我们并非感知世上的一切然后分析,而是从现在状况预测"接下来会怎样",然后据此行动。最早提出这个的应该是 Jeff Hawkins,2000 年代很多人开始讨论这个话题。

同样,生成式AI之所以与人类契合,也是因为它的预测能力变得非常出色——也就是能读懂语境。所以才能对话,聊天界面才得以成立。以前人与AI的交互界面很粗糙,基本是关键词匹配式的反馈;现在能像对话一样,随着不断提问,问题被逐渐细化。这都是因为预测能力实现了。

八、图像媒体的进化:从记录到预测

从这个"预测媒体"的角度,久保田梳理了图像媒体的变化。马诺维奇将其归纳为五个阶段

图像媒体进化的五个阶段
  1. 手动表现:画笔、雕刻等,依靠身体、物质性的身体来手绘。
  2. 辅助设备:Camera Lucida(暗箱)是辅助描绘透视的工具,或者看着各种框架来画画、考虑比例等辅助工具。
  3. 记录:照片、视频等信息记录出现。"记录"这个词变得重要。
  4. 模拟(Simulation):最好的例子是 3D CG——用数学表达光、物理法则进行模拟,也就是物理建模。比如 90 年代的计算机图形学会议上,研究者的课题是"如何让窗帘真实飘动""如何真实模拟水和火"。
  5. 预测:基于数据集的概率性像素预测得以生成。
图像媒体进化方向:从身体到预测 手动 辅助设备 记录 模拟 预测
图 1:马诺维奇归纳的图像媒体五阶段。生成式AI把图像媒介推入了"预测"阶段。
智能手机相机:图像媒体进化的缩影

久保田认为,图像媒体的五阶段变化,最典型地体现在我们日常使用的智能手机相机上。他说,大家可能都有同感:大概在 2000 年代,要拍好照片必须用数码单反或微单这种大传感器相机、好镜头,这是从胶片时代沿袭下来的常识。但这十年左右,反而觉得那种相机拍不好,智能手机拍得更好的感觉越来越普遍。

建议观看视频画面:iPhone 相机演进的相关示例图片或发布会截图

其背后其实是机器学习、AI 技术。所以不管大家说用不用生成式AI,只要用智能手机拍照,就已经在用 AI 技术了。久保田梳理了这十年的进化:

第一阶段:数字相机 = 模拟相机的同系物

最初的数码相机与模拟相机是同系的。有传感器,CCD 有噪点,所以要降噪、调白平衡、压缩、图像化。大概到 2010 年左右,相机基本都是这样的。虽然方便,但那时候还没人说 iPhone、智能手机能拍出更好的照片。

第二阶段:从记录媒体到计算媒体

在顺序性算法/流程推进中,发生巨大变化的是:照片从所谓的"记录媒体"变成了"计算媒体",进入了计算摄影时代。与其说叫数码相机,不如说正在变成软件相机

  • HDR:自动调整对比度。
  • Burst Shooting(连拍):按一次快门,但之前已经拍了很多张,合成选出最佳、进行混合。
  • 多摄像头:多个镜头可以测量被摄体的深度。比如长焦和广角裁剪后混合,就能知道哪个在前哪个在后,从而进行图像处理。这是硬件性能提升带来的发现。

第三阶段:机器学习进入相机

到了 2019 年左右,比生成式AI元年还早三四年,机器学习已经引入相机:判断拍的是什么——"这张照片有人""是脸""还有天空"——然后根据内容调整图像。当时发布会上说"拍一张照片要计算一万亿次"

第四阶段:拍摄与处理并行,照片变成"先拍数据"

现在计算不再是以拍完再处理的方式进行,而是拍摄同时并行处理。这意味着什么?视频也能做到同样的事。比如拍完后还能改焦点。也就是说,照片不再是"拍这里",而是"先把数据拍下来,之后什么都能做"。正是因为这样,才能拍出美丽的照片。

第五阶段:生成处理

近几年更出现了所谓的生成处理——自动移除物体、换背景。所以现在的照片虽然不是 fake,但确实已经变成了生成物。看这些生成装置/相机,正像走马灯一样,把图像媒体进化十几年间的历程快速展示了一遍。

个体发生与系统发生同步:正如生物进化论中的说法,相机进化被内嵌到处理流程中:记录、合成、理解、生成。只要用智能手机,就已经深陷生成式AI世界。

因此,照片的定义也改变了:最初是尽量详细记录光线的装置,现在变成了基于不完整数据预测生成最优图像的系统

第三块总结:生成式AI的学习不仅是"看数据",还要经过"美学对齐"调整到人类偏好——但这会导致平均化、窄化艺术表现。同时,互联网数据其实非常狭窄,触觉/味觉/嗅觉几乎缺失。马诺维奇把生成式AI重新定义为"预测媒体",图像媒体也由此被理解为五个阶段:手动表现 → 辅助设备 → 记录 → 模拟 → 预测。智能手机相机就是这五个阶段的缩影:它已经从"记录光线的装置"变成了"基于不完整数据预测最优图像的系统"。