前面两块讲了现在的技术和文化。从这一块开始,久保田开始"逆行"——他先回到大约两年前的一个关键议题"美学对齐",然后借媒体理论家 列夫·马诺维奇(Lev Manovich) 的视角,把生成式AI重新定义为"预测媒体",并顺着这个思路梳理图像媒体的五阶段进化史。
久保田说,事情一多,人就容易忘记不久前的事。如果回想大约两年前,一个重要的议题是 Aesthetic Alignment(美学对齐)。Alignment 很难翻译,大致是"调整"的意思,核心问题是:如何让生成式AI符合人类的价值观。
久保田强调,生成式AI的学习其实分前后两半,不能只看前面的基础训练:
以前也叫无监督学习。计算机的方便之处在于:数据多了,就能自动出题。比如文章的话,挖掉一个单词让它预测,这样就有正确答案,可以无限出题、无限学习。这就是 Transformer 模型所做的基础学习。
久保田把这种题目比作"先端入试"(前沿入学考试)式的"穴あき問題"(填空题)。数据越多,题目就越多,模型学得越多。
基础训练之后,还要通过强化学习或奖励模型来调整到人类喜好的方向。这其实是很多技术人员正在努力的地方:让 AI 能好好回答提问、体察用户处境、避免伦理问题内容。这些"调整层"实际上非常多。
久保田指出,这个调整层在技术上极其困难,而且实际上是劳动密集型的问题,其中涉及劳动与剥削问题——"讲起来也是没完没了"。但如何把这些做好,曾是至关重要的课题。
当时大家讨论的问题是:这种"人类偏好调整"在制作图像时会不会成为障碍?
原因在于:监督学习和奖励模型,本质上是在模型化统计学上"平均的人类偏好"。越多人喜欢的东西,奖励越高。于是产出物会越来越接近那种平均的、bit-like(比特化的)东西。文本也会变得像"顾问写的文章"——虽然可以用 prompt 指定风格,但最后的监督学习层都会介入,把它驯化为那种风格。
久保田举了美术史上的例子:正是那些不平均的东西创造了历史。比如《呐喊》,即使尝试数值化地测量其美感,也很难成功。过去有很多人尝试定量处理绘画之美,有一个叫信息美学的领域,比如用秩序与复杂性的比值或乘积来求,或者测量图像熵、分形维度、颜色对比、计算机视觉特征提取等。同样的问题也出现在生成式AI中:给图像数据附上美学分数来学习,但这类东西很难涌现,产出物难免趋于平均。
这成为了对生成式AI产出物批判的焦点之一,大约两年前曾引发大量讨论和论文。比如"普遍的美的调和会窄化艺术表现",或者 aesthetic value 的有无问题——没有它当然无法做美学评价,但赋予这种价值本身的是非也成为话题。在图像生成领域,这至今仍可说是一个问题。
大约同一时期,另一个问题出现:学习数据开始饱和。2022 年后大量人开始使用生成式AI,生成内容喷涌而出,学习对象逐渐变成了 AI 生成的内容。
久保田把这叫作 AI Cannibalism(AI 同类相食):基于"平均之美"生成的图像又被用于训练,这个循环会不断加速。结果是:异端、怪异、罕见之物相对越来越少,平均的刻板印象被放大。
当时有人提出解决方案:把训练层个性化。既然奖励标准因人而异,那每个人持有自己的美学指标,按此生成不就好了?但细想问题一样:最终只会不断固化自己喜欢的东西,filter bubble(过滤气泡)在生成式AI中也会发生。这个问题确实被指出了。
重新审视这一时期,久保田认为有一个关键点需要强调:以前很多人——尤其是科技产业的人——说"因为学习了互联网上的庞大数据所以才这么聪明"。但仔细想想,互联网其实是非常狭小的世界。
久保田说,前面提到的"触觉泛滥"到底是什么意思?至少触觉信息在互联网世界中几乎不存在。味觉和嗅觉恐怕也非常稀少。所以视觉信息一家独大。
他举了纳米布沙漠直播的例子:我们现在看着直播,但终究只能看到沙漠的极小部分。生成式AI学习的,不过是现实沙漠中我们能感受到的极小一部分。大家要重新意识到这一点。
久保田顺便讲了一个话题:互联网有多重?有两种说法:
互联网终究只有这么重。但 paradoxical(悖论式)的是:尽管只有这么点重量,为了支撑它,全世界都在建造数据中心。去年也有"世界最强AI数据中心建成"之类的新闻,大量"将新建数据中心"的报道层出不穷。为了处理刚才说的极其狭窄的互联网世界数据,不断建造这种巨大设施——这是矛盾的现实。
也因此,大家意识到互联网世界狭小到连"同类相食"都不可避免。
接下来久保田继续"逆行",回到所谓的"生成式AI元年"。他说,当时他自己有一个根源是媒体论和信息设计,从这个视角看生成式AI,通过媒体进化史、历史的眼光来看,是极其重要的。
他引入了一位核心人物:列夫·马诺维奇(Lev Manovich),媒体理论家。2001 年出版了《新媒体的语言》,现在已有日文译本。他因写就这本关于"数字媒体是什么"的书而备受瞩目,此后也从媒体角度讨论软件、生成式AI等问题。
马诺维奇当时提出的问题是:大家都在说"生成、生成",但其实表达生成式AI最好的词可能不是"生成",而是"预测"。
久保田解释了这个区分的意义。"生成"在英语中是 generative / generation。以前就有 generative art(生成艺术)这个词,它指的是用代码、程序来生成各种图形,而且不是单一输出,而是通过微调参数或加入随机变化元素,创造多样化、不再重复的图形输出。
但看 Transformer 或生成式AI系统的内部,它们做的其实是如何读懂上下文、准确预测下一步。这其实不是媒体话题,而是关于人脑功能的讨论。
久保田引用了一个观点:脑的最大功能是预测能力。我们并非感知世上的一切然后分析,而是从现在状况预测"接下来会怎样",然后据此行动。最早提出这个的应该是 Jeff Hawkins,2000 年代很多人开始讨论这个话题。
同样,生成式AI之所以与人类契合,也是因为它的预测能力变得非常出色——也就是能读懂语境。所以才能对话,聊天界面才得以成立。以前人与AI的交互界面很粗糙,基本是关键词匹配式的反馈;现在能像对话一样,随着不断提问,问题被逐渐细化。这都是因为预测能力实现了。
从这个"预测媒体"的角度,久保田梳理了图像媒体的变化。马诺维奇将其归纳为五个阶段。
久保田认为,图像媒体的五阶段变化,最典型地体现在我们日常使用的智能手机相机上。他说,大家可能都有同感:大概在 2000 年代,要拍好照片必须用数码单反或微单这种大传感器相机、好镜头,这是从胶片时代沿袭下来的常识。但这十年左右,反而觉得那种相机拍不好,智能手机拍得更好的感觉越来越普遍。
其背后其实是机器学习、AI 技术。所以不管大家说用不用生成式AI,只要用智能手机拍照,就已经在用 AI 技术了。久保田梳理了这十年的进化:
最初的数码相机与模拟相机是同系的。有传感器,CCD 有噪点,所以要降噪、调白平衡、压缩、图像化。大概到 2010 年左右,相机基本都是这样的。虽然方便,但那时候还没人说 iPhone、智能手机能拍出更好的照片。
在顺序性算法/流程推进中,发生巨大变化的是:照片从所谓的"记录媒体"变成了"计算媒体",进入了计算摄影时代。与其说叫数码相机,不如说正在变成软件相机。
到了 2019 年左右,比生成式AI元年还早三四年,机器学习已经引入相机:判断拍的是什么——"这张照片有人""是脸""还有天空"——然后根据内容调整图像。当时发布会上说"拍一张照片要计算一万亿次"。
现在计算不再是以拍完再处理的方式进行,而是拍摄同时并行处理。这意味着什么?视频也能做到同样的事。比如拍完后还能改焦点。也就是说,照片不再是"拍这里",而是"先把数据拍下来,之后什么都能做"。正是因为这样,才能拍出美丽的照片。
近几年更出现了所谓的生成处理——自动移除物体、换背景。所以现在的照片虽然不是 fake,但确实已经变成了生成物。看这些生成装置/相机,正像走马灯一样,把图像媒体进化十几年间的历程快速展示了一遍。
因此,照片的定义也改变了:最初是尽量详细记录光线的装置,现在变成了基于不完整数据预测生成最优图像的系统。