Lecture Guide · Block 1 / 10

AI特论 第1回「逆行之美学」
久保田晃弘 · 前半

来源:Tama Design University 讲座 主题:生成式AI的技术与文化现状 当前块:第 1 块 · LLM 现状 & 技术爆发

久保田的讲座策略是「逆行」——从现在的生成式AI出发,一路往回追问:这种技术为什么长这样?它的思想根源来自哪里?这一整块先把起点讲清楚:今天的大语言模型究竟是什么状态,以及当前技术发展的两条主线。

课程内容概览

久保田晃弘「逆行之美学」讲座 · 前半 + 後半 · 共 10 块

前半 · 生成式AI的技术与文化起点
Block 1

LLM 现状与技术爆发

从 Transformer Explorer 出发,理解大语言模型不是"简单预测",以及当前架构寒武纪爆发与效率化范式转移。

Block 2

文化现状与亚类型兴起

数字完美主义的终结、Tactile Rebellion、James Bridle 的新美学、Frutiger Aero / Neo-Aero 等亚类型。

Block 3

预测媒体与图像进化

美学对齐与数据饱和、互联网的局限、Lev Manovich 的"预测媒体"、图像媒体五阶段与智能手机相机。

Block 4

软件化与数据库艺术

数据集作为档案、信息压缩与扩张、1990 年代软件化、数据库艺术、Shredder、新媒体五原理。

Block 5

浪漫主义与作者性

1960 年代概念艺术、包豪斯/呼捷玛斯、达达与碎片化美学、浪漫主义如何发明"作者"与"创造性"。

Block 6

Techne 与三种立场

古希腊 Techne/Ars、非创造传统、作者之死、本雅明拱廊计划、思考生成式AI的三种立场。

後半 · 塑料树论争与生成式AI美学
Block 7

从概念艺术到广告文化

Sol LeWitt 与数字艺术、Negroponte《Being Digital》、近代自我、Edward Bernays 与广告文化、技术黑箱。

Block 8

塑料树论争(上)

Martin Krieger 1973 年论文、自然是社会建构、复制品经验等价、社会正义、2000 年"第二自然"。

Block 9

塑料树的美学反驳与 AI 类比

西村清一的美学反驳、环境美学、AI 作品的违和感来源、美学与伦理的纠缠。

Block 10

生成式AI的存在论与收尾

模仿/生成/存在三种位置、作者之死、图像存在论、人工物美学、相关新书与课程展望。

一、讲座的出发点:大语言模型的现在

久保田说,这次讲座要"逆着历史回溯"生成式AI,但出发点必须是"现在"。他首先想介绍的是:目前被广泛使用的大语言模型(LLM)处于何种状态。

Transformer Explorer:把"下一个词预测"可视化

他从一个叫 Transformer Explorer 的网站开始。这是一个以交互方式呈现的网站:给定一句开头,模型会逐个 token 预测下一个词,把概率分布可视化出来。

视频画面:Transformer Explorer 网站的交互演示,示例文本为 "Artificial Intelligence is Transforming the..."

久保田演示了这个过程:输入 "Artificial Intelligence is Transforming the...",网站会显示接下来可能出现的一系列候选词。如果继续点击 Generate,当 "World" 作为候选出现时,再点 Generate 就会继续预测下一个字符,比如接下来会出现 "OVE" 等等。看上面的小字,可以看到接下来会出现"商业"之类的词。

这个网站的功能就是介绍生成式AI内部实际上在做什么。如大家所见,它在做相当复杂的事情。

"说到底只是预测"——对,但太轻率了

久保田说,我们常说生成式AI"说到底只是在做预测",这话对也算对,但之所以现在这么多人投身于这项技术,正是因为其中凝聚了大量以往的研究与实践成果,才得以诞生出性能如此强大的软件。至少从技术角度来看,这是巨大的成果与进步,我们必须承认这一点。这是他要说的第一个出发点。

轻视预测,就是轻视几十年的工程积累。

具体来说,Transformer Explorer 里展示的还只是极小一部分。每个 Transformer 模块中的 Key / Value / Query,就是数据库中用于检索数据、返回结果、携带数值的组合,它们层层堆叠。作为关键技术,Attention(注意力)机制模拟的是我们人类思考事物时至关重要的语境。

对话时,我们不会只根据当下听到的单词做判断,还会考虑"刚才在聊什么话题""之前说了什么词",在把握语境的过程中进行交流。因此,即使信息不完整也能做出预测。如何将这些能力通过数据库和算法实现,正是这项技术的一个出发点。

而且这些结构中有大量的——所谓 Multi-head(多头)机制——如何有效发现语境,这是技术中极为重要的一环,而且这些结构层层叠叠。这是 GPT-2,一项有些年代的技术了。如今的大语言模型技术正是在此基础上进步、发展的。至少以几年前的技术为例,就有这么多层,而且每一层都可以附加各种参数。

一句话记住:今天的 LLM 是"海量参数 + 工程调优"的产物,它的预测能力建立在复杂结构之上,不是简单的查表或接龙。
输入文本 Transformer Block Multi-Head Attention Feed Forward Layer Norm × N 层 下一个词 概率分布 P(商业)=0.32
图 1:简化版 Transformer 流程。文本先进入多层 Transformer Block,每层通过 Attention 把握上下文,最后输出下一个词的概率分布。
Temperature 与采样:控制"随机性"的参数

久保田用 Temperature(温度)来说明参数如何影响输出。这个 Temperature 值控制分布的宽窄:

  • 温度低:将概率分布的峰值拉高,模型倾向于选概率最高的词,输出更固定、更"格式化"、更保守。
  • 温度高:将概率分布的山峰变得平缓,候选范围变广,输出更有意外性。但过头了就会产生 Hallucination(幻觉),也就是幻听或错误答案。

另外还有 Top-p / Top-k 采样:从 Top 采样中选多少个,是 probabilistic(概率式)选择还是固定数量选择,这些方式都会影响结果。

关键点:LLM 的输出不是单一确定的,而是一组可被调节的概率行为。调参本身就是"让工具更易用、更有帮助"的过程。这不是简单地说"这样就能预测",而是有海量参数,通过调整它们来让工具更易用、更有帮助——这才是当今技术的背景。
低温 → 输出集中 高温 → 输出分散 候选词概率 “商业” 概率最高 候选词概率 多个词概率接近
图 2:Temperature 如何改变概率分布。低温让输出稳定但可能呆板;高温让输出多样但容易"hallucinate"。
架构的多样性:不是单一技术

久保田提到,最近有人在做所谓 Architecture Gallery(架构画廊),调查有多少种架构。那个网站上每一个都是一个模型的架构结构,真可谓百货琳琅、数不胜数。

视频画面:Architecture Gallery 网站截图,展示各种模型架构结构图

他的结论是:生成式AI不是某一种已经确立的技术,而是众多研究者、甚至包括一些初创企业,都在相互切磋中进行着各种开发。毋庸置疑,这是一个极其活跃的领域。

仔细看这些的话,细节上是没完没了的。层数极多、处理复杂。从信息设计的角度来看,这也是一股非常优美的信息流。而且这些架构因模型而异,各种尝试都有,有的成功,有的失败。探索下去真的是永无止境,但首先我们要认清这就是这项技术的本质。

二、生成式AI的技术现状:寒武纪爆发与效率化

讲完 LLM 内部机制后,久保田把视角拉远,看当前生成式AI整体技术格局。他提出两条并行主线:架构多样化效率化

主线 A:"寒武纪爆发"式的架构多样化

久保田把当前生成式AI的多样化比作 寒武纪爆发。寒武纪爆发说的是生物进化史上,大约 5 亿年前,在伯吉斯页岩发现化石而闻名的时期。生物花了 40 亿、50 亿年进化而来,但绝非平坦匀速,而是时有爆发性变化。对地球现有生物而言,寒武纪爆发时诞生了各种身体结构——也就是架构——脚的结构、身体的结构都是在那时成形的。

正如有人所说,生成式AI元年、GPT 架构确立之后,真的是日新月异地在进化,现在可能正属于这样一个时期。普遍而言,在设计、创造事物时,设计空间一旦超过临界点,算法就会突然多样化,这在很多领域都会发生,现在恐怕正处于这样的时期。

核心判断:Transformer 这种有效的预测机制已经诞生,并且如今已被打磨到极高水平,处于不断微调、精炼的状态。
主线 B:从"大力出奇迹"到"效率优先"

复杂的 Transformer 计算成本极高。有研究说,现在在线查询生成式AI消耗多少电力,相比过去的搜索,现在生成式AI的能耗是 10 倍或更多。日积月累,这就引发了数据中心问题、电力供应问题、资源问题、散热问题,各方面都在讨论。

因此,不能只是提升性能,还必须提高能源效率。这带来一场范式转移

过去:Scaling Law

为了提升精度,大家拼命计算、增加基础学习的数据量、或者增加可调参数。这种"大力出奇迹"的 Scaling Law 思路,基本上是"快者得天下"。

现在:效率优化

越来越多的人开始致力于优化计算和内存效率、减少计算量——也就是让生成变得更轻松、更节能。

效率化的三个具体方向

1. Local LLM(本地大语言模型)

现在生成式AI基本依赖联网和中央服务器。但比如智能手机就是个很好的例子:断网时能不能用?能不能不依赖中央大型服务器,而是在终端设备上运行?所以为了提高效率、减少负载,与其做一个大家伙让大家访问,不如分布式各跑各的。这虽然不限于生成式AI,但这类趋势确实正在发生。

2. Bonsai(盆栽)LLM 与量化

不久前有一个叫 Bonsai(盆栽)的 LLM 引起关注。刚才说增加参数,那增加参数的同时,能不能减少每个参数所用的信息量?要提高精度就要提高位数,这就需要大量比特来表示。但逐渐削减后,发现性能其实下降不多。把它推到极致会怎样?

1-bit LLM 就是只用 1 或 -1,仅用 1 比特信息的参数来学习,结果性能相当不错——当然其中包含大量巧思和改进。

视频画面:Bonsai(盆栽)LLM 或 1-bit LLM 相关的论文/架构示意图

3. 1.58-bit LLM 与智能密度

1.58-bit LLM 是因为信息量用对数表示,log₂1 = 1,再加一个值变成 1、0、-1 三种值,就是 1.58-bit LLM,性能还会进一步提升。这是最近的热门话题。

这里讨论的是一个叫 "智能密度"的参数。正如刚才所说,提高效率不能只看能不能做厉害的事,而是如何在紧凑的体积中塞入更多智能能力。有了 1-bit LLM 这样的技术,智能密度就会大幅提升,而且计算量也少。这样一来,比如没有网络连接的智能手机也能运行。

核心判断:1-bit / 1.58-bit 这样的技术能大幅提升"智能密度",同时计算量更少。未来可能让离线智能手机也能跑生成式AI——这是技术范式正在转移的证据。
时间 → 性能 Scaling Law:堆算力 效率优化:更少能耗 范式转移 Local LLM 1-bit / 1.58-bit 智能密度 ↑
图 3:生成式AI技术路线的范式转移。从单纯堆规模(Scaling Law)转向在保持性能的同时压缩计算成本。
本块总结:久保田先立住了"现在"这个起点。LLM 的内部是复杂的多层预测机器;而从外部看,整个行业正同时经历"架构寒武纪爆发"和"效率化范式转移"。不理解这两点,后面关于文化、历史、美学的讨论都缺少技术锚点。