久保田的讲座策略是「逆行」——从现在的生成式AI出发,一路往回追问:这种技术为什么长这样?它的思想根源来自哪里?这一整块先把起点讲清楚:今天的大语言模型究竟是什么状态,以及当前技术发展的两条主线。
久保田晃弘「逆行之美学」讲座 · 前半 + 後半 · 共 10 块
从 Transformer Explorer 出发,理解大语言模型不是"简单预测",以及当前架构寒武纪爆发与效率化范式转移。
数字完美主义的终结、Tactile Rebellion、James Bridle 的新美学、Frutiger Aero / Neo-Aero 等亚类型。
美学对齐与数据饱和、互联网的局限、Lev Manovich 的"预测媒体"、图像媒体五阶段与智能手机相机。
数据集作为档案、信息压缩与扩张、1990 年代软件化、数据库艺术、Shredder、新媒体五原理。
1960 年代概念艺术、包豪斯/呼捷玛斯、达达与碎片化美学、浪漫主义如何发明"作者"与"创造性"。
古希腊 Techne/Ars、非创造传统、作者之死、本雅明拱廊计划、思考生成式AI的三种立场。
Sol LeWitt 与数字艺术、Negroponte《Being Digital》、近代自我、Edward Bernays 与广告文化、技术黑箱。
Martin Krieger 1973 年论文、自然是社会建构、复制品经验等价、社会正义、2000 年"第二自然"。
西村清一的美学反驳、环境美学、AI 作品的违和感来源、美学与伦理的纠缠。
模仿/生成/存在三种位置、作者之死、图像存在论、人工物美学、相关新书与课程展望。
久保田说,这次讲座要"逆着历史回溯"生成式AI,但出发点必须是"现在"。他首先想介绍的是:目前被广泛使用的大语言模型(LLM)处于何种状态。
他从一个叫 Transformer Explorer 的网站开始。这是一个以交互方式呈现的网站:给定一句开头,模型会逐个 token 预测下一个词,把概率分布可视化出来。
久保田演示了这个过程:输入 "Artificial Intelligence is Transforming the...",网站会显示接下来可能出现的一系列候选词。如果继续点击 Generate,当 "World" 作为候选出现时,再点 Generate 就会继续预测下一个字符,比如接下来会出现 "OVE" 等等。看上面的小字,可以看到接下来会出现"商业"之类的词。
这个网站的功能就是介绍生成式AI内部实际上在做什么。如大家所见,它在做相当复杂的事情。
久保田说,我们常说生成式AI"说到底只是在做预测",这话对也算对,但之所以现在这么多人投身于这项技术,正是因为其中凝聚了大量以往的研究与实践成果,才得以诞生出性能如此强大的软件。至少从技术角度来看,这是巨大的成果与进步,我们必须承认这一点。这是他要说的第一个出发点。
具体来说,Transformer Explorer 里展示的还只是极小一部分。每个 Transformer 模块中的 Key / Value / Query,就是数据库中用于检索数据、返回结果、携带数值的组合,它们层层堆叠。作为关键技术,Attention(注意力)机制模拟的是我们人类思考事物时至关重要的语境。
对话时,我们不会只根据当下听到的单词做判断,还会考虑"刚才在聊什么话题""之前说了什么词",在把握语境的过程中进行交流。因此,即使信息不完整也能做出预测。如何将这些能力通过数据库和算法实现,正是这项技术的一个出发点。
而且这些结构中有大量的——所谓 Multi-head(多头)机制——如何有效发现语境,这是技术中极为重要的一环,而且这些结构层层叠叠。这是 GPT-2,一项有些年代的技术了。如今的大语言模型技术正是在此基础上进步、发展的。至少以几年前的技术为例,就有这么多层,而且每一层都可以附加各种参数。
久保田用 Temperature(温度)来说明参数如何影响输出。这个 Temperature 值控制分布的宽窄:
另外还有 Top-p / Top-k 采样:从 Top 采样中选多少个,是 probabilistic(概率式)选择还是固定数量选择,这些方式都会影响结果。
久保田提到,最近有人在做所谓 Architecture Gallery(架构画廊),调查有多少种架构。那个网站上每一个都是一个模型的架构结构,真可谓百货琳琅、数不胜数。
他的结论是:生成式AI不是某一种已经确立的技术,而是众多研究者、甚至包括一些初创企业,都在相互切磋中进行着各种开发。毋庸置疑,这是一个极其活跃的领域。
仔细看这些的话,细节上是没完没了的。层数极多、处理复杂。从信息设计的角度来看,这也是一股非常优美的信息流。而且这些架构因模型而异,各种尝试都有,有的成功,有的失败。探索下去真的是永无止境,但首先我们要认清这就是这项技术的本质。
讲完 LLM 内部机制后,久保田把视角拉远,看当前生成式AI整体技术格局。他提出两条并行主线:架构多样化和效率化。
久保田把当前生成式AI的多样化比作 寒武纪爆发。寒武纪爆发说的是生物进化史上,大约 5 亿年前,在伯吉斯页岩发现化石而闻名的时期。生物花了 40 亿、50 亿年进化而来,但绝非平坦匀速,而是时有爆发性变化。对地球现有生物而言,寒武纪爆发时诞生了各种身体结构——也就是架构——脚的结构、身体的结构都是在那时成形的。
正如有人所说,生成式AI元年、GPT 架构确立之后,真的是日新月异地在进化,现在可能正属于这样一个时期。普遍而言,在设计、创造事物时,设计空间一旦超过临界点,算法就会突然多样化,这在很多领域都会发生,现在恐怕正处于这样的时期。
复杂的 Transformer 计算成本极高。有研究说,现在在线查询生成式AI消耗多少电力,相比过去的搜索,现在生成式AI的能耗是 10 倍或更多。日积月累,这就引发了数据中心问题、电力供应问题、资源问题、散热问题,各方面都在讨论。
因此,不能只是提升性能,还必须提高能源效率。这带来一场范式转移:
为了提升精度,大家拼命计算、增加基础学习的数据量、或者增加可调参数。这种"大力出奇迹"的 Scaling Law 思路,基本上是"快者得天下"。
越来越多的人开始致力于优化计算和内存效率、减少计算量——也就是让生成变得更轻松、更节能。
1. Local LLM(本地大语言模型)
现在生成式AI基本依赖联网和中央服务器。但比如智能手机就是个很好的例子:断网时能不能用?能不能不依赖中央大型服务器,而是在终端设备上运行?所以为了提高效率、减少负载,与其做一个大家伙让大家访问,不如分布式各跑各的。这虽然不限于生成式AI,但这类趋势确实正在发生。
2. Bonsai(盆栽)LLM 与量化
不久前有一个叫 Bonsai(盆栽)的 LLM 引起关注。刚才说增加参数,那增加参数的同时,能不能减少每个参数所用的信息量?要提高精度就要提高位数,这就需要大量比特来表示。但逐渐削减后,发现性能其实下降不多。把它推到极致会怎样?
1-bit LLM 就是只用 1 或 -1,仅用 1 比特信息的参数来学习,结果性能相当不错——当然其中包含大量巧思和改进。
3. 1.58-bit LLM 与智能密度
1.58-bit LLM 是因为信息量用对数表示,log₂1 = 1,再加一个值变成 1、0、-1 三种值,就是 1.58-bit LLM,性能还会进一步提升。这是最近的热门话题。
这里讨论的是一个叫 "智能密度"的参数。正如刚才所说,提高效率不能只看能不能做厉害的事,而是如何在紧凑的体积中塞入更多智能能力。有了 1-bit LLM 这样的技术,智能密度就会大幅提升,而且计算量也少。这样一来,比如没有网络连接的智能手机也能运行。