久保田演示了这个过程：输入 "Artificial Intelligence is Transforming the..."，网站会显示接下来可能出现的一系列候选词。如果继续点击 Generate，当 "World" 作为候选出现时，再点 Generate 就会继续预测下一个字符，比如接下来会出现 "OVE" 等等。看上面的小字，可以看到接下来会出现"商业"之类的词。

这个网站的功能就是介绍生成式AI内部实际上在做什么。如大家所见，它在做相当复杂的事情。

"说到底只是预测"——对，但太轻率了

久保田说，我们常说生成式AI"说到底只是在做预测"，这话对也算对，但之所以现在这么多人投身于这项技术，正是因为其中凝聚了大量以往的研究与实践成果，才得以诞生出性能如此强大的软件。至少从技术角度来看，这是巨大的成果与进步，我们必须承认这一点。这是他要说的第一个出发点。

轻视预测，就是轻视几十年的工程积累。

具体来说，Transformer Explorer 里展示的还只是极小一部分。每个 Transformer 模块中的 Key / Value / Query，就是数据库中用于检索数据、返回结果、携带数值的组合，它们层层堆叠。作为关键技术，Attention（注意力）机制模拟的是我们人类思考事物时至关重要的语境。

对话时，我们不会只根据当下听到的单词做判断，还会考虑"刚才在聊什么话题""之前说了什么词"，在把握语境的过程中进行交流。因此，即使信息不完整也能做出预测。如何将这些能力通过数据库和算法实现，正是这项技术的一个出发点。

而且这些结构中有大量的——所谓 Multi-head（多头）机制——如何有效发现语境，这是技术中极为重要的一环，而且这些结构层层叠叠。这是 GPT-2，一项有些年代的技术了。如今的大语言模型技术正是在此基础上进步、发展的。至少以几年前的技术为例，就有这么多层，而且每一层都可以附加各种参数。

一句话记住：今天的 LLM 是"海量参数 + 工程调优"的产物，它的预测能力建立在复杂结构之上，不是简单的查表或接龙。

图 1：简化版 Transformer 流程。文本先进入多层 Transformer Block，每层通过 Attention 把握上下文，最后输出下一个词的概率分布。

Temperature 与采样：控制"随机性"的参数

久保田用 Temperature（温度）来说明参数如何影响输出。这个 Temperature 值控制分布的宽窄：

温度低：将概率分布的峰值拉高，模型倾向于选概率最高的词，输出更固定、更"格式化"、更保守。
温度高：将概率分布的山峰变得平缓，候选范围变广，输出更有意外性。但过头了就会产生 Hallucination（幻觉），也就是幻听或错误答案。

另外还有 Top-p / Top-k 采样：从 Top 采样中选多少个，是 probabilistic（概率式）选择还是固定数量选择，这些方式都会影响结果。

关键点：LLM 的输出不是单一确定的，而是一组可被调节的概率行为。调参本身就是"让工具更易用、更有帮助"的过程。这不是简单地说"这样就能预测"，而是有海量参数，通过调整它们来让工具更易用、更有帮助——这才是当今技术的背景。

图 2：Temperature 如何改变概率分布。低温让输出稳定但可能呆板；高温让输出多样但容易"hallucinate"。

架构的多样性：不是单一技术

久保田提到，最近有人在做所谓 Architecture Gallery（架构画廊），调查有多少种架构。那个网站上每一个都是一个模型的架构结构，真可谓百货琳琅、数不胜数。

视频画面：Architecture Gallery 网站截图，展示各种模型架构结构图

他的结论是：生成式AI不是某一种已经确立的技术，而是众多研究者、甚至包括一些初创企业，都在相互切磋中进行着各种开发。毋庸置疑，这是一个极其活跃的领域。

仔细看这些的话，细节上是没完没了的。层数极多、处理复杂。从信息设计的角度来看，这也是一股非常优美的信息流。而且这些架构因模型而异，各种尝试都有，有的成功，有的失败。探索下去真的是永无止境，但首先我们要认清这就是这项技术的本质。

二、生成式AI的技术现状：寒武纪爆发与效率化

讲完 LLM 内部机制后，久保田把视角拉远，看当前生成式AI整体技术格局。他提出两条并行主线：架构多样化和效率化。

主线 A："寒武纪爆发"式的架构多样化

久保田把当前生成式AI的多样化比作寒武纪爆发。寒武纪爆发说的是生物进化史上，大约 5 亿年前，在伯吉斯页岩发现化石而闻名的时期。生物花了 40 亿、50 亿年进化而来，但绝非平坦匀速，而是时有爆发性变化。对地球现有生物而言，寒武纪爆发时诞生了各种身体结构——也就是架构——脚的结构、身体的结构都是在那时成形的。

正如有人所说，生成式AI元年、GPT 架构确立之后，真的是日新月异地在进化，现在可能正属于这样一个时期。普遍而言，在设计、创造事物时，设计空间一旦超过临界点，算法就会突然多样化，这在很多领域都会发生，现在恐怕正处于这样的时期。

核心判断：Transformer 这种有效的预测机制已经诞生，并且如今已被打磨到极高水平，处于不断微调、精炼的状态。

主线 B：从"大力出奇迹"到"效率优先"

复杂的 Transformer 计算成本极高。有研究说，现在在线查询生成式AI消耗多少电力，相比过去的搜索，现在生成式AI的能耗是 10 倍或更多。日积月累，这就引发了数据中心问题、电力供应问题、资源问题、散热问题，各方面都在讨论。

因此，不能只是提升性能，还必须提高能源效率。这带来一场范式转移：

过去：Scaling Law

为了提升精度，大家拼命计算、增加基础学习的数据量、或者增加可调参数。这种"大力出奇迹"的 Scaling Law 思路，基本上是"快者得天下"。

现在：效率优化

越来越多的人开始致力于优化计算和内存效率、减少计算量——也就是让生成变得更轻松、更节能。

效率化的三个具体方向

1. Local LLM（本地大语言模型）

现在生成式AI基本依赖联网和中央服务器。但比如智能手机就是个很好的例子：断网时能不能用？能不能不依赖中央大型服务器，而是在终端设备上运行？所以为了提高效率、减少负载，与其做一个大家伙让大家访问，不如分布式各跑各的。这虽然不限于生成式AI，但这类趋势确实正在发生。

2. Bonsai（盆栽）LLM 与量化

不久前有一个叫 Bonsai（盆栽）的 LLM 引起关注。刚才说增加参数，那增加参数的同时，能不能减少每个参数所用的信息量？要提高精度就要提高位数，这就需要大量比特来表示。但逐渐削减后，发现性能其实下降不多。把它推到极致会怎样？

1-bit LLM 就是只用 1 或 -1，仅用 1 比特信息的参数来学习，结果性能相当不错——当然其中包含大量巧思和改进。

视频画面：Bonsai（盆栽）LLM 或 1-bit LLM 相关的论文/架构示意图

3. 1.58-bit LLM 与智能密度

1.58-bit LLM 是因为信息量用对数表示，log₂1 = 1，再加一个值变成 1、0、-1 三种值，就是 1.58-bit LLM，性能还会进一步提升。这是最近的热门话题。

这里讨论的是一个叫 "智能密度"的参数。正如刚才所说，提高效率不能只看能不能做厉害的事，而是如何在紧凑的体积中塞入更多智能能力。有了 1-bit LLM 这样的技术，智能密度就会大幅提升，而且计算量也少。这样一来，比如没有网络连接的智能手机也能运行。

核心判断：1-bit / 1.58-bit 这样的技术能大幅提升"智能密度"，同时计算量更少。未来可能让离线智能手机也能跑生成式AI——这是技术范式正在转移的证据。

图 3：生成式AI技术路线的范式转移。从单纯堆规模（Scaling Law）转向在保持性能的同时压缩计算成本。

本块总结：久保田先立住了"现在"这个起点。LLM 的内部是复杂的多层预测机器；而从外部看，整个行业正同时经历"架构寒武纪爆发"和"效率化范式转移"。不理解这两点，后面关于文化、历史、美学的讨论都缺少技术锚点。