词汇表规模与扩展定律：为何更大的模型需要更大的词汇表

1. 引言

传统上，大语言模型的扩展定律主要关注模型参数量和训练数据规模，很大程度上忽略了词汇表规模这一关键的扩展维度。本文研究了词汇表规模对LLM性能的影响，并提出了在给定训练预算下确定计算最优词汇表规模的方法。

研究表明，当前像Llama2-70B这样的LLM使用了次优的词汇表规模（32K vs 预测最优值216K），突显了当前实践中存在显著的效率差距。

模型范围

3300万 - 30亿

已训练参数量

训练数据

5000亿

已处理字符数

词汇表差距

7倍

Llama2-70B的低估程度

2. 方法论

2.1 归一化损失公式

为确保在不同词汇表规模的模型之间进行公平比较，作者引入了一个归一化损失函数，该函数考虑了分词效率的差异。这种归一化处理防止了词汇表较大的模型在损失指标上获得人为优势。

2.2 三种预测方法

本文提出了三种互补的方法来预测最优词汇表规模：

2.2.1 等计算量分析

使用相同的计算预算但不同的词汇表规模训练模型，以找出每个预算水平下的最小损失点。

2.2.2 导数估计法

使用基于梯度的方法，寻找损失函数关于词汇表规模的导数等于零的点，该点即为最优点。

2.2.3 参数拟合

拟合模型参数、词汇表规模与损失之间的幂律关系，以推导预测公式。

3. 实验结果

3.1 模型训练设置

参数量从3300万到30亿不等的模型在多达5000亿字符的数据上，使用不同的词汇表配置进行了训练。训练覆盖了不同的浮点运算预算，以建立全面的扩展关系。

3.2 最优词汇表规模发现

研究揭示了一个幂律关系：$N_v^{opt} \propto N_{nv}^\gamma$，其中 $\gamma < 1$，这表明最优词汇表参数的增长速度应慢于非词汇表参数。这与在不同规模模型中使用固定词汇表规模的常见做法相矛盾。

图1：词汇表规模扩展关系

可视化结果显示了与理论预测一致的实证结果，圆圈越大表示损失值越高。该图清晰地展示了不同模型规模下的最优词汇表规模，形成了一条明显的幂律曲线。

3.3 下游任务性能验证

使用30亿参数模型进行的实证验证表明，当使用预测的最优词汇表规模时，性能得到了一致的提升。在ARC-Challenge任务上，在相同的2.3e21浮点运算预算下，将词汇表规模从32K增加到43K，性能从29.1提升到了32.0。

核心见解

词汇表规模显著影响LLM的扩展效率
最优词汇表规模随计算预算和模型规模而变化
当前的LLM普遍使用次优的词汇表规模
必须联合考虑分词和模型扩展

4. 技术分析与框架

4.1 数学公式

发现的核心数学关系表达如下：

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

其中 $L$ 是归一化损失，$N_{nv}$ 是非词汇表参数，$N_v$ 是词汇表参数，$D$ 是训练数据规模，而 $E, A, B, C, \alpha, \beta, \gamma$ 是拟合常数。

最优词汇表规模满足：$\frac{\partial L}{\partial N_v} = 0$

4.2 分析框架示例

案例研究：确定一个100亿参数模型的最优词汇表规模

已知：训练预算 = 1e23 浮点运算，目标领域 = 通用语言理解

框架应用：

估计非词汇表参数：$N_{nv} = 95\text{亿}$ (占总量的95%)
应用幂律：$N_v^{opt} \propto N_{nv}^{0.7}$ (来自经验拟合)
计算：$N_v^{opt} \approx 15\text{万}$ 个词元
使用等计算量分析在给定预算下进行验证
根据特定领域的词元分布进行调整

该框架提供了一种系统化的词汇表规模确定方法，这是当前模型开发者常常忽视的。

5. 行业分析师视角

5.1 核心洞察

行业一直存在一个根本性的误区，即将词汇表规模视为一个静态的超参数。本文揭示了一个关键的盲点：我们一直是在“绑着一只手”的情况下优化LLM。Llama2-70B的词汇表规模应扩大7倍的发现，不仅仅是一个学术上的奇闻——它代表了整个AI生态系统中数十亿美元的计算资源浪费和模型性能的次优化。这种疏忽让人想起早期神经网络研究低估了激活函数的重要性，正如Glorot和Bengio（2010）关于理解训练深度前馈神经网络难度的开创性工作中所记载的那样。

5.2 逻辑脉络

本文的论证过程如外科手术般精确：首先，他们确立了词汇表规模的重要性（这与主流的扩展定律假设相反）。其次，他们通过幂律证明了其重要性是系统性的。第三，他们提供了实用的优化工具。这条逻辑链是无懈可击的——从问题识别，到方法创新，再到实证验证。这正是严谨的研究应有的方式，不同于那些只发表缺乏根本性见解的渐进式改进的趋势。

5.3 优势与不足

优势： 三重方法论（等计算量分析、导数法、参数拟合）提供了稳健的验证。实验规模（3300万到30亿参数）令人印象深刻且具有说服力。其实际影响对于任何训练LLM的组织来说都是立即可操作的。

不足： 该研究主要关注英文文本——多语言的影响仍有待探索。其方法论的计算成本对于小型研究团队来说可能过高。他们没有探讨词汇表优化如何与其他架构选择（如注意力机制）相互作用，而Transformer架构论文（Vaswani等人，2017）在该领域建立了至今仍占主导地位的基础原则。

5.4 可操作的见解

每个训练LLM的AI实验室都应立即：1）重新评估其词汇表规模策略，2）为当前项目实施等计算量分析，3）将词汇表规模视为与参数量和数据同等重要的一级扩展维度。对于像英伟达和AMD这样的硬件公司，这项研究暗示了在内存架构方面针对更大嵌入表的新优化机会。Llama2-70B存在的7倍词汇表差距意味着，当前的硬件与最优模型配置从根本上是不匹配的。

6. 未来应用与方向

近期应用：

为下一代LLM（如GPT-5、Gemini 2.0等）重新设计词汇表策略
针对更大嵌入表的硬件优化
改进模型服务和推理的效率

研究方向：

跨多种语言的多语言词汇表优化
训练期间的动态词汇表规模调整
与专家混合架构的集成
领域特定模型的词汇表优化
多模态模型的跨模态词汇表考量

本工作建立的原则可以扩展到语言模型之外，应用于生物信息学、代码生成和时间序列分析中的其他序列模型，类似于计算机视觉中的卷积神经网络原理（如Krizhevsky等人2012年的AlexNet论文）迁移到其他领域的方式。

7. 参考文献

Kaplan, J., 等. (2020). 神经语言模型的扩展定律.
Brown, T., 等. (2020). 语言模型是小样本学习者.
Touvron, H., 等. (2023). Llama 2：开放基础与微调聊天模型.
Vaswani, A., 等. (2017). 注意力机制就是全部.
Glorot, X., & Bengio, Y. (2010). 理解训练深度前馈神经网络的困难.
Krizhevsky, A., 等. (2012). 使用深度卷积神经网络进行ImageNet分类.
Team, G., 等. (2024). Gemma：基于Gemini研究与技术的开放模型.
Hoffmann, J., 等. (2022). 训练计算最优的大语言模型.