詞彙量與規模定律：為何更大的模型需要更大的詞彙表

1. 引言

大型語言模型的規模定律傳統上聚焦於模型參數和訓練資料量，很大程度上忽略了詞彙量作為一個關鍵的規模維度。本文研究了詞彙量對LLM效能的影響，並提出了針對給定訓練預算確定計算最優詞彙量的方法。

研究顯示，當前如Llama2-70B等LLM使用了次優的詞彙量（32K對比預測最優值216K），凸顯了當前實踐中存在顯著的效率差距。

模型範圍

33M - 3B

已訓練參數

訓練資料

500B

已處理字元數

詞彙量差距

7倍

Llama2-70B的低估程度

2. 方法論

2.1 標準化損失公式

為了確保在不同詞彙量的模型之間進行公平比較，作者引入了一個標準化損失函數，該函數考慮了分詞效率的差異。這種標準化防止了詞彙量較大的模型在損失指標上獲得人為優勢。

2.2 三種預測方法

本文提出了三種互補的方法來預測最優詞彙量：

2.2.1 等計算量分析

使用相同的計算預算但不同的詞彙量訓練模型，以識別每個預算級別下的最小損失點。

2.2.2 導數估計法

使用基於梯度的方法來尋找損失函數對詞彙量的導數等於零的位置，這表示最優點。

2.2.3 參數擬合法

擬合模型參數、詞彙量和損失之間的冪律關係，以推導出預測公式。

3. 實驗結果

3.1 模型訓練設定

參數量從33M到3B的模型在最多5000億字元的資料上進行訓練，並採用多種詞彙配置。訓練涵蓋了不同的浮點運算預算，以建立全面的規模關係。

3.2 最優詞彙量發現

研究揭示了一個冪律關係：$N_v^{opt} \propto N_{nv}^\gamma$，其中 $\gamma < 1$，這表明最優詞彙參數的增長速度應慢於非詞彙參數。這與在不同模型規模上使用固定詞彙量的常見做法相矛盾。

圖1：詞彙量規模關係

視覺化結果顯示實證結果與理論預測相符，較大的圓圈表示較高的損失值。該圖表清晰地展示了不同模型規模下的最優詞彙量，形成了一條明顯的冪律曲線。

3.3 下游任務效能驗證

使用30億參數模型進行的實證驗證顯示，當使用預測的最優詞彙量時，效能得到了一致的提升。在ARC-Challenge任務上，在相同的2.3e21浮點運算預算下，將詞彙量從32K增加到43K，效能從29.1提升到32.0。

關鍵洞見

詞彙量顯著影響LLM的規模效率
最優詞彙量隨計算預算和模型規模而變化
當前的LLM普遍使用次優的詞彙量
必須同時考慮分詞和模型規模

4. 技術分析與框架

4.1 數學公式

發現的核心數學關係表示為：

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

其中 $L$ 是標準化損失，$N_{nv}$ 是非詞彙參數，$N_v$ 是詞彙參數，$D$ 是訓練資料量，而 $E, A, B, C, \alpha, \beta, \gamma$ 是擬合常數。

最優詞彙量滿足：$\frac{\partial L}{\partial N_v} = 0$

4.2 分析框架範例

案例研究：為一個100億參數模型確定最優詞彙量

已知：訓練預算 = 1e23 浮點運算，目標領域 = 通用語言理解

框架應用：

估計非詞彙參數：$N_{nv} = 9.5\text{B}$ (佔總數的95%)
應用冪律：$N_v^{opt} \propto N_{nv}^{0.7}$ (來自實證擬合)
計算：$N_v^{opt} \approx 150\text{K}$ 個詞元
針對給定預算使用等計算量分析進行驗證
根據特定領域的詞元分佈進行調整

此框架提供了一種系統化的詞彙量確定方法，這是當前模型開發者經常忽略的。

5. 產業分析師觀點

5.1 核心洞見

產業界一直存在根本性的誤導，將詞彙量視為靜態的超參數。本文揭露了一個關鍵盲點：我們一直是在綁著一隻手的情況下優化LLM。Llama2-70B的詞彙量應增加7倍的發現不僅僅是學術上的好奇——它代表了整個AI生態系統中數十億美元的計算資源浪費和次優的模型效能。這種疏忽讓人想起早期神經網路研究低估了激活函數的重要性，正如Glorot和Bengio（2010）關於理解訓練深度前饋神經網路困難的開創性工作中所記載的那樣。

5.2 邏輯脈絡

本文的論證過程如外科手術般精確：首先，他們確立了詞彙量很重要（與主流的規模定律假設相反）。其次，他們透過冪律證明其重要性是系統性的。第三，他們提供了實用的優化工具。邏輯鏈條嚴密無縫——從問題識別到方法創新，再到實證驗證。這就是嚴謹的研究應有的方式，不同於那種只發表增量改進而缺乏根本洞見的趨勢。

5.3 優點與缺陷

優點： 三重方法論（等計算量分析、導數法、參數擬合）提供了穩健的驗證。實驗規模（33M到3B參數）令人印象深刻且具有說服力。其實際影響對於任何訓練LLM的組織來說都是立即可行的。

缺陷： 研究主要聚焦於英文文本——多語言的影響仍有待探索。其方法論的計算成本對於較小的研究團隊來說可能過於高昂。他們沒有探討詞彙優化如何與注意力機制等其他架構選擇相互作用，而Transformer架構論文（Vaswani等人，2017）在該領域建立了至今仍佔主導地位的基本原則。

5.4 可行建議

每個訓練LLM的AI實驗室都應立即：1) 重新評估其詞彙量設定策略，2) 為當前專案實施等計算量分析，3) 將詞彙量視為與參數和資料同等重要的首要規模維度。對於像NVIDIA和AMD這樣的硬體公司，這項研究暗示了針對更大嵌入表的記憶體架構存在新的優化機會。Llama2-70B存在7倍的詞彙量差距，這意味著當前的硬體從根本上與最優模型配置不匹配。

6. 未來應用與方向

立即應用：

為下一代LLM（如GPT-5、Gemini 2.0等）重新設計詞彙策略
針對更大嵌入表的硬體優化
改進模型服務和推論的效率

研究方向：

跨多種語言的多語言詞彙優化
訓練期間的動態詞彙量調整
與專家混合架構的整合
針對特定領域模型的詞彙優化
多模態模型的跨模態詞彙考量

這項工作中建立的原則可以擴展到語言模型之外，應用於生物資訊學、程式碼生成和時間序列分析中的其他序列模型，類似於電腦視覺中的卷積神經網路原理（如Krizhevsky等人於2012年發表的AlexNet論文）如何遷移到其他領域。

7. 參考文獻

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.