詞彙量與規模定律：點解越大嘅模型需要越大嘅詞彙量

1. 引言

傳統上，大型語言模型（LLMs）嘅規模定律主要集中喺模型參數同訓練數據大小，好大程度上忽略咗詞彙量呢個關鍵嘅規模維度。本文研究詞彙量對LLM表現嘅影響，並提出方法去決定喺特定訓練預算下運算最優嘅詞彙量。

研究顯示，目前嘅LLMs（例如Llama2-70B）使用嘅詞彙量並非最優（32K對比預測最優值216K），凸顯出現行做法中存在顯著嘅效率差距。

模型範圍

33M - 3B

已訓練參數

訓練數據

500B

已處理字符

詞彙量差距

7倍

Llama2-70B低估程度

2. 研究方法

2.1 標準化損失公式

為咗確保唔同詞彙量嘅模型之間有公平嘅比較，作者引入咗一個標準化損失函數，用嚟考慮分詞效率嘅差異。呢個標準化可以防止詞彙量較大嘅模型喺損失指標上獲得人為優勢。

2.2 三種預測方法

本文提出三種互補嘅方法嚟預測最優詞彙量：

2.2.1 等運算量分析

用相同運算預算但唔同詞彙量嚟訓練模型，以識別每個預算水平下嘅最小損失點。

2.2.2 導數估算

使用基於梯度嘅方法，搵出損失函數對詞彙量嘅導數等於零嘅位置，呢啲就係最優點。

2.2.3 參數擬合

擬合模型參數、詞彙量同損失之間嘅冪律關係，從而推導出預測公式。

3. 實驗結果

3.1 模型訓練設定

參數範圍由33M到3B嘅模型，用多達500B字符同唔同詞彙配置進行訓練。訓練涵蓋咗唔同嘅FLOPs預算，以建立全面嘅規模關係。

3.2 最優詞彙量發現

研究揭示咗一個冪律關係：$N_v^{opt} \propto N_{nv}^\gamma$，其中$\gamma < 1$，表示最優詞彙參數嘅增長速度應該慢過非詞彙參數。呢個發現同跨模型規模使用固定詞彙量嘅常見做法相矛盾。

圖1：詞彙量規模關係

可視化結果顯示實證結果與理論預測一致，較大嘅圓圈表示較高嘅損失值。圖表清晰顯示咗唔同模型規模下嘅最優詞彙量，形成一條明顯嘅冪律曲線。

3.3 下游任務表現驗證

用3B參數模型進行嘅實證驗證顯示，使用預測嘅最優詞彙量時表現有持續改善。喺ARC-Challenge任務上，將詞彙量由32K增加到43K，喺相同2.3e21 FLOPs預算下，表現由29.1提升到32.0。

關鍵洞見

詞彙量顯著影響LLM嘅規模效率
最優詞彙量隨運算預算同模型大小而變化
目前嘅LLMs普遍使用非最優嘅詞彙量
必須同時考慮分詞同模型規模

4. 技術分析與框架

4.1 數學公式

發現嘅核心數學關係表達如下：

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

其中$L$係標準化損失，$N_{nv}$係非詞彙參數，$N_v$係詞彙參數，$D$係訓練數據大小，而$E, A, B, C, \alpha, \beta, \gamma$係擬合常數。

最優詞彙量滿足：$\frac{\partial L}{\partial N_v} = 0$

4.2 分析框架示例

案例分析：為一個100億參數模型決定最優詞彙量

已知：訓練預算 = 1e23 FLOPs，目標領域 = 通用語言理解

框架應用：

估算非詞彙參數：$N_{nv} = 9.5\text{B}$（佔總數95%）
應用冪律：$N_v^{opt} \propto N_{nv}^{0.7}$（根據實證擬合）
計算：$N_v^{opt} \approx 150\text{K}$個詞元
用等運算量分析針對指定預算進行驗證
根據特定領域嘅詞元分佈進行調整

呢個框架提供咗一個系統性嘅詞彙量決定方法，係目前模型開發者經常忽略嘅。

5. 行業分析師觀點

5.1 核心洞見

行業一直喺根本上誤導咗，將詞彙量當成一個靜態嘅超參數。本文揭示咗一個關鍵盲點：我哋一直係綁住一隻手嚟優化LLMs。Llama2-70B嘅詞彙量應該大7倍呢個發現，唔單止係學術上嘅好奇——佢代表咗整個AI生態系統中數以十億計嘅運算資源浪費同次優模型表現。呢個疏忽令人諗起早期神經網絡研究低估咗激活函數重要性嘅情況，正如Glorot同Bengio（2010）關於理解深度前饋神經網絡訓練難度嘅開創性工作中所記載嘅。

5.2 邏輯流程

本文嘅論證推進如手術般精準：首先，佢哋確立詞彙量係重要嘅（與主流規模定律假設相反）。其次，佢哋通過冪律證明咗佢係系統性地重要。第三，佢哋提供咗實用嘅優化工具。呢個邏輯鏈係無懈可擊嘅——從問題識別，到方法創新，再到實證驗證。嚴謹嘅研究就應該咁樣進行，唔似得而家淨係發表冇根本洞見嘅增量改進嘅趨勢。

5.3 優點與不足

優點： 三重方法論（等運算量、導數、參數擬合）提供咗強健嘅驗證。實驗規模（33M到3B參數）令人印象深刻且具說服力。實際影響對任何訓練LLMs嘅機構都係即刻可行嘅。

不足： 研究主要集中喺英文文本——多語言嘅影響仍有待探索。佢哋方法論嘅運算成本對較小型研究團隊可能過高。佢哋冇探討詞彙優化點樣同其他架構選擇（例如注意力機制）相互作用，呢個領域係Transformer架構論文（Vaswani等人，2017）建立咗至今仍主導領域嘅基礎原則。

5.4 可行建議

每個訓練LLMs嘅AI實驗室都應該即刻：1）重新評估佢哋嘅詞彙量決定策略，2）為當前項目實施等運算量分析，3）將詞彙量視為同參數同數據並列嘅首要規模維度。對於好似NVIDIA同AMD咁樣嘅硬件公司，呢項研究暗示咗為更大嘅嵌入表進行記憶體架構優化嘅新機會。Llama2-70B嘅7倍詞彙量差距意味住，目前嘅硬件從根本上同最優模型配置唔匹配。

6. 未來應用與方向

即時應用：

為下一代LLMs（GPT-5、Gemini 2.0等）重新設計詞彙策略
為更大嵌入表進行硬件優化
改善模型服務同推理效率

研究方向：

跨唔同語言嘅多語言詞彙優化
訓練期間嘅動態詞彙量調整
與專家混合架構嘅整合
針對特定領域模型嘅詞彙優化
為多模態模型考慮跨模態詞彙

呢項工作中建立嘅原則，可以擴展到語言模型以外，應用於生物信息學、代碼生成同時間序列分析中嘅其他序列模型，就好似電腦視覺中嘅卷積神經網絡原則（如Krizhevsky等人於2012年發表嘅AlexNet論文）轉移到其他領域一樣。

7. 參考文獻

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.