1. 引言

大型語言模型的規模定律傳統上聚焦於模型參數和訓練資料量,很大程度上忽略了詞彙量作為一個關鍵的規模維度。本文研究了詞彙量對LLM效能的影響,並提出了針對給定訓練預算確定計算最優詞彙量的方法。

研究顯示,當前如Llama2-70B等LLM使用了次優的詞彙量(32K對比預測最優值216K),凸顯了當前實踐中存在顯著的效率差距。

模型範圍

33M - 3B

已訓練參數

訓練資料

500B

已處理字元數

詞彙量差距

7倍

Llama2-70B的低估程度

2. 方法論

2.1 標準化損失公式

為了確保在不同詞彙量的模型之間進行公平比較,作者引入了一個標準化損失函數,該函數考慮了分詞效率的差異。這種標準化防止了詞彙量較大的模型在損失指標上獲得人為優勢。

2.2 三種預測方法

本文提出了三種互補的方法來預測最優詞彙量:

2.2.1 等計算量分析

使用相同的計算預算但不同的詞彙量訓練模型,以識別每個預算級別下的最小損失點。

2.2.2 導數估計法

使用基於梯度的方法來尋找損失函數對詞彙量的導數等於零的位置,這表示最優點。

2.2.3 參數擬合法

擬合模型參數、詞彙量和損失之間的冪律關係,以推導出預測公式。

3. 實驗結果

3.1 模型訓練設定

參數量從33M到3B的模型在最多5000億字元的資料上進行訓練,並採用多種詞彙配置。訓練涵蓋了不同的浮點運算預算,以建立全面的規模關係。

3.2 最優詞彙量發現

研究揭示了一個冪律關係:$N_v^{opt} \propto N_{nv}^\gamma$,其中 $\gamma < 1$,這表明最優詞彙參數的增長速度應慢於非詞彙參數。這與在不同模型規模上使用固定詞彙量的常見做法相矛盾。

圖1:詞彙量規模關係

視覺化結果顯示實證結果與理論預測相符,較大的圓圈表示較高的損失值。該圖表清晰地展示了不同模型規模下的最優詞彙量,形成了一條明顯的冪律曲線。

3.3 下游任務效能驗證

使用30億參數模型進行的實證驗證顯示,當使用預測的最優詞彙量時,效能得到了一致的提升。在ARC-Challenge任務上,在相同的2.3e21浮點運算預算下,將詞彙量從32K增加到43K,效能從29.1提升到32.0。

關鍵洞見

  • 詞彙量顯著影響LLM的規模效率
  • 最優詞彙量隨計算預算和模型規模而變化
  • 當前的LLM普遍使用次優的詞彙量
  • 必須同時考慮分詞和模型規模

4. 技術分析與框架

4.1 數學公式

發現的核心數學關係表示為:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

其中 $L$ 是標準化損失,$N_{nv}$ 是非詞彙參數,$N_v$ 是詞彙參數,$D$ 是訓練資料量,而 $E, A, B, C, \alpha, \beta, \gamma$ 是擬合常數。

最優詞彙量滿足:$\frac{\partial L}{\partial N_v} = 0$

4.2 分析框架範例

案例研究:為一個100億參數模型確定最優詞彙量

已知:訓練預算 = 1e23 浮點運算,目標領域 = 通用語言理解

框架應用:

  1. 估計非詞彙參數:$N_{nv} = 9.5\text{B}$ (佔總數的95%)
  2. 應用冪律:$N_v^{opt} \propto N_{nv}^{0.7}$ (來自實證擬合)
  3. 計算:$N_v^{opt} \approx 150\text{K}$ 個詞元
  4. 針對給定預算使用等計算量分析進行驗證
  5. 根據特定領域的詞元分佈進行調整

此框架提供了一種系統化的詞彙量確定方法,這是當前模型開發者經常忽略的。

5. 產業分析師觀點

5.1 核心洞見

產業界一直存在根本性的誤導,將詞彙量視為靜態的超參數。本文揭露了一個關鍵盲點:我們一直是在綁著一隻手的情況下優化LLM。Llama2-70B的詞彙量應增加7倍的發現不僅僅是學術上的好奇——它代表了整個AI生態系統中數十億美元的計算資源浪費和次優的模型效能。這種疏忽讓人想起早期神經網路研究低估了激活函數的重要性,正如Glorot和Bengio(2010)關於理解訓練深度前饋神經網路困難的開創性工作中所記載的那樣。

5.2 邏輯脈絡

本文的論證過程如外科手術般精確:首先,他們確立了詞彙量很重要(與主流的規模定律假設相反)。其次,他們透過冪律證明其重要性是系統性的。第三,他們提供了實用的優化工具。邏輯鏈條嚴密無縫——從問題識別到方法創新,再到實證驗證。這就是嚴謹的研究應有的方式,不同於那種只發表增量改進而缺乏根本洞見的趨勢。

5.3 優點與缺陷

優點: 三重方法論(等計算量分析、導數法、參數擬合)提供了穩健的驗證。實驗規模(33M到3B參數)令人印象深刻且具有說服力。其實際影響對於任何訓練LLM的組織來說都是立即可行的。

缺陷: 研究主要聚焦於英文文本——多語言的影響仍有待探索。其方法論的計算成本對於較小的研究團隊來說可能過於高昂。他們沒有探討詞彙優化如何與注意力機制等其他架構選擇相互作用,而Transformer架構論文(Vaswani等人,2017)在該領域建立了至今仍佔主導地位的基本原則。

5.4 可行建議

每個訓練LLM的AI實驗室都應立即:1) 重新評估其詞彙量設定策略,2) 為當前專案實施等計算量分析,3) 將詞彙量視為與參數和資料同等重要的首要規模維度。對於像NVIDIA和AMD這樣的硬體公司,這項研究暗示了針對更大嵌入表的記憶體架構存在新的優化機會。Llama2-70B存在7倍的詞彙量差距,這意味著當前的硬體從根本上與最優模型配置不匹配。

6. 未來應用與方向

立即應用:

  • 為下一代LLM(如GPT-5、Gemini 2.0等)重新設計詞彙策略
  • 針對更大嵌入表的硬體優化
  • 改進模型服務和推論的效率

研究方向:

  • 跨多種語言的多語言詞彙優化
  • 訓練期間的動態詞彙量調整
  • 與專家混合架構的整合
  • 針對特定領域模型的詞彙優化
  • 多模態模型的跨模態詞彙考量

這項工作中建立的原則可以擴展到語言模型之外,應用於生物資訊學、程式碼生成和時間序列分析中的其他序列模型,類似於電腦視覺中的卷積神經網路原理(如Krizhevsky等人於2012年發表的AlexNet論文)如何遷移到其他領域。

7. 參考文獻

  1. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
  2. Brown, T., et al. (2020). Language Models are Few-Shot Learners.
  3. Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
  4. Vaswani, A., et al. (2017). Attention Is All You Need.
  5. Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
  6. Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
  7. Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
  8. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.