1. 引言

傳統上,大型語言模型(LLMs)嘅規模定律主要集中喺模型參數同訓練數據大小,好大程度上忽略咗詞彙量呢個關鍵嘅規模維度。本文研究詞彙量對LLM表現嘅影響,並提出方法去決定喺特定訓練預算下運算最優嘅詞彙量。

研究顯示,目前嘅LLMs(例如Llama2-70B)使用嘅詞彙量並非最優(32K對比預測最優值216K),凸顯出現行做法中存在顯著嘅效率差距。

模型範圍

33M - 3B

已訓練參數

訓練數據

500B

已處理字符

詞彙量差距

7倍

Llama2-70B低估程度

2. 研究方法

2.1 標準化損失公式

為咗確保唔同詞彙量嘅模型之間有公平嘅比較,作者引入咗一個標準化損失函數,用嚟考慮分詞效率嘅差異。呢個標準化可以防止詞彙量較大嘅模型喺損失指標上獲得人為優勢。

2.2 三種預測方法

本文提出三種互補嘅方法嚟預測最優詞彙量:

2.2.1 等運算量分析

用相同運算預算但唔同詞彙量嚟訓練模型,以識別每個預算水平下嘅最小損失點。

2.2.2 導數估算

使用基於梯度嘅方法,搵出損失函數對詞彙量嘅導數等於零嘅位置,呢啲就係最優點。

2.2.3 參數擬合

擬合模型參數、詞彙量同損失之間嘅冪律關係,從而推導出預測公式。

3. 實驗結果

3.1 模型訓練設定

參數範圍由33M到3B嘅模型,用多達500B字符同唔同詞彙配置進行訓練。訓練涵蓋咗唔同嘅FLOPs預算,以建立全面嘅規模關係。

3.2 最優詞彙量發現

研究揭示咗一個冪律關係:$N_v^{opt} \propto N_{nv}^\gamma$,其中$\gamma < 1$,表示最優詞彙參數嘅增長速度應該慢過非詞彙參數。呢個發現同跨模型規模使用固定詞彙量嘅常見做法相矛盾。

圖1:詞彙量規模關係

可視化結果顯示實證結果與理論預測一致,較大嘅圓圈表示較高嘅損失值。圖表清晰顯示咗唔同模型規模下嘅最優詞彙量,形成一條明顯嘅冪律曲線。

3.3 下游任務表現驗證

用3B參數模型進行嘅實證驗證顯示,使用預測嘅最優詞彙量時表現有持續改善。喺ARC-Challenge任務上,將詞彙量由32K增加到43K,喺相同2.3e21 FLOPs預算下,表現由29.1提升到32.0。

關鍵洞見

  • 詞彙量顯著影響LLM嘅規模效率
  • 最優詞彙量隨運算預算同模型大小而變化
  • 目前嘅LLMs普遍使用非最優嘅詞彙量
  • 必須同時考慮分詞同模型規模

4. 技術分析與框架

4.1 數學公式

發現嘅核心數學關係表達如下:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

其中$L$係標準化損失,$N_{nv}$係非詞彙參數,$N_v$係詞彙參數,$D$係訓練數據大小,而$E, A, B, C, \alpha, \beta, \gamma$係擬合常數。

最優詞彙量滿足:$\frac{\partial L}{\partial N_v} = 0$

4.2 分析框架示例

案例分析:為一個100億參數模型決定最優詞彙量

已知:訓練預算 = 1e23 FLOPs,目標領域 = 通用語言理解

框架應用:

  1. 估算非詞彙參數:$N_{nv} = 9.5\text{B}$(佔總數95%)
  2. 應用冪律:$N_v^{opt} \propto N_{nv}^{0.7}$(根據實證擬合)
  3. 計算:$N_v^{opt} \approx 150\text{K}$個詞元
  4. 用等運算量分析針對指定預算進行驗證
  5. 根據特定領域嘅詞元分佈進行調整

呢個框架提供咗一個系統性嘅詞彙量決定方法,係目前模型開發者經常忽略嘅。

5. 行業分析師觀點

5.1 核心洞見

行業一直喺根本上誤導咗,將詞彙量當成一個靜態嘅超參數。本文揭示咗一個關鍵盲點:我哋一直係綁住一隻手嚟優化LLMs。Llama2-70B嘅詞彙量應該大7倍呢個發現,唔單止係學術上嘅好奇——佢代表咗整個AI生態系統中數以十億計嘅運算資源浪費同次優模型表現。呢個疏忽令人諗起早期神經網絡研究低估咗激活函數重要性嘅情況,正如Glorot同Bengio(2010)關於理解深度前饋神經網絡訓練難度嘅開創性工作中所記載嘅。

5.2 邏輯流程

本文嘅論證推進如手術般精準:首先,佢哋確立詞彙量係重要嘅(與主流規模定律假設相反)。其次,佢哋通過冪律證明咗佢係系統性地重要。第三,佢哋提供咗實用嘅優化工具。呢個邏輯鏈係無懈可擊嘅——從問題識別,到方法創新,再到實證驗證。嚴謹嘅研究就應該咁樣進行,唔似得而家淨係發表冇根本洞見嘅增量改進嘅趨勢。

5.3 優點與不足

優點: 三重方法論(等運算量、導數、參數擬合)提供咗強健嘅驗證。實驗規模(33M到3B參數)令人印象深刻且具說服力。實際影響對任何訓練LLMs嘅機構都係即刻可行嘅。

不足: 研究主要集中喺英文文本——多語言嘅影響仍有待探索。佢哋方法論嘅運算成本對較小型研究團隊可能過高。佢哋冇探討詞彙優化點樣同其他架構選擇(例如注意力機制)相互作用,呢個領域係Transformer架構論文(Vaswani等人,2017)建立咗至今仍主導領域嘅基礎原則。

5.4 可行建議

每個訓練LLMs嘅AI實驗室都應該即刻:1)重新評估佢哋嘅詞彙量決定策略,2)為當前項目實施等運算量分析,3)將詞彙量視為同參數同數據並列嘅首要規模維度。對於好似NVIDIA同AMD咁樣嘅硬件公司,呢項研究暗示咗為更大嘅嵌入表進行記憶體架構優化嘅新機會。Llama2-70B嘅7倍詞彙量差距意味住,目前嘅硬件從根本上同最優模型配置唔匹配。

6. 未來應用與方向

即時應用:

  • 為下一代LLMs(GPT-5、Gemini 2.0等)重新設計詞彙策略
  • 為更大嵌入表進行硬件優化
  • 改善模型服務同推理效率

研究方向:

  • 跨唔同語言嘅多語言詞彙優化
  • 訓練期間嘅動態詞彙量調整
  • 與專家混合架構嘅整合
  • 針對特定領域模型嘅詞彙優化
  • 為多模態模型考慮跨模態詞彙

呢項工作中建立嘅原則,可以擴展到語言模型以外,應用於生物信息學、代碼生成同時間序列分析中嘅其他序列模型,就好似電腦視覺中嘅卷積神經網絡原則(如Krizhevsky等人於2012年發表嘅AlexNet論文)轉移到其他領域一樣。

7. 參考文獻

  1. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
  2. Brown, T., et al. (2020). Language Models are Few-Shot Learners.
  3. Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
  4. Vaswani, A., et al. (2017). Attention Is All You Need.
  5. Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
  6. Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
  7. Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
  8. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.