語彙サイズとスケーリング則：なぜ大規模モデルには大規模語彙が必要なのか

1. はじめに

大規模言語モデル（LLM）のスケーリング則に関する従来の研究は、主にモデルパラメータ数と学習データサイズに焦点を当てており、重要なスケーリング次元としての語彙サイズをほとんど無視してきた。本論文は、語彙サイズがLLMの性能に与える影響を調査し、所与の学習予算に対して計算最適な語彙サイズを決定する方法を提案する。

本研究は、Llama2-70Bのような現在のLLMが最適ではない語彙サイズ（32Kトークン、予測される最適値は216Kトークン）を使用していることを示し、現在の実践における重大な効率性のギャップを浮き彫りにしている。

モデル範囲

33M - 3B

学習パラメータ数

学習データ

500B

処理文字数

語彙ギャップ

7倍

Llama2-70Bの過小評価

2. 方法論

2.1 正規化損失の定式化

異なる語彙サイズを持つモデル間で公平な比較を確保するため、著者らはトークン化効率の違いを考慮した正規化損失関数を導入する。この正規化により、語彙サイズが大きいモデルが損失指標において人為的な優位性を持つことを防ぐ。

2.2 3つの予測手法

本論文は、最適な語彙サイズを予測するための3つの補完的手法を提案する：

2.2.1 IsoFLOPs分析

同一の計算予算で異なる語彙サイズのモデルを学習させ、各予算レベルにおける最小損失点を特定する。

2.2.2 微分推定

勾配ベースの手法を用いて、語彙サイズに関する損失関数の微分がゼロとなる点（最適点）を見つける。

2.2.3 パラメトリックフィット

モデルパラメータ、語彙サイズ、損失の間にべき乗則関係を当てはめ、予測式を導出する。

3. 実験結果

3.1 モデル学習設定

33Mから3Bパラメータまでのモデルを、最大5000億文字のデータを用いて様々な語彙構成で学習させた。学習は異なるFLOPs予算にわたって行われ、包括的なスケーリング関係を確立した。

3.2 最適語彙サイズの発見

本研究は、べき乗則関係 $N_v^{opt} \propto N_{nv}^\gamma$ （$\gamma < 1$）を明らかにした。これは、最適な語彙パラメータは非語彙パラメータよりも遅い速度でスケールすべきであることを示しており、モデル規模に関わらず固定語彙サイズを使用する一般的な慣行と矛盾する。

図1: 語彙スケーリング関係

可視化は、理論的予測と一致する実証結果を示しており、大きな円は高い損失値を示す。プロットは、異なるモデル規模に対して明確な最適語彙サイズが存在し、明確なべき乗則曲線を形成していることを示している。

3.3 下流タスク性能検証

3Bパラメータモデルを用いた実証的検証では、予測された最適語彙サイズを使用した場合に一貫した改善が見られた。ARC-Challengeにおいて、語彙を32Kから43Kに増やすことで、同一の2.3e21 FLOPs予算で性能が29.1から32.0に向上した。

主要な洞察

語彙サイズはLLMのスケーリング効率に大きな影響を与える
最適な語彙サイズは計算予算とモデルサイズに応じてスケールする
現在のLLMは一般的に最適ではない語彙サイズを使用している
トークン化とモデルスケーリングを同時に考慮することが不可欠である

4. 技術分析とフレームワーク

4.1 数学的定式化

発見された核心的な数学的関係は以下のように表される：

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

ここで、$L$は正規化損失、$N_{nv}$は非語彙パラメータ、$N_v$は語彙パラメータ、$D$は学習データサイズ、$E, A, B, C, \alpha, \beta, \gamma$はフィッティングされた定数である。

最適な語彙サイズは以下を満たす：$\frac{\partial L}{\partial N_v} = 0$

4.2 分析フレームワーク例

ケーススタディ：100億パラメータモデルの最適語彙サイズ決定

前提：学習予算 = 1e23 FLOPs、対象ドメイン = 一般的な言語理解

フレームワーク適用：

非語彙パラメータ推定：$N_{nv} = 9.5\text{B}$ （全体の95%）
べき乗則適用：$N_v^{opt} \propto N_{nv}^{0.7}$ （実証的フィットから）
計算：$N_v^{opt} \approx 150\text{K}$ トークン
所与の予算に対するIsoFLOPs分析で検証
ドメイン固有のトークン分布に合わせて調整

このフレームワークは、現在のモデル開発者がしばしば見落としている、語彙サイズ決定に対する体系的なアプローチを提供する。

5. 業界アナリストの視点

5.1 核心的洞察

業界は、語彙サイズを静的なハイパーパラメータとして扱うという根本的な誤りを犯してきた。本論文は、重大な盲点を暴露している：我々は片手を背中に縛られた状態でLLMを最適化してきたのだ。Llama2-70Bの語彙が7倍大きくなるべきだという発見は、単なる学術的好奇心ではなく、AIエコシステム全体における数十億ドル規模の無駄な計算と最適ではないモデル性能を表している。この見落としは、活性化関数の重要性を過小評価した初期のニューラルネットワーク研究（GlorotとBengioによる深層順伝播型ニューラルネットワークの学習の難しさに関する2010年の画期的研究に記録されている）を彷彿とさせる。

5.2 論理的展開

本論文の主張は外科手術のような精密さで進行する：第一に、語彙が重要であることを（主流のスケーリング則の仮定とは逆に）確立する。第二に、べき乗則を通じてそれが体系的に重要であることを実証する。第三に、最適化のための実践的なツールを提供する。この論理の連鎖は、問題の特定から方法論的革新、実証的検証まで、完璧である。これは、根本的な洞察なしに漸進的改善を発表する傾向とは異なり、厳密な研究がどのように行われるべきかを示している。

5.3 長所と欠点

長所： 3つの手法アプローチ（IsoFLOPs、微分、パラメトリックフィット）は、堅牢な検証を提供する。実験の規模（33Mから3Bパラメータ）は印象的で説得力がある。実践的含意は、LLMを学習するあらゆる組織にとって即座に実行可能である。

欠点： 本研究は主に英語テキストに焦点を当てており、多言語への影響は未調査である。彼らの方法論の計算コストは、小規模な研究グループにとっては過大かもしれない。語彙最適化が、Transformerアーキテクチャ論文（Vaswani et al., 2017）が分野を支配する基本原理を確立した注意機構などの他のアーキテクチャ選択とどのように相互作用するかについては扱っていない。

5.4 実践的示唆

LLMを学習するすべてのAIラボは、直ちに以下のことを行うべきである：1）語彙サイズ戦略を再評価する、2）現在のプロジェクトに対してIsoFLOPs分析を実施する、3）語彙サイズをパラメータやデータと並ぶ第一級のスケーリング次元として考慮する。NVIDIAやAMDのようなハードウェア企業にとって、この研究は、より大きな埋め込みテーブルのためのメモリアーキテクチャにおける新たな最適化機会を示唆している。Llama2-70Bの7倍の語彙ギャップは、現在のハードウェアが最適なモデル構成に根本的に適合していないことを意味する。

6. 将来の応用と方向性

即時応用：

次世代LLM（GPT-5、Gemini 2.0など）のための語彙戦略の再設計
より大きな埋め込みテーブルのためのハードウェア最適化
モデル提供と推論における効率性の向上

研究の方向性：

多様な言語にわたる多言語語彙最適化
学習中の動的語彙サイズ調整
Mixture-of-Expertsアーキテクチャとの統合
ドメイン固有モデルのための語彙最適化
マルチモーダルモデルのためのクロスモーダル語彙考察

本研究で確立された原理は、言語モデルを超えて、バイオインフォマティクス、コード生成、時系列分析における他の系列モデルにも拡張される可能性がある。これは、コンピュータビジョンからの畳み込みニューラルネットワークの原理（Krizhevsky et al.による2012年のAlexNet論文のように）が他の分野に転移したのと同様である。

7. 参考文献

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.