Lois d'échelle et vocabulaire : Pourquoi les modèles plus grands nécessitent des vocabulaires plus étendus

1. Introduction

Les lois d'échelle pour les Grands Modèles de Langage (LLM) se sont traditionnellement concentrées sur le nombre de paramètres du modèle et la taille des données d'entraînement, négligeant largement la taille du vocabulaire comme une dimension critique de l'échelle. Cet article étudie l'impact de la taille du vocabulaire sur les performances des LLM et propose des méthodes pour déterminer la taille de vocabulaire optimale en termes de calcul pour un budget d'entraînement donné.

La recherche démontre que les LLM actuels comme Llama2-70B utilisent des tailles de vocabulaire sous-optimales (32K contre une valeur optimale prédite de 216K), mettant en lumière des écarts d'efficacité significatifs dans les pratiques actuelles.

Plage des modèles

33M - 3B

Paramètres entraînés

Données d'entraînement

500B

Caractères traités

Écart de vocabulaire

Sous-estimation pour Llama2-70B

2. Méthodologie

2.1 Formulation de la perte normalisée

Pour assurer une comparaison équitable entre des modèles ayant des tailles de vocabulaire différentes, les auteurs introduisent une fonction de perte normalisée qui prend en compte les différences d'efficacité de tokenisation. Cette normalisation empêche les modèles avec des vocabulaires plus grands d'avoir des avantages artificiels dans les métriques de perte.

2.2 Trois approches de prédiction

L'article propose trois méthodes complémentaires pour prédire la taille optimale du vocabulaire :

2.2.1 Analyse IsoFLOPs

Entraîner des modèles avec des budgets de calcul identiques mais des tailles de vocabulaire différentes pour identifier le point de perte minimale pour chaque niveau de budget.

2.2.2 Estimation par dérivée

Utiliser des méthodes basées sur le gradient pour trouver où la dérivée de la fonction de perte par rapport à la taille du vocabulaire est égale à zéro, indiquant les points optimaux.

2.2.3 Ajustement paramétrique

Ajuster des relations de loi de puissance entre les paramètres du modèle, la taille du vocabulaire et la perte pour en déduire des formules prédictives.

3. Résultats expérimentaux

3.1 Configuration de l'entraînement des modèles

Des modèles allant de 33M à 3B paramètres ont été entraînés sur jusqu'à 500 milliards de caractères avec diverses configurations de vocabulaire. L'entraînement a couvert différents budgets en FLOPs pour établir des relations d'échelle complètes.

3.2 Résultats sur la taille optimale du vocabulaire

La recherche révèle une relation de loi de puissance : $N_v^{opt} \propto N_{nv}^\gamma$ où $\gamma < 1$, indiquant que les paramètres de vocabulaire optimaux devraient évoluer plus lentement que les paramètres non liés au vocabulaire. Cela contredit la pratique courante d'utiliser des tailles de vocabulaire fixes pour différentes échelles de modèles.

Figure 1 : Relation d'échelle du vocabulaire

La visualisation montre des résultats empiriques alignés avec les prédictions théoriques, les cercles plus grands indiquant des valeurs de perte plus élevées. Le graphique démontre clairement des tailles de vocabulaire optimales pour différentes échelles de modèles, formant une courbe de loi de puissance distincte.

3.3 Validation des performances en aval

Une validation empirique avec des modèles de 3B paramètres montre des améliorations constantes lors de l'utilisation des tailles de vocabulaire optimales prédites. Sur ARC-Challenge, l'augmentation du vocabulaire de 32K à 43K a amélioré les performances de 29,1 à 32,0 avec un budget identique de 2,3e21 FLOPs.

Points clés

La taille du vocabulaire impacte significativement l'efficacité de l'échelle des LLM
Le vocabulaire optimal évolue avec le budget de calcul et la taille du modèle
Les LLM actuels utilisent généralement des tailles de vocabulaire sous-optimales
La considération conjointe de la tokenisation et de l'échelle du modèle est essentielle

4. Analyse technique & Cadre méthodologique

4.1 Formulation mathématique

La relation mathématique centrale découverte s'exprime ainsi :

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

Où $L$ est la perte normalisée, $N_{nv}$ sont les paramètres non liés au vocabulaire, $N_v$ sont les paramètres du vocabulaire, $D$ est la taille des données d'entraînement, et $E, A, B, C, \alpha, \beta, \gamma$ sont des constantes ajustées.

La taille optimale du vocabulaire satisfait : $\frac{\partial L}{\partial N_v} = 0$

4.2 Exemple d'application du cadre d'analyse

Étude de cas : Détermination du vocabulaire optimal pour un modèle de 10B paramètres

Données : Budget d'entraînement = 1e23 FLOPs, Domaine cible = compréhension générale du langage

Application du cadre :

Estimer les paramètres non liés au vocabulaire : $N_{nv} = 9,5\text{B}$ (95% du total)
Appliquer la loi de puissance : $N_v^{opt} \propto N_{nv}^{0,7}$ (d'après l'ajustement empirique)
Calculer : $N_v^{opt} \approx 150\text{K}$ tokens
Valider avec l'analyse IsoFLOPs pour le budget donné
Ajuster en fonction de la distribution des tokens spécifique au domaine

Ce cadre fournit une approche systématique pour le dimensionnement du vocabulaire que les développeurs de modèles actuels négligent souvent.

5. Perspective d'un analyste de l'industrie

5.1 Idée centrale

L'industrie s'est fondamentalement trompée en traitant la taille du vocabulaire comme un hyperparamètre statique. Cet article expose un angle mort critique : nous avons optimisé les LLM avec une main attachée dans le dos. La découverte que le vocabulaire de Llama2-70B devrait être 7 fois plus grand n'est pas seulement une curiosité académique—elle représente des milliards de dollars de calcul gaspillé et des performances de modèles sous-optimales dans tout l'écosystème de l'IA. Cette omission rappelle les premières recherches sur les réseaux neuronaux qui sous-estimaient l'importance des fonctions d'activation, comme documenté dans le travail fondateur de Glorot et Bengio (2010) sur la compréhension de la difficulté d'entraîner des réseaux neuronaux feedforward profonds.

5.2 Enchaînement logique

L'argumentation de l'article progresse avec une précision chirurgicale : Premièrement, ils établissent que le vocabulaire est important (contrairement aux hypothèses dominantes des lois d'échelle). Deuxièmement, ils démontrent que cette importance est systématique via des lois de puissance. Troisièmement, ils fournissent des outils pratiques pour l'optimisation. La chaîne logique est irréfutable—de l'identification du problème à l'innovation méthodologique jusqu'à la validation empirique. C'est ainsi que la recherche rigoureuse devrait être menée, contrairement à la tendance de publier des améliorations incrémentales sans idées fondamentales.

5.3 Forces et limites

Forces : L'approche triple (IsoFLOPs, dérivées, ajustements paramétriques) fournit une validation robuste. L'échelle des expérimentations (de 33M à 3B paramètres) est impressionnante et convaincante. Les implications pratiques sont immédiatement actionnables pour toute organisation entraînant des LLM.

Limites : L'étude se concentre principalement sur le texte anglais—les implications multilingues restent inexplorées. Le coût computationnel de leur méthodologie peut être prohibitif pour les petits groupes de recherche. Ils n'abordent pas comment l'optimisation du vocabulaire interagit avec d'autres choix architecturaux comme les mécanismes d'attention, un domaine où l'article sur l'architecture Transformer (Vaswani et al., 2017) a établi des principes fondamentaux qui dominent encore le domaine.

5.4 Perspectives actionnables

Chaque laboratoire d'IA entraînant des LLM devrait immédiatement : 1) Réévaluer sa stratégie de dimensionnement du vocabulaire, 2) Mettre en œuvre l'analyse IsoFLOPs pour les projets en cours, 3) Considérer la taille du vocabulaire comme une dimension d'échelle de premier plan au même titre que les paramètres et les données. Pour les entreprises de matériel comme NVIDIA et AMD, cette recherche suggère de nouvelles opportunités d'optimisation dans l'architecture mémoire pour des tables d'embedding plus grandes. L'écart de vocabulaire de 7x pour Llama2-70B implique que le matériel actuel est fondamentalement inadapté aux configurations de modèles optimales.

6. Applications futures & Directions

Applications immédiates :

Refonte des stratégies de vocabulaire pour les LLM de nouvelle génération (GPT-5, Gemini 2.0, etc.)
Optimisation matérielle pour des tables d'embedding plus grandes
Amélioration de l'efficacité du déploiement et de l'inférence des modèles

Directions de recherche :

Optimisation multilingue du vocabulaire à travers diverses langues
Dimensionnement dynamique du vocabulaire pendant l'entraînement
Intégration avec les architectures mixture-of-experts
Optimisation du vocabulaire pour des modèles spécifiques à un domaine
Considérations de vocabulaire cross-modal pour les modèles multimodaux

Les principes établis dans ce travail pourraient s'étendre au-delà des modèles de langage à d'autres modèles séquentiels en bio-informatique, génération de code et analyse de séries temporelles, de la même manière que les principes des réseaux neuronaux convolutifs de la vision par ordinateur (comme dans l'article AlexNet de Krizhevsky et al., 2012) se sont transférés à d'autres domaines.

7. Références

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.