1. Introduction
Les lois d'échelle pour les Grands Modèles de Langage (LLM) se sont traditionnellement concentrées sur le nombre de paramètres du modèle et la taille des données d'entraînement, négligeant largement la taille du vocabulaire comme une dimension critique de l'échelle. Cet article étudie l'impact de la taille du vocabulaire sur les performances des LLM et propose des méthodes pour déterminer la taille de vocabulaire optimale en termes de calcul pour un budget d'entraînement donné.
La recherche démontre que les LLM actuels comme Llama2-70B utilisent des tailles de vocabulaire sous-optimales (32K contre une valeur optimale prédite de 216K), mettant en lumière des écarts d'efficacité significatifs dans les pratiques actuelles.
Plage des modèles
33M - 3B
Paramètres entraînés
Données d'entraînement
500B
Caractères traités
Écart de vocabulaire
7x
Sous-estimation pour Llama2-70B
2. Méthodologie
2.1 Formulation de la perte normalisée
Pour assurer une comparaison équitable entre des modèles ayant des tailles de vocabulaire différentes, les auteurs introduisent une fonction de perte normalisée qui prend en compte les différences d'efficacité de tokenisation. Cette normalisation empêche les modèles avec des vocabulaires plus grands d'avoir des avantages artificiels dans les métriques de perte.
2.2 Trois approches de prédiction
L'article propose trois méthodes complémentaires pour prédire la taille optimale du vocabulaire :
2.2.1 Analyse IsoFLOPs
Entraîner des modèles avec des budgets de calcul identiques mais des tailles de vocabulaire différentes pour identifier le point de perte minimale pour chaque niveau de budget.
2.2.2 Estimation par dérivée
Utiliser des méthodes basées sur le gradient pour trouver où la dérivée de la fonction de perte par rapport à la taille du vocabulaire est égale à zéro, indiquant les points optimaux.
2.2.3 Ajustement paramétrique
Ajuster des relations de loi de puissance entre les paramètres du modèle, la taille du vocabulaire et la perte pour en déduire des formules prédictives.
3. Résultats expérimentaux
3.1 Configuration de l'entraînement des modèles
Des modèles allant de 33M à 3B paramètres ont été entraînés sur jusqu'à 500 milliards de caractères avec diverses configurations de vocabulaire. L'entraînement a couvert différents budgets en FLOPs pour établir des relations d'échelle complètes.
3.2 Résultats sur la taille optimale du vocabulaire
La recherche révèle une relation de loi de puissance : $N_v^{opt} \propto N_{nv}^\gamma$ où $\gamma < 1$, indiquant que les paramètres de vocabulaire optimaux devraient évoluer plus lentement que les paramètres non liés au vocabulaire. Cela contredit la pratique courante d'utiliser des tailles de vocabulaire fixes pour différentes échelles de modèles.
Figure 1 : Relation d'échelle du vocabulaire
La visualisation montre des résultats empiriques alignés avec les prédictions théoriques, les cercles plus grands indiquant des valeurs de perte plus élevées. Le graphique démontre clairement des tailles de vocabulaire optimales pour différentes échelles de modèles, formant une courbe de loi de puissance distincte.
3.3 Validation des performances en aval
Une validation empirique avec des modèles de 3B paramètres montre des améliorations constantes lors de l'utilisation des tailles de vocabulaire optimales prédites. Sur ARC-Challenge, l'augmentation du vocabulaire de 32K à 43K a amélioré les performances de 29,1 à 32,0 avec un budget identique de 2,3e21 FLOPs.
Points clés
- La taille du vocabulaire impacte significativement l'efficacité de l'échelle des LLM
- Le vocabulaire optimal évolue avec le budget de calcul et la taille du modèle
- Les LLM actuels utilisent généralement des tailles de vocabulaire sous-optimales
- La considération conjointe de la tokenisation et de l'échelle du modèle est essentielle
4. Analyse technique & Cadre méthodologique
4.1 Formulation mathématique
La relation mathématique centrale découverte s'exprime ainsi :
$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$
Où $L$ est la perte normalisée, $N_{nv}$ sont les paramètres non liés au vocabulaire, $N_v$ sont les paramètres du vocabulaire, $D$ est la taille des données d'entraînement, et $E, A, B, C, \alpha, \beta, \gamma$ sont des constantes ajustées.
La taille optimale du vocabulaire satisfait : $\frac{\partial L}{\partial N_v} = 0$
4.2 Exemple d'application du cadre d'analyse
Étude de cas : Détermination du vocabulaire optimal pour un modèle de 10B paramètres
Données : Budget d'entraînement = 1e23 FLOPs, Domaine cible = compréhension générale du langage
Application du cadre :
- Estimer les paramètres non liés au vocabulaire : $N_{nv} = 9,5\text{B}$ (95% du total)
- Appliquer la loi de puissance : $N_v^{opt} \propto N_{nv}^{0,7}$ (d'après l'ajustement empirique)
- Calculer : $N_v^{opt} \approx 150\text{K}$ tokens
- Valider avec l'analyse IsoFLOPs pour le budget donné
- Ajuster en fonction de la distribution des tokens spécifique au domaine
Ce cadre fournit une approche systématique pour le dimensionnement du vocabulaire que les développeurs de modèles actuels négligent souvent.
5. Perspective d'un analyste de l'industrie
5.1 Idée centrale
L'industrie s'est fondamentalement trompée en traitant la taille du vocabulaire comme un hyperparamètre statique. Cet article expose un angle mort critique : nous avons optimisé les LLM avec une main attachée dans le dos. La découverte que le vocabulaire de Llama2-70B devrait être 7 fois plus grand n'est pas seulement une curiosité académique—elle représente des milliards de dollars de calcul gaspillé et des performances de modèles sous-optimales dans tout l'écosystème de l'IA. Cette omission rappelle les premières recherches sur les réseaux neuronaux qui sous-estimaient l'importance des fonctions d'activation, comme documenté dans le travail fondateur de Glorot et Bengio (2010) sur la compréhension de la difficulté d'entraîner des réseaux neuronaux feedforward profonds.
5.2 Enchaînement logique
L'argumentation de l'article progresse avec une précision chirurgicale : Premièrement, ils établissent que le vocabulaire est important (contrairement aux hypothèses dominantes des lois d'échelle). Deuxièmement, ils démontrent que cette importance est systématique via des lois de puissance. Troisièmement, ils fournissent des outils pratiques pour l'optimisation. La chaîne logique est irréfutable—de l'identification du problème à l'innovation méthodologique jusqu'à la validation empirique. C'est ainsi que la recherche rigoureuse devrait être menée, contrairement à la tendance de publier des améliorations incrémentales sans idées fondamentales.
5.3 Forces et limites
Forces : L'approche triple (IsoFLOPs, dérivées, ajustements paramétriques) fournit une validation robuste. L'échelle des expérimentations (de 33M à 3B paramètres) est impressionnante et convaincante. Les implications pratiques sont immédiatement actionnables pour toute organisation entraînant des LLM.
Limites : L'étude se concentre principalement sur le texte anglais—les implications multilingues restent inexplorées. Le coût computationnel de leur méthodologie peut être prohibitif pour les petits groupes de recherche. Ils n'abordent pas comment l'optimisation du vocabulaire interagit avec d'autres choix architecturaux comme les mécanismes d'attention, un domaine où l'article sur l'architecture Transformer (Vaswani et al., 2017) a établi des principes fondamentaux qui dominent encore le domaine.
5.4 Perspectives actionnables
Chaque laboratoire d'IA entraînant des LLM devrait immédiatement : 1) Réévaluer sa stratégie de dimensionnement du vocabulaire, 2) Mettre en œuvre l'analyse IsoFLOPs pour les projets en cours, 3) Considérer la taille du vocabulaire comme une dimension d'échelle de premier plan au même titre que les paramètres et les données. Pour les entreprises de matériel comme NVIDIA et AMD, cette recherche suggère de nouvelles opportunités d'optimisation dans l'architecture mémoire pour des tables d'embedding plus grandes. L'écart de vocabulaire de 7x pour Llama2-70B implique que le matériel actuel est fondamentalement inadapté aux configurations de modèles optimales.
6. Applications futures & Directions
Applications immédiates :
- Refonte des stratégies de vocabulaire pour les LLM de nouvelle génération (GPT-5, Gemini 2.0, etc.)
- Optimisation matérielle pour des tables d'embedding plus grandes
- Amélioration de l'efficacité du déploiement et de l'inférence des modèles
Directions de recherche :
- Optimisation multilingue du vocabulaire à travers diverses langues
- Dimensionnement dynamique du vocabulaire pendant l'entraînement
- Intégration avec les architectures mixture-of-experts
- Optimisation du vocabulaire pour des modèles spécifiques à un domaine
- Considérations de vocabulaire cross-modal pour les modèles multimodaux
Les principes établis dans ce travail pourraient s'étendre au-delà des modèles de langage à d'autres modèles séquentiels en bio-informatique, génération de code et analyse de séries temporelles, de la même manière que les principes des réseaux neuronaux convolutifs de la vision par ordinateur (comme dans l'article AlexNet de Krizhevsky et al., 2012) se sont transférés à d'autres domaines.
7. Références
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
- Brown, T., et al. (2020). Language Models are Few-Shot Learners.
- Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
- Vaswani, A., et al. (2017). Attention Is All You Need.
- Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
- Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
- Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.