Leyes de Escalabilidad con Vocabulario: Por qué los Modelos Más Grandes Necesitan Vocabularios Más Amplios

1. Introducción

Las leyes de escalabilidad para los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) tradicionalmente se han centrado en los parámetros del modelo y el tamaño de los datos de entrenamiento, pasando por alto en gran medida el tamaño del vocabulario como una dimensión crítica de escalabilidad. Este artículo investiga el impacto del tamaño del vocabulario en el rendimiento de los LLM y propone métodos para determinar el tamaño de vocabulario óptimo en función del cómputo para presupuestos de entrenamiento dados.

La investigación demuestra que los LLM actuales, como Llama2-70B, utilizan tamaños de vocabulario subóptimos (32K frente a un óptimo predicho de 216K), lo que pone de manifiesto importantes brechas de eficiencia en las prácticas actuales.

Rango de Modelos

33M - 3B

Parámetros Entrenados

Datos de Entrenamiento

500B

Caracteres Procesados

Brecha de Vocabulario

Subestimación en Llama2-70B

2. Metodología

2.1 Formulación de Pérdida Normalizada

Para garantizar una comparación justa entre modelos con diferentes tamaños de vocabulario, los autores introducen una función de pérdida normalizada que tiene en cuenta las diferencias en la eficiencia de la tokenización. La normalización evita que los modelos con vocabularios más grandes tengan ventajas artificiales en las métricas de pérdida.

2.2 Tres Enfoques de Predicción

El artículo propone tres métodos complementarios para predecir el tamaño óptimo de vocabulario:

2.2.1 Análisis IsoFLOPs

Entrenar modelos con presupuestos computacionales idénticos pero diferentes tamaños de vocabulario para identificar el punto de pérdida mínima para cada nivel de presupuesto.

2.2.2 Estimación por Derivadas

Utilizar métodos basados en gradientes para encontrar dónde la derivada de la función de pérdida con respecto al tamaño del vocabulario es igual a cero, lo que indica puntos óptimos.

2.2.3 Ajuste Paramétrico

Ajustar relaciones de ley de potencia entre los parámetros del modelo, el tamaño del vocabulario y la pérdida para derivar fórmulas predictivas.

3. Resultados Experimentales

3.1 Configuración del Entrenamiento del Modelo

Se entrenaron modelos que van desde 33M hasta 3B de parámetros con hasta 500B de caracteres y varias configuraciones de vocabulario. El entrenamiento abarcó diferentes presupuestos de FLOPs para establecer relaciones de escalabilidad integrales.

3.2 Hallazgos sobre el Vocabulario Óptimo

La investigación revela una relación de ley de potencia: $N_v^{opt} \propto N_{nv}^\gamma$ donde $\gamma < 1$, lo que indica que los parámetros del vocabulario óptimo deben escalar más lentamente que los parámetros no relacionados con el vocabulario. Esto contradice la práctica común de utilizar tamaños de vocabulario fijos en todas las escalas de modelos.

Figura 1: Relación de Escalabilidad del Vocabulario

La visualización muestra resultados empíricos que se alinean con las predicciones teóricas, donde los círculos más grandes indican valores de pérdida más altos. El gráfico demuestra claros tamaños óptimos de vocabulario para diferentes escalas de modelos, formando una curva distintiva de ley de potencia.

3.3 Validación del Rendimiento en Tareas Posteriores

La validación empírica con modelos de 3B de parámetros muestra mejoras consistentes al utilizar los tamaños de vocabulario óptimos predichos. En ARC-Challenge, aumentar el vocabulario de 32K a 43K mejoró el rendimiento de 29.1 a 32.0 con un presupuesto idéntico de 2.3e21 FLOPs.

Ideas Clave

El tamaño del vocabulario impacta significativamente la eficiencia de escalabilidad de los LLM.
El vocabulario óptimo escala con el presupuesto computacional y el tamaño del modelo.
Los LLM actuales generalmente utilizan tamaños de vocabulario subóptimos.
La consideración conjunta de la tokenización y la escalabilidad del modelo es esencial.

4. Análisis Técnico y Marco de Trabajo

4.1 Formulación Matemática

La relación matemática central descubierta se expresa como:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

Donde $L$ es la pérdida normalizada, $N_{nv}$ son los parámetros no relacionados con el vocabulario, $N_v$ son los parámetros del vocabulario, $D$ es el tamaño de los datos de entrenamiento, y $E, A, B, C, \alpha, \beta, \gamma$ son constantes ajustadas.

El tamaño óptimo del vocabulario satisface: $\frac{\partial L}{\partial N_v} = 0$

4.2 Ejemplo del Marco de Análisis

Estudio de Caso: Determinación del Vocabulario Óptimo para un Modelo de 10B de Parámetros

Dado: Presupuesto de entrenamiento = 1e23 FLOPs, Dominio objetivo = comprensión general del lenguaje.

Aplicación del Marco:

Estimar parámetros no relacionados con el vocabulario: $N_{nv} = 9.5\text{B}$ (95% del total).
Aplicar ley de potencia: $N_v^{opt} \propto N_{nv}^{0.7}$ (del ajuste empírico).
Calcular: $N_v^{opt} \approx 150\text{K}$ tokens.
Validar con análisis IsoFLOPs para el presupuesto dado.
Ajustar según la distribución de tokens específica del dominio.

Este marco proporciona un enfoque sistemático para dimensionar el vocabulario que los desarrolladores de modelos actuales a menudo pasan por alto.

5. Perspectiva del Analista de la Industria

5.1 Idea Central

La industria ha estado fundamentalmente equivocada al tratar el tamaño del vocabulario como un hiperparámetro estático. Este artículo expone un punto ciego crítico: hemos estado optimizando los LLM con una mano atada a la espalda. El hallazgo de que el vocabulario de Llama2-70B debería ser 7 veces más grande no es solo una curiosidad académica, representa miles de millones de dólares en cómputo desperdiciado y un rendimiento subóptimo de los modelos en todo el ecosistema de IA. Esta omisión recuerda a la investigación temprana en redes neuronales que subestimó la importancia de las funciones de activación, como se documenta en el trabajo seminal de Glorot y Bengio (2010) sobre la comprensión de la dificultad de entrenar redes neuronales profundas de propagación hacia adelante.

5.2 Flujo Lógico

El argumento del artículo progresa con precisión quirúrgica: Primero, establecen que el vocabulario importa (contrario a las suposiciones prevalecientes en las leyes de escalabilidad). Segundo, demuestran que importa sistemáticamente a través de leyes de potencia. Tercero, proporcionan herramientas prácticas para la optimización. La cadena lógica es hermética: desde la identificación del problema, pasando por la innovación metodológica, hasta la validación empírica. Así es como debe realizarse la investigación rigurosa, a diferencia de la tendencia de publicar mejoras incrementales sin ideas fundamentales.

5.3 Fortalezas y Debilidades

Fortalezas: El enfoque triple-metodología (IsoFLOPs, derivadas, ajustes paramétricos) proporciona una validación robusta. La escala de la experimentación (de 33M a 3B de parámetros) es impresionante y convincente. Las implicaciones prácticas son inmediatamente accionables para cualquier organización que entrene LLM.

Debilidades: El estudio se centra principalmente en texto en inglés; las implicaciones multilingües permanecen inexploradas. El costo computacional de su metodología puede ser prohibitivo para grupos de investigación más pequeños. No abordan cómo la optimización del vocabulario interactúa con otras elecciones arquitectónicas, como los mecanismos de atención, un área donde el artículo sobre la arquitectura Transformer (Vaswani et al., 2017) estableció principios fundamentales que aún dominan el campo.

5.4 Ideas Accionables

Cada laboratorio de IA que entrene LLM debería inmediatamente: 1) Re-evaluar su estrategia de dimensionamiento del vocabulario, 2) Implementar el análisis IsoFLOPs para proyectos actuales, 3) Considerar el tamaño del vocabulario como una dimensión de escalabilidad de primera clase junto con los parámetros y los datos. Para empresas de hardware como NVIDIA y AMD, esta investigación sugiere nuevas oportunidades de optimización en la arquitectura de memoria para tablas de embeddings más grandes. La brecha de 7x en el vocabulario para Llama2-70B implica que el hardware actual está fundamentalmente desajustado con las configuraciones óptimas de los modelos.

6. Aplicaciones y Direcciones Futuras

Aplicaciones Inmediatas:

Rediseño de estrategias de vocabulario para la próxima generación de LLM (GPT-5, Gemini 2.0, etc.).
Optimización de hardware para tablas de embeddings más grandes.
Mejora de la eficiencia en el servicio e inferencia de modelos.

Direcciones de Investigación:

Optimización de vocabulario multilingüe en diversos idiomas.
Dimensionamiento dinámico del vocabulario durante el entrenamiento.
Integración con arquitecturas de mezcla de expertos (Mixture-of-Experts).
Optimización de vocabulario para modelos específicos de dominio.
Consideraciones de vocabulario multimodal para modelos multimodales.

Los principios establecidos en este trabajo podrían extenderse más allá de los modelos de lenguaje a otros modelos de secuencia en bioinformática, generación de código y análisis de series temporales, de manera similar a cómo los principios de las redes neuronales convolucionales de la visión por computadora (como en el artículo AlexNet de Krizhevsky et al., 2012) se transfirieron a otros dominios.

7. Referencias

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.