Leis de Escalonamento com Vocabulário: Por que Modelos Maiores Precisam de Vocabulários Maiores

1. Introdução

As leis de escalonamento para Modelos de Linguagem de Grande Porte (LLMs) tradicionalmente focam no número de parâmetros do modelo e no tamanho dos dados de treinamento, negligenciando em grande parte o tamanho do vocabulário como uma dimensão crítica de escalonamento. Este artigo investiga o impacto do tamanho do vocabulário no desempenho dos LLMs e propõe métodos para determinar o tamanho de vocabulário computacionalmente ótimo para orçamentos de treinamento específicos.

A pesquisa demonstra que LLMs atuais, como o Llama2-70B, usam tamanhos de vocabulário subótimos (32K em comparação com o ótimo previsto de 216K), destacando lacunas significativas de eficiência nas práticas atuais.

Faixa de Modelos

33M - 3B

Parâmetros Treinados

Dados de Treinamento

500B

Caracteres Processados

Lacuna de Vocabulário

Subestimação do Llama2-70B

2. Metodologia

2.1 Formulação da Perda Normalizada

Para garantir uma comparação justa entre modelos com diferentes tamanhos de vocabulário, os autores introduzem uma função de perda normalizada que leva em conta as diferenças de eficiência de tokenização. A normalização impede que modelos com vocabulários maiores tenham vantagens artificiais nas métricas de perda.

2.2 Três Abordagens de Previsão

O artigo propõe três métodos complementares para prever o tamanho ótimo do vocabulário:

2.2.1 Análise IsoFLOPs

Treinar modelos com orçamentos computacionais idênticos, mas com diferentes tamanhos de vocabulário, para identificar o ponto de perda mínima para cada nível de orçamento.

2.2.2 Estimativa por Derivada

Usar métodos baseados em gradiente para encontrar onde a derivada da função de perda em relação ao tamanho do vocabulário é igual a zero, indicando pontos ótimos.

2.2.3 Ajuste Paramétrico

Ajustar relações de lei de potência entre parâmetros do modelo, tamanho do vocabulário e perda para derivar fórmulas preditivas.

3. Resultados Experimentais

3.1 Configuração do Treinamento do Modelo

Modelos variando de 33M a 3B de parâmetros foram treinados em até 500B de caracteres com várias configurações de vocabulário. O treinamento abrangeu diferentes orçamentos de FLOPs para estabelecer relações de escalonamento abrangentes.

3.2 Descobertas sobre o Vocabulário Ótimo

A pesquisa revela uma relação de lei de potência: $N_v^{opt} \propto N_{nv}^\gamma$ onde $\gamma < 1$, indicando que os parâmetros ótimos do vocabulário devem escalar mais lentamente do que os parâmetros não relacionados ao vocabulário. Isso contradiz a prática comum de usar tamanhos de vocabulário fixos em diferentes escalas de modelo.

Figura 1: Relação de Escalonamento do Vocabulário

A visualização mostra resultados empíricos alinhados com previsões teóricas, com círculos maiores indicando valores de perda mais altos. O gráfico demonstra claramente os tamanhos ótimos de vocabulário para diferentes escalas de modelo, formando uma curva distinta de lei de potência.

3.3 Validação de Desempenho em Tarefas Secundárias

A validação empírica com modelos de 3B de parâmetros mostra melhorias consistentes ao usar os tamanhos ótimos de vocabulário previstos. No ARC-Challenge, aumentar o vocabulário de 32K para 43K melhorou o desempenho de 29,1 para 32,0 com o mesmo orçamento de 2,3e21 FLOPs.

Ideias Principais

O tamanho do vocabulário impacta significativamente a eficiência de escalonamento dos LLMs
O vocabulário ótimo escala com o orçamento computacional e o tamanho do modelo
Os LLMs atuais geralmente usam tamanhos de vocabulário subótimos
A consideração conjunta da tokenização e do escalonamento do modelo é essencial

4. Análise Técnica & Estrutura

4.1 Formulação Matemática

A relação matemática central descoberta é expressa como:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

Onde $L$ é a perda normalizada, $N_{nv}$ são os parâmetros não relacionados ao vocabulário, $N_v$ são os parâmetros do vocabulário, $D$ é o tamanho dos dados de treinamento, e $E, A, B, C, \alpha, \beta, \gamma$ são constantes ajustadas.

O tamanho ótimo do vocabulário satisfaz: $\frac{\partial L}{\partial N_v} = 0$

4.2 Exemplo da Estrutura de Análise

Estudo de Caso: Determinando o Vocabulário Ótimo para um Modelo de 10B de Parâmetros

Dados: Orçamento de treinamento = 1e23 FLOPs, Domínio alvo = compreensão geral de linguagem

Aplicação da Estrutura:

Estimar parâmetros não relacionados ao vocabulário: $N_{nv} = 9.5\text{B}$ (95% do total)
Aplicar lei de potência: $N_v^{opt} \propto N_{nv}^{0.7}$ (do ajuste empírico)
Calcular: $N_v^{opt} \approx 150\text{K}$ tokens
Validar com análise IsoFLOPs para o orçamento dado
Ajustar para a distribuição de tokens específica do domínio

Esta estrutura fornece uma abordagem sistemática para dimensionar o vocabulário que os desenvolvedores de modelos atuais frequentemente negligenciam.

5. Perspectiva do Analista da Indústria

5.1 Ideia Central

A indústria tem sido fundamentalmente equivocada ao tratar o tamanho do vocabulário como um hiperparâmetro estático. Este artigo expõe um ponto cego crítico: temos otimizado LLMs com uma mão amarrada nas costas. A descoberta de que o vocabulário do Llama2-70B deveria ser 7x maior não é apenas uma curiosidade acadêmica—ela representa bilhões de dólares em computação desperdiçada e desempenho de modelo subótimo em todo o ecossistema de IA. Esta omissão lembra a pesquisa inicial em redes neurais que subestimou a importância das funções de ativação, conforme documentado no trabalho seminal de Glorot e Bengio (2010) sobre a dificuldade de treinar redes neurais feedforward profundas.

5.2 Fluxo Lógico

O argumento do artigo progride com precisão cirúrgica: Primeiro, eles estabelecem que o vocabulário importa (contrariamente às suposições predominantes das leis de escalonamento). Segundo, demonstram que isso importa sistematicamente através de leis de potência. Terceiro, fornecem ferramentas práticas para otimização. A cadeia lógica é hermética—da identificação do problema, passando pela inovação metodológica, até a validação empírica. É assim que pesquisas rigorosas devem ser conduzidas, ao contrário da tendência de publicar melhorias incrementais sem insights fundamentais.

5.3 Pontos Fortes e Fracos

Pontos Fortes: A abordagem tripla-metodológica (IsoFLOPs, derivadas, ajustes paramétricos) fornece validação robusta. A escala da experimentação (33M a 3B de parâmetros) é impressionante e convincente. As implicações práticas são imediatamente acionáveis para qualquer organização que treine LLMs.

Pontos Fracos: O estudo foca principalmente em texto em inglês—as implicações multilingues permanecem inexploradas. O custo computacional de sua metodologia pode ser proibitivo para grupos de pesquisa menores. Eles não abordam como a otimização do vocabulário interage com outras escolhas arquitetônicas, como mecanismos de atenção, uma área onde o artigo sobre a arquitetura Transformer (Vaswani et al., 2017) estabeleceu princípios fundamentais que ainda dominam o campo.

5.4 Ideias Acionáveis

Todos os laboratórios de IA que treinam LLMs devem imediatamente: 1) Reavaliar sua estratégia de dimensionamento de vocabulário, 2) Implementar a análise IsoFLOPs para projetos atuais, 3) Considerar o tamanho do vocabulário como uma dimensão de escalonamento de primeira classe, ao lado de parâmetros e dados. Para empresas de hardware como NVIDIA e AMD, esta pesquisa sugere novas oportunidades de otimização na arquitetura de memória para tabelas de embedding maiores. A lacuna de 7x no vocabulário para o Llama2-70B implica que o hardware atual está fundamentalmente desalinhado com as configurações ótimas de modelo.

6. Aplicações Futuras & Direções

Aplicações Imediatas:

Redesenho de estratégias de vocabulário para LLMs de próxima geração (GPT-5, Gemini 2.0, etc.)
Otimização de hardware para tabelas de embedding maiores
Melhoria da eficiência no serviço e inferência de modelos

Direções de Pesquisa:

Otimização de vocabulário multilingue em diversas línguas
Dimensionamento dinâmico de vocabulário durante o treinamento
Integração com arquiteturas de mistura de especialistas
Otimização de vocabulário para modelos específicos de domínio
Considerações de vocabulário multimodal para modelos multimodais

Os princípios estabelecidos neste trabalho podem se estender além dos modelos de linguagem para outros modelos de sequência em bioinformática, geração de código e análise de séries temporais, semelhante a como os princípios das redes neurais convolucionais da visão computacional (como no artigo AlexNet de Krizhevsky et al., 2012) foram transferidos para outros domínios.

7. Referências

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.