Законы масштабирования и размер словаря: почему большим моделям нужны большие словари

1. Введение

Законы масштабирования для больших языковых моделей (LLM) традиционно фокусировались на количестве параметров модели и объёме обучающих данных, в значительной степени упуская из виду размер словаря как критическое измерение масштабирования. В данной работе исследуется влияние размера словаря на производительность LLM и предлагаются методы определения оптимального с точки зрения вычислительных затрат размера словаря для заданного бюджета на обучение.

Исследование показывает, что современные LLM, такие как Llama2-70B, используют неоптимальные размеры словаря (32K против прогнозируемых оптимальных 216K), что указывает на значительные пробелы в эффективности текущих практик.

Диапазон моделей

33M - 3B

Обученных параметров

Обучающие данные

500B

Обработанных символов

Разрыв в словаре

Недооценка для Llama2-70B

2. Методология

2.1 Формулировка нормализованной функции потерь

Для обеспечения справедливого сравнения моделей с разным размером словаря авторы вводят нормализованную функцию потерь, учитывающую различия в эффективности токенизации. Нормализация предотвращает искусственное преимущество в метриках потерь у моделей с большим словарём.

2.2 Три подхода к прогнозированию

В работе предлагаются три взаимодополняющих метода прогнозирования оптимального размера словаря:

2.2.1 Анализ IsoFLOPs

Обучение моделей с одинаковыми вычислительными бюджетами, но разными размерами словаря для определения точки минимальных потерь для каждого уровня бюджета.

2.2.2 Оценка производной

Использование методов на основе градиента для нахождения точки, где производная функции потерь по размеру словаря равна нулю, что указывает на оптимальные значения.

2.2.3 Параметрическая аппроксимация

Аппроксимация степенных зависимостей между параметрами модели, размером словаря и потерями для выведения прогнозных формул.

3. Результаты экспериментов

3.1 Настройка обучения моделей

Модели с количеством параметров от 33M до 3B обучались на объёме данных до 500B символов с различными конфигурациями словаря. Обучение охватывало разные бюджеты FLOPs для установления всеобъемлющих зависимостей масштабирования.

3.2 Результаты по оптимальному словарю

Исследование выявляет степенную зависимость: $N_v^{opt} \propto N_{nv}^\gamma$, где $\gamma < 1$, что указывает на то, что оптимальные параметры словаря должны масштабироваться медленнее, чем не-словарные параметры. Это противоречит распространённой практике использования фиксированного размера словаря для моделей разных масштабов.

Рисунок 1: Зависимость масштабирования словаря

Визуализация показывает эмпирические результаты, соответствующие теоретическим предсказаниям, где большие круги указывают на более высокие значения потерь. График демонстрирует чёткие оптимальные размеры словаря для разных масштабов моделей, формируя явную степенную кривую.

3.3 Валидация на даунстрим-задачах

Эмпирическая валидация на моделях с 3B параметров показывает стабильные улучшения при использовании прогнозируемых оптимальных размеров словаря. На ARC-Challenge увеличение словаря с 32K до 43K улучшило производительность с 29.1 до 32.0 при одинаковом бюджете в 2.3e21 FLOPs.

Ключевые выводы

Размер словаря существенно влияет на эффективность масштабирования LLM
Оптимальный словарь масштабируется в зависимости от вычислительного бюджета и размера модели
Современные LLM обычно используют неоптимальные размеры словаря
Совместный учёт токенизации и масштабирования модели является обязательным

4. Технический анализ и фреймворк

4.1 Математическая формулировка

Основное обнаруженное математическое соотношение выражается как:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

Где $L$ — нормализованные потери, $N_{nv}$ — не-словарные параметры, $N_v$ — словарные параметры, $D$ — объём обучающих данных, а $E, A, B, C, \alpha, \beta, \gamma$ — подобранные константы.

Оптимальный размер словаря удовлетворяет условию: $\frac{\partial L}{\partial N_v} = 0$

4.2 Пример аналитического фреймворка

Кейс: Определение оптимального словаря для модели с 10B параметров

Дано: Бюджет на обучение = 1e23 FLOPs, Целевая область = общее языковое понимание

Применение фреймворка:

Оценить не-словарные параметры: $N_{nv} = 9.5\text{B}$ (95% от общего числа)
Применить степенной закон: $N_v^{opt} \propto N_{nv}^{0.7}$ (из эмпирической аппроксимации)
Вычислить: $N_v^{opt} \approx 150\text{K}$ токенов
Провести валидацию с помощью анализа IsoFLOPs для заданного бюджета
Скорректировать с учётом распределения токенов в конкретной предметной области

Этот фреймворк предоставляет систематический подход к определению размера словаря, который часто упускается из виду современными разработчиками моделей.

5. Взгляд отраслевого аналитика

5.1 Ключевая идея

Индустрия фундаментально заблуждалась, рассматривая размер словаря как статичный гиперпараметр. Данная работа обнажает критическое слепое пятно: мы оптимизировали LLM, связав себе одну руку за спиной. Вывод о том, что словарь Llama2-70B должен быть в 7 раз больше, — это не просто академическое любопытство. Он представляет собой миллиарды долларов потраченных впустую вычислений и неоптимальной производительности моделей во всей экосистеме ИИ. Это упущение напоминает ранние исследования нейронных сетей, которые недооценивали важность функций активации, как задокументировано в основополагающей работе Глоро и Бенжио (2010) о понимании сложности обучения глубоких прямых нейронных сетей.

5.2 Логическая цепочка

Аргументация работы развивается с хирургической точностью: Сначала они устанавливают, что словарь имеет значение (вопреки преобладающим допущениям законов масштабирования). Во-вторых, они демонстрируют, что это значение систематично через степенные законы. В-третьих, они предоставляют практические инструменты для оптимизации. Логическая цепочка безупречна — от идентификации проблемы через методологические инновации к эмпирической валидации. Вот как должно проводиться строгое исследование, в отличие от тренда публикации инкрементальных улучшений без фундаментальных прозрений.

5.3 Сильные стороны и недостатки

Сильные стороны: Подход с тройной методологией (IsoFLOPs, производные, параметрическая аппроксимация) обеспечивает надёжную валидацию. Масштаб экспериментов (от 33M до 3B параметров) впечатляет и убедителен. Практические последствия немедленно применимы для любой организации, обучающей LLM.

Недостатки: Исследование в основном сосредоточено на английском тексте — многоязычные аспекты остаются неисследованными. Вычислительная стоимость их методологии может быть неподъёмной для небольших исследовательских групп. Они не рассматривают, как оптимизация словаря взаимодействует с другими архитектурными решениями, такими как механизмы внимания, — область, в которой работа по архитектуре Transformer (Vaswani et al., 2017) установила основополагающие принципы, которые до сих пор доминируют в области.

5.4 Практические выводы

Каждая лаборатория ИИ, обучающая LLM, должна немедленно: 1) Пересмотреть свою стратегию определения размера словаря, 2) Внедрить анализ IsoFLOPs для текущих проектов, 3) Рассматривать размер словаря как полноценное измерение масштабирования наряду с параметрами и данными. Для аппаратных компаний, таких как NVIDIA и AMD, это исследование указывает на новые возможности оптимизации в архитектуре памяти для более крупных таблиц эмбеддингов. Разрыв в 7 раз для словаря Llama2-70B подразумевает, что текущее аппаратное обеспечение фундаментально не соответствует оптимальным конфигурациям моделей.

6. Будущие применения и направления

Немедленные применения:

Пересмотр стратегий формирования словаря для LLM следующего поколения (GPT-5, Gemini 2.0 и т.д.)
Аппаратная оптимизация для более крупных таблиц эмбеддингов
Повышение эффективности обслуживания моделей и вывода

Направления исследований:

Многоязычная оптимизация словаря для различных языков
Динамическое изменение размера словаря во время обучения
Интеграция с архитектурами mixture-of-experts
Оптимизация словаря для предметно-ориентированных моделей
Учёт кросс-модальных аспектов словаря для мультимодальных моделей

Принципы, установленные в этой работе, могут выйти за рамки языковых моделей и распространиться на другие последовательностные модели в биоинформатике, генерации кода и анализе временных рядов, подобно тому, как принципы свёрточных нейронных сетей из компьютерного зрения (как в работе AlexNet от Krizhevsky et al., 2012) перенеслись в другие области.

7. Ссылки

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.