VocAgnoLM: Преодоление несоответствия словарей при обучении языковых моделей по схеме «учитель-ученик»

1. Введение и постановка проблемы

Преобладающая парадигма обучения эффективных языковых моделей меньшего размера (учеников) предполагает руководство со стороны более крупных и мощных моделей (учителей). Однако этот подход наталкивается на фундаментальное препятствие: несоответствие словарей. Когда модели учителя и ученика используют разные токенизаторы — что является обычной ситуацией при использовании разнообразных открытых или специализированных моделей — их токен-последовательности и выходные распределения вероятностей расходятся, что сводит на нет эффективный перенос знаний. Как показано в статье, современная модель, такая как Qwen2.5-Math, может иметь всего 6,32% общего словаря с учеником, таким как TinyLlama, что создаёт значительный барьер для использования лучших доступных моделей в качестве учителей.

2. Фреймворк VocAgnoLM

Моделирование языка с управлением от учителя, не зависящее от словаря (VocAgnoLM), предлагает двустороннее решение для преодоления этого разрыва, обеспечивая дистилляцию знаний, не зависящую от словаря.

2.1 Ключевая идея и логика работы

Ключевая идея: Фундаментальным барьером является не архитектура модели, а несоответствие представлений. Нельзя напрямую сравнивать яблоки (токены Qwen) с апельсинами (токены TinyLlama). Гениальность VocAgnoLM заключается в переосмыслении проблемы: с «сопоставления выходов» на «выравнивание семантических пространств и обучающих сигналов». Он отделяет знания учителя от его конкретной схемы токенизации.

Логика работы: Процесс элегантно последователен: 1) Для заданного входного текста сгенерировать токен-последовательности как для модели ученика, так и для модели учителя. 2) Использовать Лексическое выравнивание на уровне токенов для создания отображения между несовпадающими последовательностями. 3) Использовать это отображение для применения Функции потерь с управлением от учителя, используя внутренние потери учителя в качестве обучающего сигнала для ученика, минуя прямое сопоставление вероятностей токенов.

2.2 Лексическое выравнивание на уровне токенов

Этот компонент решает проблему несоответствия последовательностей. Он устанавливает отношение «один ко многим» от каждого токена ученика к соответствующей подпоследовательности токенов учителя. Например, токен ученика «Pro» может соответствовать токенам учителя «Prob» и «ability». Концептуально это похоже на методы выравнивания в машинном переводе (например, используемые в статистическом МП или ранних нейросетевых моделях), но применяемые на уровне субслов для разных схем токенизации. Цель — создать мост, позволяющий передавать информацию, несмотря на лексический разрыв.

2.3 Функция потерь с управлением от учителя

Вместо того чтобы заставлять ученика имитировать распределение вероятностей следующего токена учителя — что невозможно при разных словарях — VocAgnoLM использует собственные потери языкового моделирования учителя в качестве ориентира. Ученик обучается минимизировать комбинированную целевую функцию: его стандартные потери языкового моделирования и потери, которые побуждают его внутренние представления или предсказания приводить к низкому значению потерь для модели учителя на выровненной последовательности. Это более абстрактная, но мощная форма руководства.

3. Сильные стороны и критические недостатки

Сильные стороны:

Открывает доступ к разнообразию моделей: Это ключевая особенность. Метод ломает привязку к вендору/экосистеме, позволяя командам использовать лучшую доступную модель (например, специализированную на математике Qwen) для обучения любого ученика, независимо от его происхождения (например, TinyLlama).
Прагматичный и лёгкий: Не требует переобучения токенизатора учителя или слоя эмбеддингов ученика, избегая огромных инженерных затрат.
Убедительные эмпирические результаты: Улучшение производительности на 46% по сравнению с наивным предобучением при сильном несоответствии словарей — это серьёзный результат. Он демонстрирует практическую работоспособность подхода.

Критические недостатки и открытые вопросы:

Эвристика выравнивания — «чёрный ящик»: В статье умалчивается точный алгоритм «Лексического выравнивания на уровне токенов». Это динамическое программирование? Обучаемая модель? Надёжность и вычислительная стоимость этого шага выравнивания остаются важными неизвестными. Плохое выравнивание может распространять шум вместо знаний.
Потеря детального сигнала: Использование скалярных потерь учителя жертвует богатым, многомерным сигналом его полного выходного распределения. Это похоже на обучение по итоговой оценке, а не по подробным комментариям к каждому ответу. Это может ограничить точность переноса знаний для тонких лингвистических способностей.
Масштабируемость при экстремальном несоответствии: Проверенное несоответствие (6% пересечения) серьёзно, но как насчёт почти нулевого пересечения? Теоретические пределы этого подхода не проверены.

4. Результаты экспериментов и анализ

4.1 Настройка и метрики производительности

В исследовании используется модель-ученик с 1B параметров (TinyLlama) и различные модели-учители с 7B параметров (Llemma, Mistral, DeepSeek-Math, Qwen2.5-Math) с размерами словаря от 32K до 150K. Ключевой метрикой является производительность на наборе задач по математике, сравнивая VocAgnoLM с базовым подходом — продолженным предобучением без руководства учителя.

4.2 Ключевые выводы и интерпретация графиков

Основной результат визуализирован на Рисунке 1 статьи. Он показывает две важные тенденции:

Проблема несоответствия словарей: На оси X показаны модели-учители с возрастающей производительностью (от Llemma к Qwen2.5-Math). Столбцы показывают пересечение их словарей с TinyLlama. Наблюдается явная обратная зависимость: лучший по производительности учитель (Qwen) имеет наименьшее пересечение (~6%). Это ярко иллюстрирует проблему, которую решает VocAgnoLM.
Эффективность VocAgnoLM: В тексте указано, что с Qwen2.5-Math в качестве учителя VocAgnoLM достигает улучшения производительности на 46% по сравнению с базовым подходом. Это доказывает, что фреймворк успешно использует сильного учителя, несмотря на минимальную общность словарей. В статье также отмечается стабильная польза от более сильных учителей, что подтверждает основную предпосылку.

Ключевой экспериментальный результат

Улучшение производительности на 46% достигнуто с помощью VocAgnoLM при использовании Qwen2.5-Math (пересечение словарей 6,32%) в качестве учителя для TinyLlama по сравнению со стандартным продолженным предобучением.

5. Практические выводы и стратегические последствия

Для практиков и руководителей в области ИИ:

Немедленная тактика: Если вы создаёте специализированную модель (например, для финансов, права, биомедицины), перестаньте ограничивать поиск учителя моделями с совместимыми токенизаторами. Активно оценивайте модели с наилучшей производительностью в вашей области, независимо от их токенизатора. VocAgnoLM предоставляет жизнеспособный путь для их использования.
Стратегические закупки: Это исследование снижает риск «привязки к токенизатору». При выборе базовой модели для вашей организации совместимость словарей становится менее критичным ограничением, позволяя выбирать исключительно на основе архитектуры, лицензирования и производительности.
Инвестиции в исследования: Компонент выравнивания является ключевым. Инвестиции в надёжные, эффективные и, возможно, обучаемые методы выравнивания будут ключом к индустриализации этого подхода. Рассматривайте это как следующий рубеж в области совместимости моделей.
Осторожность: Это не панацея. Для задач, требующих точной генерации или имитации стиля, потеря детального сопоставления распределений может быть существенным недостатком. Сначала опробуйте его для задач, насыщенных знаниями (например, математика, логические рассуждения).

6. Техническое погружение

6.1 Математическая формулировка

Хотя полная функция потерь в предоставленном отрывке не детализирована, основную идею можно формализовать. Пусть $\mathcal{V}_s$ и $\mathcal{V}_t$ — словари ученика и учителя. Для входной последовательности $x$ ученик генерирует токен-последовательность $\mathbf{s} = [s_1, ..., s_n]$, а учитель — $\mathbf{t} = [t_1, ..., t_m]$, причём обычно $n \neq m$.

Функция Лексического выравнивания на уровне токенов $\mathcal{A}$ сопоставляет каждый токен ученика $s_i$ с непрерывной подпоследовательностью токенов учителя: $\mathcal{A}(s_i) = \mathbf{t}_{[j:k]}$.

Функция потерь с управлением от учителя $\mathcal{L}_{guide}$, вероятно, включает передачу представления или предсказания, полученного от ученика (выровненного через $\mathcal{A}$), на прямой проход учителя и вычисление потерь языкового моделирования учителя на нём. Общая целевая функция обучения ученика становится:

$$\mathcal{L}_{total} = \mathcal{L}_{LM}(\theta_s; x) + \lambda \cdot \mathcal{L}_{guide}(\theta_s, \theta_t; x, \mathcal{A})$$

где $\theta_s$ и $\theta_t$ — параметры ученика и учителя, $\mathcal{L}_{LM}$ — стандартные потери языкового моделирования ученика, а $\lambda$ — гиперпараметр веса. Ключевой момент в том, что $\mathcal{L}_{guide}$ работает с выровненными последовательностями, обходя прямое несоответствие словарей.

6.2 Фреймворк анализа: пример использования

Сценарий: Компания хочет создать компактную, эффективную LLM для анализа юридических документов. Лучший доступный специализированный учитель — `LexLaw-70B`, который использует пользовательский токенизатор, обученный на юридическом корпусе. Целевой ученик — модель `Llama-3-8B`.

Применение фреймворка:

Диагностика проблемы: Проанализировать пересечение словарей. Вероятно, оно ниже 20%. Прямая дистилляция знаний невозможна.
Фаза выравнивания: Пропустить выборку юридических текстов через обе модели. Использовать модуль выравнивания VocAgnoLM (например, алгоритм минимального редакционного расстояния на BPE-кодировках) для построения отображения $\mathcal{A}$ между токенами Llama-3 и последовательностями токенов LexLaw для общих юридических терминов (например, «форс-мажор»).
Фаза обучения: Обучить ученика Llama-3 на юридическом корпусе. Для каждого батча вычислять его стандартные потери. Параллельно для каждой последовательности использовать $\mathcal{A}$ для построения «представления учителя» предсказанной последовательности ученика, передать его замороженному учителю LexLaw и вычислить его потери. Распространить комбинированные потери назад для обновления только параметров ученика.
Оценка: Отслеживать производительность на юридических QA-бенчмарках по сравнению с базовым учеником, обученным без руководства LexLaw. Ожидаемый результат — улучшенное юридическое мышление без изменения токенизатора ученика.

7. Будущие применения и направления исследований

Кросс-модальный и кросс-лингвальный перенос: Основной принцип выравнивания различных пространств представлений является фундаментальным. Будущая работа может расширить его, чтобы использовать учителя «визуальный язык» (например, GPT-4V) для руководства текстовым учеником через выровненные пары «изображение-подпись» или использовать учителя на языке с большими ресурсами для руководства учеником на языке с малыми ресурсами.
Динамическое и обучаемое выравнивание: Переход от эвристического выравнивания к небольшой, обучаемой модели выравнивания, которая изучает оптимальные отображения во время обучения, может повысить надёжность и эффективность.
Промышленные конвейеры моделей: Это позволяет создавать «маркетплейсы учителей», где организации могут предлагать замороженные, специализированные модели-учители как услугу. Конечные пользователи могут дистиллировать их в свою собственную архитектуру по выбору, защищая интеллектуальную собственность (учители заморожены) и обеспечивая совместимость.
Федеративное обучение с гетерогенными клиентами: В федеративных сценариях клиенты могут использовать разные базовые модели. VocAgnoLM может предоставить метод агрегации знаний от этих разнородных моделей в глобальную модель без необходимости стандартизации.

8. Ссылки

Shin, H., Ji, L., Liu, X., & Gong, Y. (2025). Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling. arXiv preprint arXiv:2503.19123.
Zhang, P., et al. (2024). TinyLlama: An Open-Source Small Language Model. GitHub repository.
Yang, A., et al. (2024). Qwen2.5-Math: A Series of Large Language Models for Mathematical Problem Solving. Technical Report.
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531. (Основополагающая работа по дистилляции знаний).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Влиятельная работа по выравниванию распределений в разных доменах, аналогичная задаче выравнивания здесь).
Google AI. (2023). Gemma: Open Models Based on Google Research and Technology. https://ai.google.dev/gemma.
Meta AI. (2024). Llama 3 Model Card. https://llama.meta.com/llama3/.