1. Введение
Большие языковые модели (LLM) преимущественно обучаются с фиксированным, статическим словарём, что по своей сути ограничивает их способность обобщать новые или вышедшие за пределы словаря (Out-Of-Vocabulary, OOV) слова и эффективно обрабатывать разнообразные комбинации токенов. Это ограничение особенно проблематично для предметно-ориентированных приложений, многоязычных контекстов и развивающихся языков. Хотя для смягчения этой проблемы были предложены подходы с динамическим словарём, существующие решения часто фрагментированы, не поддерживают современные LLM и страдают от плохой масштабируемости вывода.
Чтобы преодолеть этот разрыв, мы представляем DVAGen (Dynamic Vocabulary Augmented Generation) — полностью открытый, унифицированный фреймворк, предназначенный для сквозной разработки языковых моделей с динамическим пополнением словаря. DVAGen предоставляет интегрированные инструменты для обучения, оценки и визуализации в реальном времени, поддерживает бесшовную интеграцию с современными LLM с открытым исходным кодом и обладает оптимизированными возможностями пакетного вывода.
2. Предпосылки и связанные работы
Традиционные методы токенизации, такие как Byte-Pair Encoding (BPE) и WordPiece, полагаются на статические словари, что делает их негибкими после обучения. Улучшения, такие как Multi-Word Tokenization (MWT), расширяют словари частыми n-граммами, но остаются статическими. Методы, дополненные поиском, такие как RETRO и фреймворк Copy-is-All-You-Need (CoG), вводят динамические элементы, извлекая релевантные отрывки или фразы во время генерации. Однако эти подходы часто включают сложные многоэтапные конвейеры, имеют высокую задержку и в основном были проверены на устаревших архитектурах, таких как GPT-2, не имея валидации и интеграции с современными LLM.
3. Фреймворк DVAGen
DVAGen построен как модульный и расширяемый фреймворк для устранения ограничений предыдущих работ.
3.1. Базовая архитектура и модульный дизайн
Фреймворк разделяет ключевые компоненты — токенизатор, поисковый модуль, модуль оценки и генератор — на независимые модули. Эта модульность позволяет исследователям и разработчикам легко настраивать или заменять компоненты (например, пробовать разные поисковые бэкенды или функции оценки) без переделки всей системы. Он следует философии plug-and-play для интеграции существующих LLM с открытым исходным кодом.
3.2. Конвейер обучения и вывода
DVAGen поддерживает полный конвейер: train для дообучения моделей с возможностями динамического словаря, chat для интерактивной генерации и eval для комплексной оценки производительности на стандартных бенчмарках.
3.3. Инструменты CLI и WebUI
Ключевым отличием является предоставление как инструментов командной строки (CLI) для скриптинга и автоматизации, так и веб-интерфейса (WebUI) для инспекции и визуализации результатов генерации в реальном времени, включая решения на уровне токенов и использование динамического словаря.
4. Техническая реализация
4.1. Механизм динамического словаря
В своей основе DVAGen расширяет стандартное предсказание следующего токена LLM. Во время генерации для заданного контекста $C_t$ система извлекает набор кандидатных фраз $P = \{p_1, p_2, ..., p_k\}$ из источника знаний. Каждый кандидат $p_i$ оценивается функцией $S(p_i | C_t)$, которая может основываться на правдоподобии LLM, обученной метрике или оценке сходства поиска. Итоговая вероятность генерации представляет собой смесь стандартного распределения словаря и распределения динамических кандидатов:
$P(w | C_t) = \lambda \cdot P_{LM}(w | C_t) + (1 - \lambda) \cdot \sum_{p_i \in P} S(p_i | C_t) \cdot \mathbb{1}(w \in p_i)$
где $\lambda$ — балансирующий параметр, а $\mathbb{1}$ — индикаторная функция.
4.2. Оптимизация пакетного вывода
Используя способность динамических фраз к сжатию последовательностей (генерация фразы за один шаг вместо нескольких токенов), DVAGen реализует оптимизированный пакетный вывод. Обрабатывая несколько входных последовательностей параллельно и эффективно группируя операции поиска и оценки для динамических кандидатов, он значительно повышает пропускную способность по сравнению с последовательной обработкой одного входа, устраняя серьёзный недостаток масштабируемости в предыдущих методах динамического словаря.
5. Результаты экспериментов и оценка
В работе DVAGen валидируется на современных LLM (например, серии LLaMA). Ключевые выводы включают:
- Снижение перплексии: Модели, дополненные DVAGen, демонстрируют сниженную перплексию на тестовых наборах, содержащих OOV-термины и предметно-ориентированный жаргон, что свидетельствует об улучшенной способности языкового моделирования.
- Скорость вывода: Поддержка пакетного вывода приводит к увеличению пропускной способности в 3–5 раз по сравнению с непакетным выводом с динамическим словарём, при минимальном влиянии на качество генерации.
- Полезность визуализации: WebUI эффективно подсвечивает, когда и какие элементы динамического словаря используются, обеспечивая прозрачность процесса принятия решений моделью. Рисунок 1 в работе иллюстрирует параллельное сравнение стандартной генерации и генерации с DVAGen, показывая замену нескольких субтокенов одной извлечённой предметно-ориентированной фразой.
6. Фреймворк анализа и кейс-стади
Ключевая идея: DVAGen — это не просто ещё один инструмент; это стратегическая инфраструктурная игра. Реальное узкое место в ИИ — не только размер модели, но и лексическая жёсткость. Рассматривая словарь как динамический, извлекаемый ресурс, а не как фиксированный артефакт, DVAGen атакует фундаментальный недостаток в текущем дизайне LLM — их неспособность изучать новые слова после обучения. Это отражает эволюцию в компьютерном зрении от фиксированных фильтров к динамическим механизмам внимания, как видно на примере влияния архитектуры Transformer по сравнению с более ранними свёрточными подходами.
Логический поток: Логика фреймворка элегантно прямолинейна: 1) Признать проблему статического словаря, 2) Разделить решение на извлекаемые знания (фразы) и механизм оценки/выбора, 3) Модуляризовать всё для гибкости и 4) Спроектировать для масштабирования (пакетный вывод). Он следует успешной методологии проектов с открытым исходным кодом, таких как Transformers от Hugging Face — предоставить инфраструктуру, позволить сообществу строить дома.
Сильные стороны и недостатки: Его величайшая сила — унификация и практичность. Предоставление как CLI, так и WebUI — блестящий ход для внедрения, удовлетворяющий потребностям как исследователей, так и инженеров. Фокус на пакетный вывод — прямой ответ на проблемы развёртывания предыдущих академических прототипов. Однако недостаток заключается в изначальной зависимости от качества и задержки источника поиска. Как показывает исследование генерации, дополненной поиском (RAG), например, от Facebook AI Research (FAIR) по их модели Atlas, плохой поиск может ухудшить производительность больше, чем помочь. DVAGen в настоящее время обходит сложную проблему «идеального поиска», перекладывая её на пользователя.
Практические выводы: Для предприятий прямое применение — в областях с изменчивой терминологией — биотехнологии (новые названия лекарств), финансы (появляющиеся акронимы), юриспруденция (термины, специфичные для дела). Внедрите слой DVAGen поверх вашего существующего конвейера LLM для быстрого выигрыша в предметной адаптации. Для исследователей фреймворк — это испытательный стенд: экспериментируйте с разными функциями оценки $S(p_i | C_t)$. Текущая оценка на основе правдоподобия наивна; интеграция обучаемых, учитывающих контекст оценщиков может стать следующим прорывом.
Кейс-стади — Генерация биомедицинских аннотаций: Рассмотрим генерацию аннотации для нового гена «CRISPRaX», неизвестного базовой LLM. Стандартная модель может выдать фрагментированные токены: «CRI», «SP», «Ra», «X». Поисковый модуль DVAGen, подключённый к биомедицинскому корпусу, извлекает кандидатные фразы, такие как «CRISPR activation variant», «gene editing complex». Модуль оценки определяет «CRISPR activation variant» как высоко релевантную в данном контексте. Затем генератор напрямую выводит связную фразу «CRISPR activation variant (CRISPRaX)», значительно улучшая беглость и точность без переобучения модели.
7. Будущие применения и направления
- Персонализированные ИИ-ассистенты: Динамическое включение пользовательской лексики (названия проектов, личные контакты, узкие интересы) в диалог.
- Эволюция языка в реальном времени: Подключение к потокам данных в реальном времени (новости, социальные сети) для мгновенного изучения и использования нового сленга, трендовых терминов или актуальных новостных сущностей.
- Кросс-модальное расширение словаря: Расширение фреймворка за пределы текста для извлечения и интеграции токенов или концепций из изображений, аудио или структурированных данных, движение к действительно мультимодальному динамическому словарю.
- Федеративное и on-device обучение: Обеспечение лёгких, локальных обновлений динамического словаря на периферийных устройствах для приложений, чувствительных к конфиденциальности, где основная модель остаётся фиксированной, но база данных извлекаемых фраз персонализируется со временем.
- Интеграция с фреймворками агентов: Улучшение ИИ-агентов (например, построенных на фреймворках вроде LangChain или AutoGPT) возможностью динамически изучать и использовать новые названия инструментов, параметры API или объекты, специфичные для среды, во время выполнения задачи.
8. Ссылки
- Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
- Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
- Borgeaud, S., et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. ICML.
- Lan, Y., et al. (2023). Copy-is-All-You-Need: A Retrieval-augmented Language Model for Long-form Text Generation. arXiv preprint arXiv:2305.11346.
- Liu, N., et al. (2024). Dynamic Vocabulary Augmented Generation for Protein Language Models. NeurIPS Workshop.
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- Facebook AI Research (FAIR). (2023). Atlas: Few-shot Learning with Retrieval Augmented Language Models. FAIR Publications.
- Grattafiori, A., et al. (2024). The Limitations of Fixed-Vocabulary Tokenization in Modern NLP. Journal of Artificial Intelligence Research.