Решение заданий на заполнение пропусков в предложениях ESL с помощью предобученных нейросетевых языковых моделей

Содержание

1. Введение

Задания на заполнение пропусков в предложениях (Sentence Completion, SC) являются фундаментальным инструментом оценки владения английским как вторым языком (ESL). Они представляют собой предложение с одним или несколькими пропусками и набором слов- или фраз-кандидатов. Автоматизация решения таких заданий предлагает значительные преимущества для изучающих язык (мгновенная обратная связь), преподавателей (оценка качества вопросов) и разработки интеллектуальных обучающих систем.

Предыдущие вычислительные подходы, такие как n-граммные языковые модели или специализированные модели для заполнения пропусков, сталкиваются с трудностями в реальных образовательных условиях: высоко запутывающие дистракторы, созданные профессионалами, необходимость глубоких лингвистических знаний (грамматика, синтаксис, семантика), а также переменное количество пропусков и токенов на каждый пропуск.

Данная работа предлагает нейросетевой фреймворк, использующий крупномасштабные предобученные языковые модели для решения этих проблем, демонстрируя превосходную производительность на реальном наборе данных ESL для K-12.

2. Наш подход

2.1 Постановка задачи

Задание SC определяется как кортеж $(q, O)$, где $q$ — предложение с $m$ пропусками, обозначенными токенами `[MASK]`, а $O = \{o_1, o_2, ..., o_n\}$ — набор из $n$ вариантов-кандидатов (обычно 3-5). Каждый вариант $o_i$ представляет собой последовательность токенов, предназначенную для заполнения всех пропусков в совокупности. Цель — выбрать вариант $o^* \in O$, который делает завершённое предложение наиболее правдоподобным.

2.2 Архитектура модели

Основой подхода является модель «последовательность-последовательность» на основе архитектуры Transformer, предобученная с использованием задачи шумоподавляющего автоэнкодера (например, BART или T5). Модель дообучается для задачи SC. Для заданного вопроса $q$ и варианта $o_i$ модель должна восстановить исходное, полностью сформированное предложение.

Входом для энкодера является искажённая последовательность (вопрос с пропусками). Декодер, основываясь на этом, должен сгенерировать исходное предложение. Вариант $o_i$ вставляется в пропуски $q$, чтобы создать целевую последовательность для декодера. Производительность модели оценивается по отрицательному логарифму правдоподобия генерации целевой последовательности при заданном входе.

2.3 Обучение и вывод

Во время обучения модель учится восстанавливать предложения из их замаскированных версий. Для вывода, при заданном вопросе $q$ и его вариантах $O$, модель вычисляет оценку $s_i$ для каждого варианта $o_i$: $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. Эксперименты и результаты

3.1 Набор данных

Использовался реальный набор данных, собранный с онлайн-платформы для образования K-12. Он содержит тысячи заданий SC, созданных профессиональными преподавателями английского языка для китайских студентов ESL. Набор данных характеризуется заданиями с 1-3 пропусками и качественными, семантически схожими дистракторами.

Статистика набора данных

Источник: Реальная онлайн-платформа K-12

Заданий: Несколько тысяч

Пропусков на задание: от 1 до 3

Вариантов на задание: от 3 до 5

3.2 Базовые модели

Предложенная модель сравнивалась с несколькими сильными базовыми моделями:

N-граммная языковая модель (LM): Традиционная статистическая модель, обученная на большом корпусе.
Blank LM [Shen et al.]: Специализированная итеративная языковая модель для заполнения пропусков.
Маскированная LM (например, BERT): Использование предобученной маскированной языковой модели для оценки вероятности токенов вариантов в позициях пропусков.
Модель «последовательность-последовательность» LM (без предобучения): Стандартная модель Transformer, обученная с нуля на задаче SC.

3.3 Основные результаты

Предложенная предобученная модель «последовательность-последовательность» значительно превзошла все базовые модели по точности предсказания на отложенном тестовом наборе. Ключевое преимущество проистекает из её предобучения на огромных текстовых корпусах, что наделяет её глубокими лингвистическими знаниями и знаниями о мире, критически важными для разрешения неоднозначности тонких дистракторов. Формулировка «последовательность-последовательность» также естественным образом обрабатывает множественные пропуски и варианты из нескольких токенов.

3.4 Анализ точности и полноты

В работе проведён анализ компромисса между точностью и полнотой для обсуждения практического развёртывания. Путём настройки порога оценки для принятия ответа систему можно настроить на высокую точность (предоставление обратной связи только при высокой уверенности, минимизация ошибок) или высокую полноту (попытка ответить на большее количество вопросов, возможно, с большим числом ошибок). Это критически важно для реальных образовательных приложений, где цена некорректной обратной связи высока.

4. Ключевые выводы и анализ

Основной вывод: Фунментальный прорыв работы заключается не просто в применении предобученной модели к новой задаче; это осознание того, что цель шумоподавления в модели «последовательность-последовательность» является почти идеальным аналогом когнитивного процесса решения заданий SC. Модель не просто выбирает слово; она мысленно «завершает» предложение и проверяет его связность — процесс, зеркально отражённый восстановлением полного предложения из замаскированной версии. Это более элегантный и мощный подход, чем просто использование маскированной LM для оценки отдельных токенов, который не учитывает взаимозависимости между несколькими пропусками.

Логическая цепочка: Аргументация убедительно проста: 1) Реальные задания ESL сложны из-за дистракторов, созданных экспертами, и сложных лингвистических ограничений. 2) Традиционным и даже ранним нейросетевым методам не хватает тонкого понимания для решения этой задачи. 3) Крупномасштабные предобученные LM, в частности те, что обучены с целью шумоподавления (как BART или T5), обладают этим тонким пониманием. 4) Следовательно, формулировка SC как задачи реконструкции последовательности с использованием этих моделей должна давать результаты на уровне современных достижений. Эксперименты надёжно подтверждают эту цепочку.

Сильные стороны и недостатки: Главная сила — концептуальная элегантность и эмпирический успех метода. Использование реального набора данных K-12, а не очищенного академического корпуса, добавляет огромную практическую достоверность. Анализ точности-полноты показывает вдумчивое отношение к развёртыванию. Основной недостаток, общий для многих работ по ИИ в образовании, — чёрный ящик решения. Оно не предоставляет объяснимую обратную связь — студент получает «D — правильно», но не «потому что "must" указывает на логическую определённость в первой части предложения, а "can't" является правильным отрицанием во второй части, основанным на свидетельстве "hates black color"». Как отмечено в обзоре 2022 года «Explainable AI for Education» (XAIED), этот недостаток интерпретируемости ограничивает прямую педагогическую полезность. Более того, производительность модели неразрывно связана с её данными предобучения, которые могут содержать смещения или недостаточно охватывать определённые паттерны ошибок ESL.

Практические инсайты: Для EdTech-компаний это исследование — готовый план действий. Первый шаг — дообучить модель, такую как T5 или BART, на собственных банках вопросов. Однако реальное конкурентное преимущество будет достигнуто не за счёт простой точности, а за счёт объяснимости. Следующая итерация должна интегрировать методы интерпретируемого ИИ — возможно, использование весов внимания для выделения наиболее релевантных частей предложения для выбранного ответа или генерация естественно-языковых обоснований. Во-вторых, основное применение этой технологии — не в высокостатусном тестировании, а в практике и формирующем оценивании. Интеграция в адаптивные обучающие платформы для генерации бесконечных персонализированных тренировочных заданий (путём маскирования слов в аутентичных текстах) является логичным и высокоценным направлением, переходом от решателя к генератору, как намекается во введении.

5. Технические детали

Модель использует фреймворк энкодер-декодер архитектуры Transformer. Цель предобучения критически важна. Для модели, такой как BART, она обучается путём искажения текста произвольной шумовой функцией (например, маскирование токенов, перестановка предложений, вращение документа) с последующим обучением восстановлению исходного текста. Это делает её идеальной для задачи SC, которая является контролируемой формой искажения и восстановления текста.

Цель дообучения — минимизировать перекрёстную энтропию между распределением выходов декодера и целевой последовательностью (предложением, завершённым правильным вариантом). Для батча данных функция потерь: $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. Пример аналитического фреймворка

Сценарий: Оценка модели-кандидата для задачи SC.

Применение фреймворка:

Декомпозиция задачи: Разбить задание SC: определить количество пропусков, требуемую часть речи или синтаксическую роль для каждого, а также семантическую связь между подсказками в предложении и правильным ответом.
Оценка модели: Для каждого варианта использовать модель для вычисления оценки последовательности $s_i$. Например, для вопроса "He _ to the store yesterday," с вариантами {go, went, goes}, модель присвоит наивысшую оценку последовательности "He went to the store yesterday" из-за правильного согласования по прошедшему времени.
Анализ ошибок: Если модель ошибается, проанализировать тип ошибки. Выбрала "go"? Это указывает на слабость в понимании грамматического времени. Выбрала "goes"? Это указывает на слабость в согласовании подлежащего и сказуемого. Этот анализ направляет дальнейший сбор данных или корректировку модели.
Оценка силы дистракторов: Использовать распределение оценок модели по вариантам. Высокая оценка для правильного ответа и очень низкие оценки для дистракторов указывают на лёгкий вопрос. Если два варианта имеют схожие высокие оценки, это указывает на качественный, запутывающий дистрактор, что ценно для диагностического оценивания.

Этот фреймворк выходит за рамки простой точности к диагностическому пониманию как возможностей студента, так и возможностей модели.

7. Будущие применения и направления

Интеграция объяснимого ИИ (XAI): Наиболее критичное направление — эволюция от «чёрного ящика»-решателя к «объяснимому» тьютору. Будущие модели должны генерировать обоснования, выделять ключевые свидетельства в предложении или даже идентифицировать конкретное проверяемое грамматическое правило.
Персонализированная генерация дистракторов: Модель можно использовать для генерации правдоподобных, но неправильных дистракторов, адаптированных к типичным паттернам ошибок студента, создавая гиперперсонализированную практику.
Автоматическая генерация вопросов (AQG): Обратить процесс. Имея текст, модель может определить ключевые слова для маскирования и сгенерировать правдоподобные дистракторы, автоматически создавая новые задания SC для банков практики, масштабируя создание контента.
Мультимодальное расширение: Для младших школьников или специфических контекстов задания SC могут включать изображения. Будущая работа может включать мультимодальные предобученные модели (как VL-T5) для решения или генерации вопросов, сочетающих текстовые и визуальные подсказки.
Кросс-лингвальный перенос: Применение фреймворка к другим языкам с использованием многоязычных предобученных моделей (как mT5), помощь студентам ESL, чей родной язык не китайский.

8. Ссылки

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.