Оценка нейросетевых языковых моделей как когнитивных моделей усвоения языка

1 Введение

В статье критически рассматривается растущая тенденция использования нейросетевых языковых моделей (ЯМ) в качестве аналогов теорий усвоения языка человеком. Несмотря на впечатляющие успехи ЯМ в решении различных задач NLP, их релевантность в качестве когнитивных моделей ставится под сомнение из-за фундаментальных различий в масштабе и природе обучающих данных по сравнению с процессом усвоения языка ребенком.

Авторы утверждают, что популярные синтаксические оценочные бенчмарки (например, BLiMP, SyntaxGym) могут не обладать необходимой структурной вариативностью и психологической валидностью для оценки того, усваивают ли ЯМ язык человекообразным способом. Они выступают за использование более строгих, лингвистически курируемых наборов данных, таких как набор данных LI-Adger, который содержит градуированные суждения о приемлемости от носителей языка.

1.1 Последствия для усвоения языка?

В этом разделе подчеркивается разительное различие в данных: модели вроде BERT обучаются на миллиардах токенов, в то время как ребенок получает всего около 10 миллионов слов в год. Недавние работы пытаются преодолеть этот разрыв, обучая модели на речи, адресованной детям (child-directed speech, CDS), в более человекообразном масштабе (например, 5 млн токенов). Ключевой вопрос заключается в том, могут ли модели, обученные на таком "урезанном" вводе, по-прежнему хорошо справляться с поведенческими бенчмарками и, следовательно, служить валидными когнитивными моделями.

2 Ключевая идея: Мираж бенчмаркинга

Основной тезис статьи представляет собой прямой вызов самоуспокоенности сообщества NLP. Впечатляющие результаты на шаблонных, синтетических бенчмарках, таких как BLiMP, создают иллюзию грамматической компетенции. Авторы разоблачают это как методологический артефакт. Когда ЯМ тестируются на наборе данных LI-Adger — тщательно сконструированном наборе минимальных пар, разработанном теоретическими лингвистами для исследования конкретных синтаксических принципов — их оценки существенно расходятся с человеческими суждениями. Это не просто разрыв в производительности; это свидетельство фундаментального несоответствия в репрезентации. ЯМ, возможно, изучают поверхностные статистические закономерности, которые случайно совпадают с простыми синтаксическими шаблонами, а не абстрактные иерархические структуры, лежащие в основе человеческой грамматики.

3 Логика рассуждений: От различий в данных к методологической критике

Аргументация развивается с хирургической точностью. Во-первых, устанавливается неоспоримая пропасть в масштабе данных между обучением ЯМ и усвоением языка ребенком, представляя исследования по "обучению на малых данных" как необходимую, но недостаточную коррекцию. Во-вторых, демонстрируется, что даже на этом уравненном поле (малые данные) с ЯМ могут сравниться более простые базовые модели, что ставит под вопрос их дополнительную когнитивную ценность. Логический поворот — это критика дизайна бенчмарков: шаблонные задачи лишены "структурного разнообразия" настоящего лингвистического исследования. Окончательным, обличающим доказательством становятся результаты теста LI-Adger, где производительность ЯМ прямо противоречит человеческой лингвистической интуиции. Последовательность такова: постановка проблемы (несоответствие данных) -> попытка решения (обучение на малых данных) -> выявление более глубокой проблемы (несовершенная оценка) -> убедительное контрдоказательство.

4 Сильные стороны и недостатки: Критический разбор

Сильные стороны: Главное достоинство статьи — ее методологическая строгость и междисциплинарная основа. Она не просто критикует; она предлагает превосходную альтернативу (LI-Adger). Связывая оценку с ядром теоретической лингвистики и психолингвистики, она поднимает планку для того, что считается доказательством "человекообразного" знания. Акцент на масштабе данных также прозорлив и соответствует более широким тенденциям в области эффективного машинного обучения.

Недостатки и упущения: Анализ, будучи острым, потенциально преувеличивает неудачу. Означает ли расхождение на LI-Adger, что все параллели между обучением ЯМ и усвоением языка недействительны? Возможно, нет. Статья могла бы более подробно рассмотреть, что именно ЯМ делают правильно и почему. Кроме того, она сильно опирается на синтаксические знания; более полная когнитивная модель также должна учитывать семантические, прагматические и социальные аспекты обучения. Призыв к "более реалистичным данным" справедлив, но недостаточно конкретен — как нам моделировать мультимодальную, интерактивную и содержащую ошибки природу ввода, адресованного детям?

5 Практические рекомендации: Путь вперед

Для исследователей мандат ясен: отказаться от комфорта простых бенчмарков. Интегрировать ресурсы теоретической лингвистики (такие как парадигма LI-Adger) и психологии развития в оценочные наборы. Отдать приоритет созданию "когнитивных бенчмарков", которые проверяют характерные черты человеческого усвоения языка: обобщение на основе разреженных данных, устойчивость к шуму и следование абстрактным грамматическим принципам. Для разработчиков моделей цель должна сместиться с максимизации баллов на бенчмарках на проектирование архитектур и режимов обучения, которые эффективно используют данные и могут обучаться на человекообразном вводе (например, включая обучение по учебному плану или механизмы активного обучения, вдохновленные развитием). Ключевой вывод: построение истинной когнитивной модели — это иная (и более сложная) задача, чем создание производительной системы NLP.

6 Оригинальный анализ: Когнитивная пропасть в языковом моделировании

Эта статья Vázquez Martínez и др. представляет собой необходимую отрезвляющую критику в эпоху, часто ослепленную масштабом. Она верно определяет фундаментальное противоречие: хотя современные ЯМ, особенно большие языковые модели (LLM), демонстрируют впечатляющую поверхностную лингвистическую компетенцию, их путь к этой компетенции астрономически отличается от пути ребенка. Акцент авторов на недостаточности бенчмарков особенно проницателен. Он перекликается с проблемами в других областях ИИ, где производительность на бенчмарках не переходит в надежный, обобщаемый интеллект. Например, в компьютерном зрении модели, превосходно работающие на ImageNet, могут быть обмануты простыми состязательными возмущениями, что выявляет отсутствие истинного визуального понимания — феномен, подробно описанный в исследованиях таких институтов, как MIT и Google Brain. Аналогично, статья показывает, что успех ЯМ на BLiMP может быть подобным эффектом "Умного Ганса", когда модели используют статистические закономерности в конструкции бенчмарка, а не изучают лежащее в основе синтаксическое правило.

Выступление в пользу набора данных LI-Adger — наиболее значительный вклад статьи. Обосновывая оценку минимальными парами и градуированными суждениями о приемлемости — золотым стандартом в теоретическом синтаксисе — она заставляет модели демонстрировать знание грамматичности, а не просто правдоподобия. Тот факт, что ЯМ терпят здесь неудачу, красноречив. Это предполагает, что распределения вероятностей, изученные из обширных текстовых корпусов ($P(w_n | w_{1:n-1})$), не обязательно сходятся к категориальным или градуированным суждениям, которые характеризуют человеческое грамматическое знание. Это согласуется с аргументами лингвистов вроде Ноама Хомского, которые давно утверждали, что статистическое обучение на основе поверхностных форм недостаточно для объяснения "бедности стимула" и абстрактной природы синтаксических правил.

Однако вывод статьи не должен заключаться в том, что ЯМ не имеют отношения к когнитивной науке. Вместо этого она переформулирует вызов. Будущее лежит в "информированном когнитивной архитектурой" моделировании. Это может включать внедрение индуктивных смещений, вдохновленных лингвистической теорией (например, предрасположенность к иерархической структуре), как это видно в некоторых нейро-символических подходах, или разработку целей обучения, выходящих за рамки предсказания следующего слова. Работа исследователей вроде Брендена Лейка и Марко Барони по обучению с малым числом примеров и композициональности указывает в этом направлении. Путь вперед заключается не в отказе от ЯМ, а в их строгом тестировании на правильных когнитивных бенчмарках и итеративном перепроектировании на основе неудач, подобно циклу теории и эксперимента в других науках.

7 Технические детали и математический аппарат

Основной обсуждаемый метод оценки — использование выходных вероятностей языковой модели для предсказания человеческих суждений о приемлемости. Для предложения $S = w_1, w_2, ..., w_n$ стандартная авторегрессионная ЯМ присваивает вероятность: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ где $\theta$ — параметры модели. Неожиданность (surprisal) или отрицательное логарифмическое правдоподобие часто используется как прокси для (не)приемлемости: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ Гипотеза состоит в том, что более высокая вероятность (меньшая неожиданность) должна коррелировать с более высокими оценками приемлемости человеком. Ключевой вывод статьи заключается в том, что эта корреляция нарушается на наборе данных LI-Adger, что указывает на разрыв между основанной на вероятности метрикой "грамматичности" ЯМ и человеческим суждением.

В статье также упоминаются модели, обученные на речи, адресованной детям. Ключевая техническая задача здесь — обучение на очень маленьких наборах данных ($\approx 5\times10^6$ токенов) по сравнению со стандартными корпусами для ЯМ ($>10^9$ токенов). Это требует эффективных архитектур и методов обучения, чтобы избежать переобучения и извлекать обобщаемые закономерности из разреженных данных.

8 Экспериментальные результаты и анализ графиков

В статье представлен ключевой результат на Рисунке 1 (описанном в содержимом PDF). На графике сравнивается производительность различных ЯМ (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) на наборе данных LI-Adger с базовым уровнем человеческой производительности.

Интерпретация графика: Вертикальная линия, представляющая человеческую производительность, служит эталоном. На графике, вероятно, показан коэффициент корреляции (например, $\rho$ Спирмена) между неожиданностью модели и оценками приемлемости человеком для каждой ЯМ. Критический вывод заключается в том, что все столбцы ЯМ значительно не дотягивают до линии человеческого эталона. Это наглядно демонстрирует центральное утверждение статьи: даже модели, специально обученные на детских данных (BabyBERTa, AO-CHILDES), не могут соответствовать человеческим суждениям на этом синтаксически нюансированном наборе данных. Разрыв в производительности указывает на то, что текущие цели обучения ЯМ не приводят к усвоению человекообразного грамматического знания, измеряемого этим строгим тестом.

9 Аналитическая схема: Кейс-стади LI-Adger

Схема: Оценка ЯМ как когнитивных моделей через приемлемость минимальных пар.

Цель: Определить, соответствует ли внутреннее распределение вероятностей ЯМ человеческой грамматической интуиции для структурно контрастных предложений.

Процедура:

Выбор стимулов: Использовать набор данных, подобный LI-Adger, который состоит из минимальных пар (например, "Кого ты думаешь, что Джон видел?" vs. "Кого ты думаешь, Джон видел?"), где один вариант грамматичен, а другой менее приемлем или неграмматичен, на основе конкретного синтаксического принципа (например, фильтр "that-trace").
Запрос к модели: Для каждого предложения $S$ в минимальной паре вычислить среднюю неожиданность токена модели: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$.
Генерация предсказаний: Модель "предпочитает" предложение с меньшей неожиданностью. Для минимальной пары (A, B), если $\text{Surprisal}(A) < \text{Surprisal}(B)$, модель предсказывает, что A более приемлемо.
Сравнение с человеческими данными: Сравнить паттерн предпочтений модели по сотням таких минимальных пар с агрегированными суждениями о приемлемости от участников-людей. Рассчитать коэффициент корреляции (например, $\rho$ Спирмена) между неожиданностью модели и баллами оценок человека.
Интерпретация: Высокая, значимая положительная корреляция предполагала бы соответствие знаний ЯМ человеческому синтаксическому суждению. Низкая или незначимая корреляция (как обнаружено в статье) указывает на расхождение.

Пример без кода: Рассмотрим проверку знания согласования подлежащего и сказуемого через отвлекающее придаточное: "Ключ от шкафов *лежат/*лежит на столе." Люди уверенно оценивают "лежит" как правильный вариант. ЯМ, изучившая абстрактное правило согласования (подлежащее 'ключ' -> глагол 'лежит'), должна присваивать более высокую вероятность правильному предложению. ЯМ, полагающаяся на локальную статистику n-грамм, может быть введена в заблуждение близостью слова "шкафов" и предпочесть "лежат". Применение вышеуказанной схемы ко многим таким парам раскрывает природу приобретенных знаний ЯМ.

10 Будущие применения и направления исследований

1. Разработка "Когнитивных бенчмарков": Основное направление — создание стандартизированных, многогранных оценочных наборов, которые выходят за рамки синтаксиса и включают семантику, прагматику и вехи усвоения языка (например, скачок в словарном запасе, ошибки сверхобобщения). Эти бенчмарки должны быть совместно разработаны компьютерными лингвистами, психологами развития и когнитивными учеными.

2. Архитектуры с лингвистическими индуктивными смещениями: Будущие модели могут включать явные структурные априорные знания. Например, архитектуры, которые изначально строят иерархические репрезентации или обеспечивают соблюдение синтаксических ограничений во время генерации, приближаясь к принципам и параметрам в лингвистике.

3. Интерактивное и мультимодальное обучение: Чтобы лучше имитировать детское обучение, модели можно обучать не на статическом тексте, а на интерактивных, мультимодальных потоках данных (зрение + речь + текст) в рамках укорененной среды, как это исследуется в области воплощенного ИИ.

4. Обучение с эффективным использованием данных и по учебному плану: Разработка алгоритмов обучения, которые достигают успеха с на порядки меньшим объемом данных, возможно, путем реализации стратегий обучения по учебному плану, отражающих прогрессию сложности в речи, адресованной детям.

5. Связь с нейролингвистикой: Сравнение внутренних репрезентаций и динамики обработки ЯМ с нейронными данными от людей (например, фМРТ, ЭЭГ) во время языковых задач, как это начали делать исследователи из McGovern Institute при MIT, может обеспечить новый уровень валидации для когнитивных моделей.

11 Список литературы

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.