Évaluation des modèles de langage neuronaux en tant que modèles cognitifs de l'acquisition du langage

1 Introduction

Cet article examine de manière critique la tendance croissante à utiliser les modèles de langage neuronaux (LM) comme substituts aux théories de l'acquisition humaine du langage. Bien que les LM aient obtenu un succès remarquable sur diverses tâches de TAL, leur pertinence en tant que modèles cognitifs est remise en question en raison de différences fondamentales dans l'échelle et la nature des données d'entraînement par rapport à l'apprentissage du langage chez l'enfant.

Les auteurs soutiennent que les benchmarks d'évaluation syntaxique populaires (par exemple, BLiMP, SyntaxGym) peuvent manquer de la diversité structurelle et de la validité psychologique nécessaires pour évaluer si les LM acquièrent le langage de manière humaine. Ils préconisent l'utilisation d'ensembles de données plus rigoureux et élaborés par des linguistes, comme l'ensemble de données LI-Adger, qui contient des jugements d'acceptabilité gradués de locuteurs natifs.

1.1 Implications pour l'acquisition du langage ?

Cette section met en lumière la disparité flagrante des données : des modèles comme BERT sont entraînés sur des milliards de tokens, tandis qu'un enfant ne reçoit qu'environ 10 millions de mots par an. Des travaux récents tentent de combler cet écart en entraînant des modèles sur de la parole adressée à l'enfant (CDS) à une échelle plus humaine (par exemple, 5 millions de tokens). La question centrale est de savoir si les modèles entraînés sur une telle entrée « réduite » peuvent toujours bien performer sur des benchmarks comportementaux et ainsi servir de modèles cognitifs valides.

2 Idée centrale : Le mirage du benchmarking

La thèse centrale de l'article est un défi direct à la complaisance de la communauté du TAL. Les performances impressionnantes sur des benchmarks synthétiques et modélisés comme BLiMP créent une illusion de compétence grammaticale. Les auteurs dénoncent cela comme un artefact méthodologique. Lorsque les LM sont testés sur l'ensemble de données LI-Adger – un ensemble soigneusement construit de paires minimales conçues par des linguistes théoriciens pour sonder des principes syntaxiques spécifiques – leurs évaluations divergent significativement des jugements humains. Ce n'est pas seulement un écart de performance ; c'est la preuve d'un décalage représentationnel fondamental. Les LM pourraient apprendre des motifs statistiques de surface qui coïncident par hasard avec des modèles syntaxiques simples, et non les structures hiérarchiques abstraites qui sous-tendent la grammaire humaine.

3 Enchaînement logique : De la disparité des données à la critique méthodologique

L'argumentation progresse avec une précision chirurgicale. Premièrement, elle établit le fossé indéniable d'échelle de données entre l'entraînement des LM et l'acquisition chez l'enfant, présentant la recherche sur « l'entraînement à petite échelle » comme un correctif nécessaire mais insuffisant. Deuxièmement, elle démontre que même sur ce terrain nivelé (petites données), les LM peuvent être égalés par des modèles de base plus simples, remettant en question leur valeur cognitive ajoutée. Le pivot logique est la critique de la conception des benchmarks : les tâches modélisées manquent de la « diversité structurelle » d'une véritable enquête linguistique. La preuve finale et accablante vient du test LI-Adger, où la performance des LM contredit catégoriquement l'intuition linguistique humaine. L'enchaînement est : énoncé du problème (décalage des données) -> tentative de solution (entraînement à petite échelle) -> révélation d'un problème plus profond (évaluation défectueuse) -> contre-preuve concluante.

4 Forces et faiblesses : Une dissection critique

Forces : La plus grande force de l'article est sa rigueur méthodologique et son ancrage interdisciplinaire. Il ne se contente pas de critiquer ; il propose une alternative supérieure (LI-Adger). En liant l'évaluation à la linguistique théorique fondamentale et à la psycholinguistique, il relève la barre de ce qui constitue une preuve de connaissance « humaine ». L'accent mis sur l'échelle des données est également prémonitoire, s'alignant sur les tendances plus larges de l'apprentissage automatique efficace.

Faiblesses et omissions : L'analyse, bien que percutante, exagère potentiellement l'échec. La divergence sur LI-Adger invalide-t-elle tous les parallèles entre l'apprentissage des LM et l'acquisition ? Peut-être pas. L'article pourrait s'intéresser davantage à ce que les LM comprennent correctement et pourquoi. De plus, il s'appuie fortement sur la connaissance syntaxique ; un modèle cognitif complet doit également tenir compte des aspects sémantiques, pragmatiques et de l'apprentissage social. L'appel à des « données plus réalistes » est valable mais trop vague – comment modéliser la nature multimodale, interactive et pleine d'erreurs de l'entrée adressée à l'enfant ?

5 Perspectives concrètes : Une voie à suivre

Pour les chercheurs, le mandat est clair : abandonner le confort des benchmarks faciles. Intégrer les ressources de la linguistique théorique (comme le paradigme LI-Adger) et de la psychologie du développement dans les suites d'évaluation. Prioriser la création de « benchmarks cognitifs » qui testent les caractéristiques de l'apprentissage humain du langage : la généralisation à partir de données rares, la robustesse au bruit et l'adhésion à des principes grammaticaux abstraits. Pour les développeurs de modèles, l'objectif devrait passer de la maximisation des scores de benchmark à la conception d'architectures et de régimes d'entraînement économes en données et capables d'apprendre à partir d'entrées humaines (par exemple, en incorporant un apprentissage curriculaire ou des mécanismes d'apprentissage actif inspirés du développement). L'idée ultime : construire un véritable modèle cognitif est un problème différent – et plus difficile – que de construire un système de TAL performant.

6 Analyse originale : Le fossé cognitif dans la modélisation du langage

Cet article de Vázquez Martínez et al. apporte une critique nécessaire et salutaire à une époque souvent éblouie par l'échelle. Il identifie correctement une tension fondamentale : bien que les LM modernes, en particulier les grands modèles de langage (LLM), présentent une compétence linguistique impressionnante en surface, leur chemin vers cette compétence est astronomiquement différent de celui d'un enfant. L'accent mis par les auteurs sur l'insuffisance des benchmarks est particulièrement astucieux. Il fait écho aux préoccupations dans d'autres domaines de l'IA où la performance sur les benchmarks ne se traduit pas par une intelligence robuste et généralisable. Par exemple, en vision par ordinateur, les modèles qui excellent sur ImageNet peuvent être trompés par de simples perturbations adverses, révélant un manque de compréhension visuelle véritable – un phénomène détaillé dans des recherches d'institutions comme le MIT et Google Brain. De même, l'article montre que le succès des LM sur BLiMP pourrait être un effet « Clever Hans » similaire, où les modèles exploitent des régularités statistiques dans la construction du benchmark plutôt que d'apprendre la règle syntaxique sous-jacente.

La défense de l'ensemble de données LI-Adger est la contribution la plus significative de l'article. En ancrant l'évaluation dans des paires minimales et des jugements d'acceptabilité gradués – l'étalon-or en syntaxe théorique – il force les modèles à démontrer une connaissance de la grammaticalité, et pas seulement de la vraisemblance. Le constat que les LM échouent ici est révélateur. Il suggère que les distributions de probabilité apprises à partir de vastes corpus textuels ($P(w_n | w_{1:n-1})$) ne convergent pas nécessairement vers les jugements catégoriques ou gradués qui caractérisent la connaissance grammaticale humaine. Cela s'aligne avec les arguments de linguistes comme Noam Chomsky, qui soutiennent depuis longtemps que l'apprentissage statistique à partir de formes de surface est insuffisant pour expliquer la pauvreté du stimulus et la nature abstraite des règles syntaxiques.

Cependant, la conclusion de l'article ne devrait pas être que les LM sont sans rapport avec les sciences cognitives. Au contraire, il reformule le défi. L'avenir réside dans une modélisation « informée par l'architecture cognitive ». Cela pourrait impliquer d'incorporer des biais inductifs inspirés de la théorie linguistique (par exemple, une prédisposition pour la structure hiérarchique), comme on le voit dans certaines approches neuro-symboliques, ou de concevoir des objectifs d'entraînement qui vont au-delà de la prédiction du mot suivant. Les travaux de chercheurs comme Brenden Lake et Marco Baroni sur l'apprentissage en peu d'exemples et la compositionnalité vont dans cette direction. La voie à suivre n'est pas de rejeter les LM, mais de les tester rigoureusement contre les bons benchmarks cognitifs et de les reconcevoir itérativement en fonction des échecs, un peu comme le cycle théorie-expérience dans d'autres sciences.

7 Détails techniques et cadre mathématique

La méthode d'évaluation centrale discutée consiste à utiliser les probabilités de sortie d'un modèle de langage pour prédire les jugements d'acceptabilité humaine. Pour une phrase $S = w_1, w_2, ..., w_n$, un LM autorégressif standard attribue une probabilité : $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ où $\theta$ sont les paramètres du modèle. La surprisal ou log-vraisemblance négative est souvent utilisée comme proxy d'(in)acceptabilité : $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ L'hypothèse est qu'une probabilité plus élevée (surprisal plus faible) devrait corréler avec des scores d'acceptabilité humaine plus élevés. La découverte critique de l'article est que cette corrélation s'effondre sur l'ensemble de données LI-Adger, indiquant un décalage entre la métrique de « grammaticalité » basée sur la probabilité du LM et le jugement humain.

L'article mentionne également des modèles entraînés sur de la parole adressée à l'enfant. Le défi technique clé ici est d'apprendre à partir de très petits ensembles de données ($\approx 5\times10^6$ tokens) par rapport aux corpus LM standard ($>10^9$ tokens). Cela nécessite des architectures et des techniques d'entraînement efficaces pour éviter le surapprentissage et extraire des motifs généralisables à partir de données rares.

8 Résultats expérimentaux et analyse des graphiques

L'article présente un résultat clé dans la Figure 1 (décrite dans le contenu PDF). Le graphique compare la performance de différents LM (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) sur l'ensemble de données LI-Adger par rapport à une référence de performance humaine.

Interprétation du graphique : La ligne verticale représentant la performance humaine sert de référence. Le graphique montre probablement le coefficient de corrélation (par exemple, $\rho$ de Spearman) entre la surprisal du modèle et les scores d'acceptabilité humaine pour chaque LM. La découverte critique est que toutes les barres des LM restent significativement en deçà de la ligne de référence humaine. Cela démontre visuellement l'affirmation centrale de l'article : même les modèles spécifiquement entraînés sur des données de type enfantin (BabyBERTa, AO-CHILDES) ne parviennent pas à correspondre aux jugements humains sur cet ensemble de données syntaxiquement nuancé. L'écart de performance indique que les objectifs d'entraînement actuels des LM ne conduisent pas à l'acquisition d'une connaissance grammaticale humaine, telle que mesurée par ce test rigoureux.

9 Cadre d'analyse : L'étude de cas LI-Adger

Cadre : Évaluer les LM en tant que modèles cognitifs via l'acceptabilité des paires minimales.

Objectif : Déterminer si la distribution de probabilité interne d'un LM s'aligne avec l'intuition grammaticale humaine pour des phrases structurellement contrastives.

Procédure :

Sélection des stimuli : Utiliser un ensemble de données comme LI-Adger, qui consiste en des paires minimales (par exemple, « Who do you think that John saw? » vs. « Who do you think John saw? ») où une variante est grammaticale et l'autre moins acceptable ou agrammaticale, basée sur un principe syntaxique spécifique (par exemple, le filtre « that-trace »).
Interrogation du modèle : Pour chaque phrase $S$ d'une paire minimale, calculer la surprisal moyenne par token du modèle : $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | contexte)$.
Génération de prédiction : Le modèle « préfère » la phrase avec la surprisal la plus faible. Pour une paire minimale (A, B), si $\text{Surprisal}(A) < \text{Surprisal}(B)$, le modèle prédit que A est plus acceptable.
Comparaison aux données humaines : Comparer le schéma de préférence du modèle sur des centaines de telles paires minimales aux jugements d'acceptabilité agrégés des participants humains. Calculer un coefficient de corrélation (par exemple, $\rho$ de Spearman) entre la surprisal du modèle et les scores de notation humaine.
Interprétation : Une corrélation positive élevée et significative suggérerait que la connaissance du LM s'aligne avec le jugement syntaxique humain. Une corrélation faible ou non significative (comme trouvée dans l'article) indique une divergence.

Exemple non codé : Considérons le test de la connaissance de l'accord sujet-verbe à travers une proposition distrayante : « The key to the cabinets *are/*is on the table. » Les humains jugent robustement « is » comme correct. Un LM qui a appris la règle d'accord abstraite (sujet 'key' -> verbe 'is') devrait attribuer une probabilité plus élevée à la phrase correcte. Un LM s'appuyant sur des statistiques de n-grammes locaux pourrait être induit en erreur par la proximité de « cabinets » et préférer « are ». L'application du cadre ci-dessus à de nombreuses paires de ce type révèle la nature de la connaissance acquise par le LM.

10 Applications futures et axes de recherche

1. Développement de « benchmarks cognitifs » : Une direction majeure est la création de suites d'évaluation standardisées et multidimensionnelles qui vont au-delà de la syntaxe pour inclure la sémantique, la pragmatique et les étapes clés de l'acquisition du langage (par exemple, l'explosion lexicale, les erreurs de surgénéralisation). Ces benchmarks devraient être co-conçus par des linguistes computationnels, des psychologues du développement et des scientifiques cognitifs.

2. Architectures avec des biais inductifs linguistiques : Les futurs modèles pourraient incorporer des a priori structurels explicites. Par exemple, des architectures qui construisent intrinsèquement des représentations hiérarchiques ou appliquent des contraintes syntaxiques pendant la génération, se rapprochant du cadre des principes et paramètres en linguistique.

3. Entraînement interactif et multimodal : Pour mieux simuler l'apprentissage de l'enfant, les modèles pourraient être entraînés non pas sur du texte statique mais sur des flux de données interactifs et multimodaux (vision + parole + texte) dans un environnement ancré, comme exploré dans la recherche sur l'IA incarnée.

4. Apprentissage économe en données et curriculaire : Développer des algorithmes d'entraînement qui réussissent avec des ordres de grandeur de données en moins, peut-être en mettant en œuvre des stratégies d'apprentissage curriculaire qui reflètent la progression de la complexité dans la parole adressée à l'enfant.

5. Pont vers la neurolinguistique : Comparer les représentations internes et la dynamique de traitement des LM avec des données neuronales humaines (par exemple, IRMf, EEG) pendant des tâches langagières, comme initié par les travaux de chercheurs du McGovern Institute du MIT, pourrait fournir un nouveau niveau de validation pour les modèles cognitifs.

11 Références

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.