Avaliação de Modelos de Linguagem Neural como Modelos Cognitivos da Aquisição da Linguagem

1 Introdução

O artigo examina criticamente a tendência crescente de usar modelos de linguagem neural (MLNs) como substitutos para teorias da aquisição humana da linguagem. Embora os MLNs tenham alcançado sucesso notável em várias tarefas de PLN, sua relevância como modelos cognitivos é questionada devido a diferenças fundamentais na escala e na natureza dos dados de treinamento em comparação com a aprendizagem linguística infantil.

Os autores argumentam que os *benchmarks* de avaliação sintática populares (por exemplo, BLiMP, SyntaxGym) podem carecer da diversidade estrutural e da validade psicológica necessárias para avaliar se os MLNs adquirem a linguagem de maneira semelhante à humana. Eles defendem o uso de conjuntos de dados mais rigorosos e curados linguisticamente, como o conjunto de dados LI-Adger, que contém julgamentos de aceitabilidade graduais de falantes nativos.

1.1 Implicações para a Aquisição da Linguagem?

Esta seção destaca a gritante disparidade de dados: modelos como o BERT são treinados com bilhões de *tokens*, enquanto uma criança recebe apenas cerca de 10 milhões de palavras por ano. Trabalhos recentes tentam preencher essa lacuna treinando modelos com fala dirigida à criança (*child-directed speech* - CDS) em uma escala mais próxima da humana (por exemplo, 5 milhões de *tokens*). A questão central é se modelos treinados com essa entrada "reduzida" ainda podem ter bom desempenho em *benchmarks* comportamentais e, assim, servir como modelos cognitivos válidos.

2 Ideia Central: A Miragem da Avaliação Comparativa

A tese central do artigo é um desafio direto à complacência da comunidade de PLN. O desempenho impressionante em *benchmarks* sintéticos e padronizados, como o BLiMP, cria uma ilusão de competência gramatical. Os autores expõem isso como um artefato metodológico. Quando os MLNs são testados no conjunto de dados LI-Adger — um conjunto cuidadosamente construído de pares mínimos projetados por linguistas teóricos para investigar princípios sintáticos específicos — suas avaliações divergem significativamente dos julgamentos humanos. Isso não é apenas uma lacuna de desempenho; é evidência de um descompasso representacional fundamental. Os MLNs podem estar aprendendo padrões estatísticos superficiais que coincidentemente se alinham com modelos sintáticos simples, e não as estruturas hierárquicas e abstratas que sustentam a gramática humana.

3 Fluxo Lógico: Da Disparidade de Dados à Crítica Metodológica

O argumento prossegue com precisão cirúrgica. Primeiro, estabelece o abismo inegável de escala de dados entre o treinamento de MLNs e a aquisição infantil, enquadrando a pesquisa de "treinamento em pequena escala" como uma correção necessária, mas insuficiente. Segundo, demonstra que mesmo nesse campo nivelado (poucos dados), os MLNs podem ser igualados por *baselines* mais simples, questionando seu valor cognitivo adicional. O ponto de virada lógico é a crítica ao design dos *benchmarks*: tarefas padronizadas carecem da "diversidade estrutural" da investigação linguística real. A evidência final e condenatória vem do teste LI-Adger, onde o desempenho do MLN contradiz frontalmente a intuição linguística humana. O fluxo é: declaração do problema (descompasso de dados) -> tentativa de solução (treinamento em pequena escala) -> exposição do problema mais profundo (avaliação falha) -> contraevidência conclusiva.

4 Pontos Fortes e Fracos: Uma Dissecção Crítica

Pontos Fortes: O maior ponto forte do artigo é seu rigor metodológico e fundamentação interdisciplinar. Ele não apenas critica; oferece uma alternativa superior (LI-Adger). Ao vincular a avaliação à linguística teórica e à psicolinguística centrais, ele eleva o padrão do que constitui evidência de conhecimento "semelhante ao humano". O foco na escala de dados também é premonitório, alinhando-se com tendências mais amplas em ML eficiente.

Falhas e Omissões: A análise, embora afiada, potencialmente exagera o fracasso. A divergência no LI-Adger invalida todos os paralelos entre a aprendizagem de MLNs e a aquisição? Talvez não. O artigo poderia engajar-se mais com o que os MLNs realmente acertam e por quê. Além disso, ele se apoia fortemente no conhecimento sintático; um modelo cognitivo mais completo também deve considerar aspectos semânticos, pragmáticos e de aprendizagem social. O apelo por "dados mais realistas" é válido, mas pouco especificado — como modelamos a natureza multimodal, interativa e repleta de erros da entrada dirigida à criança?

5 Ideias Acionáveis: Um Caminho a Seguir

Para pesquisadores, o mandato é claro: abandonar o conforto dos *benchmarks* fáceis. Integrar recursos da linguística teórica (como o paradigma LI-Adger) e da psicologia do desenvolvimento em conjuntos de avaliação. Priorizar a criação de "*benchmarks* cognitivos" que testem as marcas da aprendizagem humana da linguagem: generalização a partir de dados esparsos, robustez ao ruído e adesão a princípios gramaticais abstratos. Para desenvolvedores de modelos, o objetivo deve mudar de maximizar pontuações em *benchmarks* para projetar arquiteturas e regimes de treinamento que sejam eficientes em dados e possam aprender a partir de entradas semelhantes às humanas (por exemplo, incorporando aprendizagem por currículo ou mecanismos de aprendizagem ativa inspirados no desenvolvimento). A ideia final: construir um verdadeiro modelo cognitivo é um problema diferente — e mais difícil — do que construir um sistema de PLN de alto desempenho.

6 Análise Original: O Abismo Cognitivo na Modelagem de Linguagem

Este artigo de Vázquez Martínez et al. apresenta uma crítica necessária e sóbria em uma era frequentemente deslumbrada pela escala. Ele identifica corretamente uma tensão fundamental: embora os MLNs modernos, especialmente os grandes modelos de linguagem (LLMs), exibam uma competência linguística superficial impressionante, seu caminho para essa competência é astronomicamente diferente do de uma criança. O foco dos autores na insuficiência dos *benchmarks* é particularmente astuto. Ele ecoa preocupações em outros domínios da IA, onde o desempenho em *benchmarks* não se traduz em inteligência robusta e generalizável. Por exemplo, em visão computacional, modelos que se destacam no ImageNet podem ser enganados por simples perturbações adversariais, revelando uma falta de verdadeira compreensão visual — um fenômeno detalhado em pesquisas de instituições como MIT e Google Brain. Da mesma forma, o artigo mostra que o sucesso dos MLNs no BLiMP pode ser um tipo similar de efeito "Clever Hans", onde os modelos exploram regularidades estatísticas na construção do *benchmark* em vez de aprender a regra sintática subjacente.

A defesa do conjunto de dados LI-Adger é a contribuição mais significativa do artigo. Ao fundamentar a avaliação em pares mínimos e julgamentos de aceitabilidade graduais — o padrão-ouro na sintaxe teórica — ele força os modelos a demonstrar conhecimento de gramaticalidade, e não apenas de probabilidade. A descoberta de que os MLNs falham aqui é reveladora. Ela sugere que as distribuições de probabilidade aprendidas a partir de vastos corpora de texto ($P(w_n | w_{1:n-1})$) não convergem necessariamente para os julgamentos categóricos ou graduais que caracterizam o conhecimento gramatical humano. Isso se alinha com os argumentos de linguistas como Noam Chomsky, que há muito sustentam que a aprendizagem estatística a partir de formas superficiais é insuficiente para explicar a pobreza do estímulo e a natureza abstrata das regras sintáticas.

No entanto, a conclusão do artigo não deve ser que os MLNs são irrelevantes para a ciência cognitiva. Em vez disso, ela reformula o desafio. O futuro está na modelagem "informada pela arquitetura cognitiva". Isso pode envolver a incorporação de vieses indutivos inspirados na teoria linguística (por exemplo, uma predisposição para estrutura hierárquica), como visto em algumas abordagens neuro-simbólicas, ou o design de objetivos de treinamento que vão além da previsão da próxima palavra. O trabalho de pesquisadores como Brenden Lake e Marco Baroni sobre aprendizagem com poucos exemplos e composicionalidade aponta nessa direção. O caminho a seguir não é descartar os MLNs, mas testá-los rigorosamente com os *benchmarks* cognitivos corretos e redesenhá-los iterativamente com base nas falhas, muito parecido com o ciclo de teoria e experimento em outras ciências.

7 Detalhes Técnicos e Estrutura Matemática

O principal método de avaliação discutido é usar as probabilidades de saída de um modelo de linguagem para prever julgamentos de aceitabilidade humana. Para uma frase $S = w_1, w_2, ..., w_n$, um MLN autorregressivo padrão atribui uma probabilidade: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ onde $\theta$ são os parâmetros do modelo. A surpresa (*surprisal*) ou log-verossimilhança negativa é frequentemente usada como um *proxy* para (in)aceitabilidade: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ A hipótese é que uma probabilidade mais alta (surpresa mais baixa) deve correlacionar-se com classificações de aceitabilidade humana mais altas. A descoberta crítica do artigo é que essa correlação se quebra no conjunto de dados LI-Adger, indicando uma desconexão entre a métrica de "gramaticalidade" baseada em probabilidade do MLN e o julgamento humano.

O artigo também faz referência a modelos treinados com fala dirigida à criança. O principal desafio técnico aqui é aprender a partir de conjuntos de dados muito pequenos ($\approx 5\times10^6$ *tokens*) em comparação com corpora padrão de MLN ($>10^9$ *tokens*). Isso requer arquiteturas e técnicas de treinamento eficientes para evitar o *overfitting* e extrair padrões generalizáveis de dados esparsos.

8 Resultados Experimentais e Análise de Gráficos

O artigo apresenta um resultado chave na Figura 1 (descrita no conteúdo PDF). O gráfico compara o desempenho de diferentes MLNs (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) no conjunto de dados LI-Adger em relação a uma *baseline* de desempenho humano.

Interpretação do Gráfico: A linha vertical que representa o desempenho humano atua como um *benchmark*. O gráfico provavelmente mostra o coeficiente de correlação (por exemplo, $\rho$ de Spearman) entre a surpresa do modelo e as classificações de aceitabilidade humana para cada MLN. A descoberta crítica é que todas as barras dos MLNs ficam significativamente abaixo da linha de *benchmark* humana. Isso demonstra visualmente a afirmação central do artigo: mesmo modelos especificamente treinados com dados semelhantes aos infantis (BabyBERTa, AO-CHILDES) não conseguem igualar os julgamentos humanos neste conjunto de dados sintaticamente matizado. A lacuna de desempenho indica que os objetivos atuais de treinamento de MLNs não levam à aquisição de conhecimento gramatical semelhante ao humano, conforme medido por este teste rigoroso.

9 Estrutura de Análise: O Estudo de Caso LI-Adger

Estrutura: Avaliação de MLNs como Modelos Cognitivos via Aceitabilidade de Pares Mínimos.

Objetivo: Determinar se a distribuição de probabilidade interna de um MLN se alinha com a intuição gramatical humana para frases estruturalmente contrastivas.

Procedimento:

Seleção de Estímulo: Usar um conjunto de dados como o LI-Adger, que consiste em pares mínimos (por exemplo, "Quem você acha que o João viu?" vs. "Quem você acha que o João viu?") onde uma variante é gramatical e a outra é menos aceitável ou agramatical, com base em um princípio sintático específico (por exemplo, o filtro "*that-trace*").
Consulta ao Modelo: Para cada frase $S$ em um par mínimo, calcular a surpresa média por *token* do modelo: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | contexto)$.
Geração de Previsão: O modelo "prefere" a frase com menor surpresa. Para um par mínimo (A, B), se $\text{Surprisal}(A) < \text{Surprisal}(B)$, o modelo prevê que A é mais aceitável.
Comparação com Dados Humanos: Comparar o padrão de preferência do modelo em centenas desses pares mínimos com os julgamentos de aceitabilidade agregados de participantes humanos. Calcular um coeficiente de correlação (por exemplo, $\rho$ de Spearman) entre a surpresa do modelo e as pontuações de classificação humana.
Interpretação: Uma correlação positiva alta e significativa sugeriria que o conhecimento do MLN se alinha com o julgamento sintático humano. Uma correlação baixa ou não significativa (como encontrada no artigo) indica uma divergência.

Exemplo Não-Código: Considere testar o conhecimento da concordância sujeito-verbo através de uma cláusula distratora: "A chave dos armários *estão/*está na mesa." Os humanos classificam robustamente "está" como correto. Um MLN que aprendeu a regra abstrata de concordância (sujeito 'chave' -> verbo 'está') deve atribuir maior probabilidade à frase correta. Um MLN que depende de estatísticas de n-gramas locais pode ser enganado pela proximidade de "armários" e preferir "estão". Aplicar a estrutura acima a muitos desses pares revela a natureza do conhecimento adquirido pelo MLN.

10 Aplicações Futuras e Direções de Pesquisa

1. Desenvolvimento de "*Benchmarks* Cognitivos": Uma direção importante é a criação de conjuntos de avaliação padronizados e multifacetados que vão além da sintaxe para incluir semântica, pragmática e marcos da aquisição da linguagem (por exemplo, explosão vocabular, erros de supergeneralização). Esses *benchmarks* devem ser codesenhados por linguistas computacionais, psicólogos do desenvolvimento e cientistas cognitivos.

2. Arquiteturas com Vieses Indutivos Linguísticos: Modelos futuros podem incorporar *priors* estruturais explícitos. Por exemplo, arquiteturas que inerentemente constroem representações hierárquicas ou impõem restrições sintáticas durante a geração, aproximando-se da estrutura de princípios e parâmetros na linguística.

3. Treinamento Interativo e Multimodal: Para simular melhor a aprendizagem infantil, os modelos poderiam ser treinados não em texto estático, mas em fluxos de dados interativos e multimodais (visão + fala + texto) dentro de um ambiente fundamentado, como explorado na pesquisa de IA incorporada (*embodied AI*).

4. Aprendizagem Eficiente em Dados e por Currículo: Desenvolver algoritmos de treinamento que tenham sucesso com ordens de magnitude a menos de dados, talvez implementando estratégias de aprendizagem por currículo que espelhem a progressão da complexidade na fala dirigida à criança.

5. Ponte para a Neurolinguística: Comparar as representações internas e a dinâmica de processamento dos MLNs com dados neurais de humanos (por exemplo, fMRI, EEG) durante tarefas de linguagem, como pioneiramente feito por pesquisadores do Instituto McGovern do MIT, poderia fornecer um novo nível de validação para modelos cognitivos.

11 Referências

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.