Resolução de Questões de Completamento de Frases em ESL através de Modelos de Linguagem Neural Pré-treinados

Índice

1. Introdução

As questões de Completamento de Frases (CF) são uma ferramenta fundamental na avaliação da proficiência em Inglês como Segunda Língua (ESL). Apresentam uma frase com uma ou mais lacunas e um conjunto de palavras ou expressões candidatas. Automatizar a resolução destas questões oferece benefícios significativos para aprendentes de línguas (feedback instantâneo), educadores (avaliação da qualidade das questões) e o desenvolvimento de sistemas de tutoria inteligente.

Abordagens computacionais anteriores, como modelos de linguagem n-gram ou modelos de linguagem especializados para lacunas, enfrentam desafios em contextos educacionais reais: distratores altamente confusos criados por profissionais, a necessidade de conhecimento linguístico profundo (gramática, sintaxe, semântica) e o número variável de lacunas e de *tokens* por lacuna.

Este trabalho propõe uma estrutura neural que aproveita modelos de linguagem de grande escala pré-treinados para enfrentar estes desafios, demonstrando um desempenho superior num conjunto de dados real de ESL do ensino básico e secundário (K-12).

2. A Nossa Abordagem

2.1 Formulação do Problema

Uma questão de CF é definida como um tuplo $(q, O)$, onde $q$ é a frase com $m$ lacunas denotadas por *tokens* `[MASK]`, e $O = \{o_1, o_2, ..., o_n\}$ é o conjunto de $n$ opções candidatas (tipicamente 3-5). Cada opção $o_i$ é uma sequência de *tokens* destinada a preencher todas as lacunas coletivamente. O objetivo é selecionar a opção $o^* \in O$ que torna a frase completada mais plausível.

2.2 Arquitetura do Modelo

O núcleo da abordagem é um modelo sequência-para-sequência baseado na arquitetura Transformer, pré-treinado usando um objetivo de autoencoder de remoção de ruído (por exemplo, BART ou T5). O modelo é afinado (*fine-tuned*) para a tarefa de CF. Para uma dada questão $q$ e uma opção $o_i$, a tarefa do modelo é reconstruir a frase original completa.

A entrada para o codificador (*encoder*) é a sequência corrompida (a questão com lacunas). O descodificador (*decoder*) é condicionado por esta e deve gerar a frase original. A opção $o_i$ é inserida nas lacunas de $q$ para criar a sequência alvo para o descodificador. O desempenho do modelo é pontuado pela log-verosimilhança negativa de gerar a sequência alvo dada a entrada.

2.3 Treino e Inferência

Durante o treino, o modelo aprende a reconstruir frases a partir das suas versões mascaradas. Para inferência, dada uma questão $q$ e as suas opções $O$, o modelo calcula uma pontuação $s_i$ para cada opção $o_i$: $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. Experiências & Resultados

3.1 Conjunto de Dados

Foi utilizado um conjunto de dados real recolhido de uma plataforma de educação *online* K-12. Contém milhares de questões de CF criadas por profissionais do ensino de inglês para aprendentes chineses de ESL. O conjunto de dados apresenta questões com 1-3 lacunas e distratores de alta qualidade e semanticamente semelhantes.

Estatísticas do Conjunto de Dados

Fonte: Plataforma *Online* K-12 do Mundo Real

Questões: Vários Milhares

Lacunas por Questão: 1 a 3

Opções por Questão: 3 a 5

3.2 Linhas de Base

O modelo proposto foi comparado com várias linhas de base robustas:

Modelo de Linguagem N-gram (ML): Um modelo estatístico tradicional treinado num grande corpus.
ML para Lacunas [Shen et al.]: Um modelo de linguagem iterativo especializado para preencher lacunas.
ML Mascarado (por exemplo, BERT): Usando um modelo de linguagem mascarado pré-treinado para pontuar a probabilidade dos *tokens* da opção nas posições das lacunas.
ML Sequência-para-Sequência (não pré-treinado): Um modelo Transformer padrão treinado do zero para a tarefa de CF.

3.3 Principais Resultados

O modelo sequência-para-sequência pré-treinado proposto superou significativamente todos os modelos de linha de base em termos de precisão de previsão no conjunto de teste reservado. A vantagem principal deriva do seu pré-treino em corpora de texto massivos, o que lhe confere conhecimento linguístico profundo e conhecimento do mundo, cruciais para desambiguar distratores subtis. A formulação sequência-para-sequência também lida naturalmente com múltiplas lacunas e opções de múltiplos *tokens*.

3.4 Análise de Precisão-Revocação

O artigo realizou uma análise de compromisso (*trade-off*) entre precisão e revocação para discutir a implementação prática. Ao ajustar o limiar de pontuação para aceitar uma resposta, o sistema pode ser afinado para alta precisão (fornecendo feedback apenas quando muito confiante, minimizando erros) ou alta revocação (tentando responder a mais questões, potencialmente com mais erros). Isto é crítico para aplicações educacionais reais onde o custo de um feedback incorreto é elevado.

4. Principais Conclusões & Análise

Conclusão Central: O avanço fundamental do artigo não é apenas aplicar um modelo pré-treinado a uma nova tarefa; é reconhecer que o *objetivo de remoção de ruído sequência-para-sequência* é um substituto quase perfeito para o processo cognitivo por trás da resolução de questões de CF. O modelo não está apenas a escolher uma palavra; está mentalmente a "completar" a frase e a verificar a coerência — um processo espelhado pela reconstrução da frase completa a partir de uma versão mascarada. Esta é uma abordagem mais elegante e poderosa do que simplesmente usar um ML Mascarado para pontuar *tokens* individuais, o que não captura as interdependências entre múltiplas lacunas.

Fluxo Lógico: O argumento é convincentemente simples: 1) As questões de ESL do mundo real são difíceis devido a distratores criados por especialistas e restrições linguísticas complexas. 2) Métodos tradicionais e até neurais iniciais carecem da compreensão matizada para enfrentar isto. 3) MLs de grande escala pré-treinados, especificamente aqueles treinados com um objetivo de remoção de ruído (como BART ou T5), possuem esta compreensão matizada. 4) Portanto, enquadrar a CF como uma tarefa de reconstrução de sequência usando estes modelos deve produzir resultados de última geração. As experiências validam robustamente este fluxo.

Pontos Fortes & Fraquezas: O principal ponto forte é a elegância conceptual e o sucesso empírico do método. O uso de um conjunto de dados K-12 do mundo real, e não de um corpus académico limpo, acrescenta uma credibilidade prática tremenda. A análise de precisão-revocação mostra uma consideração ponderada para a implementação. A fraqueza primária, comum a muitos artigos de IA na educação, é a natureza de *caixa preta* da solução. Não fornece feedback *explicável* — um aluno recebe "D está correto" mas não "porque 'must' indica certeza lógica na primeira oração, e 'can't' é a negação correta na segunda oração com base na evidência 'hates black color'." Como observado na revisão de 2022 "Explainable AI for Education" (XAIED), esta falta de interpretabilidade limita a utilidade pedagógica direta. Além disso, o desempenho do modelo está inerentemente ligado aos seus dados de pré-treino, que podem conter preconceitos (*biases*) ou não cobrir certos padrões de erro de ESL.

Conclusões Acionáveis: Para empresas de EdTech, esta investigação é um plano pronto a usar. O primeiro passo é afinar um modelo como T5 ou BART em bancos de questões proprietários. No entanto, a verdadeira vantagem competitiva não virá da mera precisão, mas da *explicabilidade*. A próxima iteração deve integrar técnicas de IA interpretável — talvez usando pesos de atenção para destacar as partes da frase mais relevantes para a resposta escolhida ou gerando justificações em linguagem natural. Em segundo lugar, a aplicação principal desta tecnologia não está em testes de alta importância (*high-stakes*), mas na *prática e avaliação formativa*. Integrá-la em plataformas de aprendizagem adaptativa para gerar infinitas questões de prática personalizadas (mascarando palavras em textos autênticos) é uma direção lógica e de alto valor, passando de um resolvedor para um gerador, como sugerido na introdução.

5. Detalhes Técnicos

O modelo aproveita a estrutura codificador-descodificador da arquitetura Transformer. O objetivo de pré-treino é crucial. Para um modelo como o BART, ele é treinado corrompendo texto com uma função de ruído arbitrária (por exemplo, mascaramento de *tokens*, permutação de frases, rotação de documentos) e depois aprendendo a reconstruir o texto original. Isto torna-o ideal para a tarefa de CF, que é uma forma controlada de corrupção e reconstrução de texto.

O objetivo de afinação (*fine-tuning*) é minimizar a perda de entropia cruzada entre a distribuição de saída do descodificador e a sequência alvo (a frase completada com a opção correta). Para um lote de dados, a função de perda é: $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. Exemplo de Estrutura de Análise

Cenário: Avaliar um modelo candidato para uma tarefa de CF.

Aplicação da Estrutura:

Decomposição da Tarefa: Desagregar a questão de CF: Identificar o número de lacunas, a classe gramatical ou função sintática necessária para cada uma, e a relação semântica entre as pistas da frase e a resposta correta.
Pontuação do Modelo: Para cada opção, usar o modelo para calcular a pontuação da sequência $s_i$. Por exemplo, para a questão "He _ to the store yesterday," com opções {go, went, goes}, o modelo pontuaria a sequência "He went to the store yesterday" mais alta devido à concordância correta do tempo passado.
Análise de Erros: Se o modelo falhar, analisar o modo de falha. Escolheu "go"? Isto sugere uma fraqueza na compreensão do tempo gramatical. Escolheu "goes"? Isto sugere uma fraqueza na concordância sujeito-verbo. Esta análise orienta a recolha de dados adicional ou o ajuste do modelo.
Avaliação da Força do Distrator: Usar a distribuição de pontuação do modelo entre as opções. Uma pontuação alta para a resposta correta e pontuações muito baixas para os distratores indica uma questão fácil. Se duas opções tiverem pontuações semelhantes e altas, indica um distrator de alta qualidade e confuso, o que é valioso para avaliação diagnóstica.

Esta estrutura vai além da simples precisão para uma compreensão diagnóstica das capacidades tanto do aluno como do modelo.

7. Aplicações Futuras & Direções

Integração de IA Explicável (XAI): A direção mais crítica é evoluir de um resolvedor de "caixa preta" para um "tutor explicável". Modelos futuros devem gerar racionais, destacar evidências-chave na frase ou até identificar a regra gramatical específica que está a ser testada.
Geração de Distratores Personalizados: O modelo pode ser usado para gerar distratores plausíveis mas incorretos adaptados aos padrões de erro comuns de um aluno, criando prática hiper-personalizada.
Geração Automática de Questões (GAQ): Inverter o processo. Dado um texto, o modelo pode identificar palavras-chave para mascarar e gerar distratores plausíveis, criando automaticamente novas questões de CF para bancos de prática, escalando massivamente a criação de conteúdo.
Extensão Multimodal: Para aprendentes mais jovens ou contextos específicos, questões de CF podem envolver imagens. Trabalhos futuros poderiam envolver modelos pré-treinados multimodais (como VL-T5) para resolver ou gerar questões que combinem pistas textuais e visuais.
Transferência Interlinguística: Aplicar a estrutura a outras línguas aproveitando modelos pré-treinados multilingues (como mT5), ajudando aprendentes de ESL cuja primeira língua não é o chinês.

8. Referências

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.