SQuAD: 100.000+ Perguntas para a Compreensão de Texto por Máquinas

1. Introdução e Visão Geral

Este documento analisa o artigo seminal de 2016 "SQuAD: 100.000+ Perguntas para a Compreensão de Texto por Máquinas" de Rajpurkar et al. da Universidade de Stanford. O artigo introduz o Stanford Question Answering Dataset (SQuAD), um benchmark de compreensão de leitura por máquinas (MRC) em larga escala e de alta qualidade. Antes do SQuAD, o campo era prejudicado por conjuntos de dados que eram ou muito pequenos para os modelos modernos "famintos" por dados, ou eram sintéticos e não refletiam tarefas genuínas de compreensão. O SQuAD preencheu essa lacuna fornecendo mais de 100.000 pares pergunta-resposta baseados em artigos da Wikipédia, onde cada resposta é um segmento contíguo de texto (um *span*) da passagem correspondente. Esta escolha de design criou uma tarefa bem definida, mas desafiadora, que desde então se tornou um pilar para a avaliação de modelos de PLN.

2. O Conjunto de Dados SQuAD

2.1 Construção e Estatísticas do Conjunto de Dados

O SQuAD foi construído utilizando trabalhadores da plataforma Amazon Mechanical Turk. Aos trabalhadores era apresentado um parágrafo da Wikipédia e solicitado que formulassem perguntas que pudessem ser respondidas por um segmento dentro desse parágrafo, e que destacassem o segmento da resposta. Este processo resultou num conjunto de dados com as seguintes estatísticas principais:

107.785

Pares Pergunta-Resposta

536

Artigos da Wikipédia

~20x

Maior que o MCTest

O conjunto de dados é dividido num conjunto de treino (87.599 exemplos), um conjunto de desenvolvimento (10.570 exemplos) e um conjunto de teste oculto usado para avaliação oficial no *leaderboard*.

2.2 Características e Design Principais

A inovação central do SQuAD reside na sua formulação de resposta baseada em segmentos de texto (*span-based*). Ao contrário de perguntas de múltipla escolha (ex.: MCTest) ou perguntas do tipo *cloze* (ex.: conjunto de dados CNN/Daily Mail), o SQuAD exige que os modelos identifiquem os índices exatos de início e fim da resposta dentro de uma passagem. Esta formulação:

Aumenta a Dificuldade: Os modelos devem avaliar todos os segmentos possíveis, não apenas alguns candidatos.
Permite Avaliação Precisa: As respostas são objetivas (correspondência de texto), permitindo avaliação automática usando métricas como *Exact Match* (EM) e pontuação F1 (sobreposição de *tokens*).
Reflete QA Realista: Muitas perguntas factuais em contextos do mundo real têm respostas que são segmentos de texto.

A Figura 1 do artigo ilustra exemplos de pares pergunta-resposta, como "O que faz com que a precipitação caia?" com a resposta "gravidade" extraída da passagem.

3. Análise e Metodologia

3.1 Dificuldade das Perguntas e Tipos de Raciocínio

Os autores realizaram uma análise qualitativa e quantitativa das perguntas. Categorizaram as perguntas com base na relação linguística entre a pergunta e a frase da resposta, utilizando distâncias na árvore de dependências. Por exemplo, mediram a distância na árvore de análise de dependências entre a palavra interrogativa (ex.: "o que", "onde") e a palavra principal do segmento da resposta. Descobriram que perguntas que exigiam caminhos de dependência mais longos ou transformações sintáticas mais complexas (ex.: paráfrase) eram mais desafiadoras para o seu modelo de referência.

3.2 Modelo de Referência: Regressão Logística

Para estabelecer uma referência, os autores implementaram um modelo de regressão logística. Para cada segmento candidato numa passagem, o modelo calculava uma pontuação baseada num conjunto rico de características, incluindo:

Características Lexicais: Sobreposição de palavras, correspondências de n-gramas entre a pergunta e o segmento.
Características Sintáticas: Características do caminho na árvore de dependências que conectam palavras da pergunta a palavras da resposta candidata.
Características de Alinhamento: Medidas de quão bem a pergunta e a frase que contém o candidato se alinham.

O objetivo do modelo era selecionar o segmento com a pontuação mais alta. O desempenho deste modelo baseado em engenharia de características forneceu uma referência não neural crucial para a comunidade.

4. Resultados Experimentais

O artigo relata os seguintes resultados principais:

Referência (Correspondência Simples de Palavras): Alcançou uma pontuação F1 de aproximadamente 20%.
Modelo de Regressão Logística: Alcançou uma pontuação F1 de 51,0% e uma pontuação *Exact Match* de 40,0%. Isto representou uma melhoria significativa, demonstrando o valor das características sintáticas e lexicais.
Desempenho Humano: Avaliado num subconjunto, anotadores humanos alcançaram uma pontuação F1 de 86,8% e uma EM de 76,2%.

A grande diferença entre a referência forte (51%) e o desempenho humano (87%) demonstrou claramente que o SQuAD apresentava um desafio substancial e significativo para pesquisas futuras.

5. Detalhes Técnicos e Estrutura

O desafio central de modelagem no SQuAD é enquadrado como um problema de seleção de segmentos. Dada uma passagem $P$ com $n$ *tokens* $[p_1, p_2, ..., p_n]$ e uma pergunta $Q$, o objetivo é prever o índice de início $i$ e o índice de fim $j$ (onde $1 \le i \le j \le n$) do segmento da resposta.

O modelo de regressão logística pontua um segmento candidato $(i, j)$ usando um vetor de características $\phi(P, Q, i, j)$ e um vetor de pesos $w$:

$\text{pontuação}(i, j) = w^T \cdot \phi(P, Q, i, j)$

O modelo é treinado para maximizar a probabilidade do segmento correto. As categorias de características principais incluíam:

Correspondência de Termos: Contagens de palavras da pergunta que aparecem no segmento candidato e no seu contexto.
Caminho na Árvore de Dependências: Codifica o caminho mais curto na árvore de dependências entre palavras da pergunta (como "o que" ou "quem") e a palavra principal da resposta candidata. O caminho é representado como uma cadeia de etiquetas de dependência e formas de palavras.
Tipo de Resposta: Heurísticas baseadas na palavra interrogativa (ex.: esperar uma pessoa para "quem", um local para "onde").

6. Análise Crítica e Perspectiva da Indústria

Percepção Central: O SQuAD não foi apenas mais um conjunto de dados; foi um catalisador estratégico. Ao fornecer um benchmark em larga escala, automaticamente avaliável, mas genuinamente difícil, fez pela Compreensão de Leitura o que o ImageNet fez pela visão computacional: criou um campo de jogo padronizado e de alto impacto que forçou toda a comunidade de PLN a focar o seu poder de engenharia e pesquisa. A referência de 51% de F1 não foi um fracasso—foi uma bandeira brilhantemente colocada numa colina distante, desafiando o campo a escalá-la.

Fluxo Lógico: A lógica do artigo é impecavelmente empreendedora. Primeiro, diagnosticar a lacuna do mercado: os conjuntos de dados de RC existentes são ou pequenos e de nicho (MCTest) ou massivos mas sintéticos e triviais (CNN/DM). Depois, definir as especificações do produto: deve ser grande (para redes neurais), de alta qualidade (criado por humanos) e ter avaliação objetiva (respostas baseadas em segmentos). Construí-lo através de *crowdsourcing*. Finalmente, validar o produto: mostrar uma referência forte que seja boa o suficiente para provar a viabilidade, mas má o suficiente para deixar uma lacuna de desempenho massiva, enquadrando-a explicitamente como um "problema desafiador". Isto é a criação de plataforma exemplar.

Pontos Fortes e Fraquezas: O ponto forte principal é o seu impacto monumental. O SQuAD alimentou diretamente a revolução do *transformer*/BERT; os modelos eram literalmente avaliados pela sua pontuação no SQuAD. No entanto, as suas fraquezas tornaram-se aparentes mais tarde. A restrição baseada em segmentos é uma faca de dois gumes—permite avaliação limpa, mas limita o realismo da tarefa. Muitas perguntas do mundo real exigem síntese, inferência ou respostas de múltiplos segmentos, que o SQuAD exclui. Isto levou a modelos que se tornaram especialistas em "caçar segmentos", por vezes sem compreensão profunda, um fenômeno explorado posteriormente em trabalhos como "What does BERT look at?" (Clark et al., 2019). Além disso, o foco do conjunto de dados na Wikipédia introduziu vieses e um limite de conhecimento.

Percepções Acionáveis: Para profissionais e investigadores, a lição está no design de conjuntos de dados como uma estratégia de pesquisa. Se quiser impulsionar o progresso num subcampo, não construa apenas um modelo ligeiramente melhor; construa o benchmark definitivo. Garanta que tem uma métrica de avaliação clara e escalável. Lance-o com uma referência forte, mas superável. O sucesso do SQuAD também alerta contra a sobre-otimização num único benchmark, uma lição que o campo aprendeu com a criação subsequente de sucessores mais diversos e desafiadores, como o HotpotQA (raciocínio multi-hop) e o Natural Questions (consultas reais de utilizadores). O artigo ensina-nos que a pesquisa mais influente frequentemente fornece não apenas uma resposta, mas a melhor pergunta possível.

7. Aplicações e Direções Futuras

O paradigma SQuAD influenciou numerosas direções no PLN e na IA:

Inovação na Arquitetura de Modelos: Motivou diretamente arquiteturas como BiDAF, QANet e os mecanismos de atenção nos Transformers que foram cruciais para o BERT.
Para Além da Extração de Segmentos: Conjuntos de dados sucessores expandiram o âmbito. O Natural Questions (NQ) usa consultas reais de pesquisa do Google e permite respostas longas, sim/não ou nulas. O HotpotQA exige raciocínio multi-documento e multi-hop. O CoQA e o QuAC introduzem QA conversacional.
QA Específico de Domínio: O formato SQuAD foi adaptado para documentos jurídicos (LexGLUE), textos médicos (PubMedQA) e suporte técnico.
IA Explicável (XAI): A resposta baseada em segmentos fornece uma forma natural, ainda que limitada, de explicação ("a resposta está aqui"). A pesquisa construiu sobre isto para gerar racionais mais abrangentes.
Integração com Bases de Conhecimento: Sistemas futuros provavelmente hibrificarão a compreensão de texto no estilo SQuAD com a recuperação de conhecimento estruturado, movendo-se em direção a uma resposta a perguntas verdadeiramente fundamentada em conhecimento, como visionado por projetos como o REALM da Google ou o RAG da Facebook.

8. Referências

Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2383–2392.
Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition.
Marcus, M. P., Marcinkiewicz, M. A., & Santorini, B. (1993). Building a large annotated corpus of English: The Penn Treebank. Computational linguistics, 19(2), 313-330.
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). Teaching machines to read and comprehend. Advances in neural information processing systems, 28.
Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What does BERT look at? An analysis of BERT's attention. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP.
Kwiatkowski, T., Palomaki, J., Redfield, O., Collins, M., Parikh, A., Alberti, C., ... & Petrov, S. (2019). Natural Questions: a Benchmark for Question Answering Research. Transactions of the Association for Computational Linguistics, 7, 452-466.