Comparação de Desempenho do ChatGPT, Bing Chat e Bard no Conjunto de Dados VNHSGE de Inglês

1. Introdução

Este artigo apresenta uma comparação de desempenho de três proeminentes modelos de linguagem de grande porte (LLMs)—ChatGPT (GPT-3.5) da OpenAI, Bing Chat da Microsoft e Bard da Google—no conjunto de dados de Inglês do Exame Nacional do Ensino Médio Vietnamita (VNHSGE). O estudo visa avaliar as suas capacidades no contexto específico do ensino de inglês no ensino médio vietnamita, especialmente considerando que o ChatGPT não está oficialmente disponível no Vietname. A investigação aborda três questões-chave relativas ao desempenho dos modelos, à comparação com estudantes humanos e às potenciais aplicações dos LLMs neste contexto educativo.

2. Trabalhos Relacionados

O artigo situa-se no contexto mais amplo da integração da IA na educação, destacando o potencial transformador de LLMs como as arquiteturas BERT e GPT.

2.1 Modelos de Linguagem de Grande Porte

Os LLMs, impulsionados por arquiteturas de transformadores, demonstraram um potencial significativo em aplicações educativas, incluindo aprendizagem personalizada, desenvolvimento de conteúdo e tradução linguística. As suas capacidades conversacionais semelhantes às humanas tornam-nos adequados para assistentes virtuais e sistemas de apoio à aprendizagem online.

3. Metodologia

A metodologia central envolve a aplicação do conjunto de dados VNHSGE de Inglês aos três LLMs. O conjunto de dados provavelmente consiste em questões de teste padronizadas que avaliam a proficiência em língua inglesa ao nível do ensino médio. O desempenho é medido pela precisão das respostas dos modelos em comparação com o gabarito oficial.

4. Resultados Experimentais

Desempenho do Bing Chat

92.4%

Precisão no Conjunto de Dados VNHSGE de Inglês

Desempenho do Google Bard

86.0%

Precisão no Conjunto de Dados VNHSGE de Inglês

Desempenho do ChatGPT (GPT-3.5)

79.2%

Precisão no Conjunto de Dados VNHSGE de Inglês

Principais Conclusões:

Classificação de Desempenho: O Microsoft Bing Chat (92,4%) superou tanto o Google Bard (86%) como o OpenAI ChatGPT (79,2%).
Implicação Prática: O Bing Chat e o Bard são apresentados como alternativas viáveis ao ChatGPT para o ensino de inglês no Vietname, onde o acesso ao ChatGPT é restrito.
Comparação Humana: Todos os três LLMs superaram o desempenho médio dos estudantes vietnamitas do ensino médio no mesmo teste de proficiência em inglês, indicando o seu potencial como recursos de conhecimento superiores ou auxiliares de tutoria.

Descrição do Gráfico: Um gráfico de barras visualizaria eficazmente esta hierarquia de desempenho, com o eixo y representando a precisão (%) e o eixo x listando os três LLMs. A barra do Bing Chat seria a mais alta, seguida pela do Bard e depois pela do ChatGPT. Uma linha de referência separada poderia indicar a pontuação média dos estudantes vietnamitas para comparação direta.

5. Discussão

Os resultados demonstram o potencial significativo dos LLMs disponíveis comercialmente como ferramentas para o ensino da língua inglesa. O desempenho superior do Bing Chat pode ser atribuído à sua integração com um motor de busca, proporcionando acesso a informações mais atuais ou específicas do contexto. O facto de todos os modelos terem superado os estudantes humanos destaca uma mudança de paradigma, em que a IA pode servir não apenas como assistente, mas como um ponto de referência de alta competência, potencialmente personalizando o ensino e fornecendo feedback instantâneo e preciso.

6. Análise Original & Comentário de Especialistas

Perceção Central: Este artigo não é apenas um benchmark; é um sinal de mercado. Numa região (Vietname) onde o modelo principal (ChatGPT) está bloqueado, a investigação identifica e valida proativamente alternativas funcionais (Bing Chat, Bard), revelando uma abordagem pragmática e centrada na aplicação à adoção da IA na educação. A constatação de que todos os LLMs superam o desempenho médio dos estudantes não é apenas um ponto académico—é uma força disruptiva, sugerindo que o papel da IA pode evoluir de uma ferramenta suplementar para um agente didático primário ou referência.

Fluxo Lógico & Pontos Fortes: A metodologia é direta e impactante: usar um exame nacionalmente reconhecido e de alta importância como métrica de avaliação. Isto proporciona credibilidade imediata e relacionável para educadores e decisores políticos. O foco na acessibilidade ("o que está realmente disponível") em vez da superioridade teórica é um grande ponto forte, tornando a investigação imediatamente acionável. Alinha-se com tendências observadas por instituições como o Stanford Institute for Human-Centered AI, que enfatizam a avaliação da IA em contextos reais e limitados.

Falhas & Lacunas Críticas: A análise é superficial. Relata pontuações, mas oferece pouco sobre a natureza dos erros. Os modelos falharam em gramática, compreensão de leitura ou nuance cultural? Esta avaliação de caixa preta reflete uma limitação no próprio campo. Além disso, comparar com uma pontuação "média" dos estudantes é estatisticamente superficial. Uma análise mais robusta, semelhante à teoria de resposta ao item usada em psicometria, poderia mapear a proficiência do modelo para níveis específicos de habilidade no teste. O artigo também ignora completamente a questão crítica de como integrar estas ferramentas. Simplesmente ter uma IA com pontuação alta não se traduz em pedagogia eficaz, um desafio amplamente documentado no International Journal of Artificial Intelligence in Education.

Perceções Acionáveis: Para educadores em mercados com acesso restrito semelhante, este artigo é um manual: 1) Faça benchmark localmente: Não confie no hype global; teste as ferramentas disponíveis em relação ao seu currículo específico. 2) Olhe para além do líder: Modelos concorrentes podem oferecer desempenho suficiente ou contextualmente melhor. 3) Foque no "como": A próxima fase urgente de investigação deve passar de se os LLMs funcionam para como implantá-los de forma responsável—projetando prompts que incentivem o pensamento crítico em vez da recuperação de respostas, criando estruturas para avaliação aumentada por IA e abordando a equidade no acesso. A verdadeira vitória não será uma pontuação de teste de IA mais alta, mas resultados de aprendizagem humana melhorados.

7. Detalhes Técnicos & Estrutura Matemática

Embora o artigo não se aprofunde nas arquiteturas dos modelos, o desempenho pode ser conceptualizado através da lente da probabilidade e da precisão da tarefa. A métrica de avaliação central é a precisão ($Acc$), definida como a proporção de itens respondidos corretamente para o número total de itens ($N$).

$Acc = \frac{\text{Número de Respostas Corretas}}{N} \times 100\%$

Para uma compreensão mais matizada, poder-se-ia modelar o desempenho de um LLM num item de teste de escolha múltipla como uma distribuição de probabilidade sobre as respostas possíveis. Seja a probabilidade do modelo selecionar a resposta correta $c$ de um conjunto de opções $O$ igual a $P_M(c | q, \theta)$, onde $q$ é a pergunta e $\theta$ representa os parâmetros do modelo e qualquer contexto recuperado (particularmente relevante para o aumento de pesquisa do Bing Chat). A pontuação final é uma agregação destas probabilidades em todos os itens. A diferença de desempenho entre os modelos sugere diferenças significativas nas suas representações internas $\theta$ ou nos seus mecanismos de aumento por recuperação $R(q)$ para gerar $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Estrutura de Análise: Um Estudo de Caso Sem Código

Cenário: Um chefe de departamento de inglês em Hanói quer avaliar ferramentas de IA para apoiar estudantes do 12º ano.

Aplicação da Estrutura:

Definir Objetivo Local: Melhorar o desempenho dos estudantes nas secções de gramática e compreensão de leitura do VNHSGE.
Identificação de Ferramentas & Verificação de Acesso: Listar ferramentas disponíveis: Bing Chat (acessível), Google Bard (acessível), ChatGPT (requer VPN, não suportado oficialmente). Priorizar as duas primeiras com base nas conclusões deste artigo.
Benchmarking Granular: Não usar apenas exames completos anteriores. Criar um teste de diagnóstico focado:
- Subconjunto A: 20 questões de gramática (tempos verbais, preposições).
- Subconjunto B: 20 questões de compreensão de leitura.
- Administrar os subconjuntos A e B ao Bing Chat e ao Bard. Registar não apenas a precisão, mas também o raciocínio fornecido nas suas respostas.
Análise de Erros & Mapeamento: Categorizar os erros cometidos por cada IA. Por exemplo: "O Bing Chat falhou em 3/5 questões de modo subjuntivo; o Bard deu raciocínios concisos, mas por vezes incompletos, para questões de inferência."
Design de Integração: Com base na análise: Usar o Bing Chat para explicações de exercícios de gramática devido à maior precisão. Usar as respostas do Bard como "respostas modelo" para compreensão de leitura, mas projetar uma folha de trabalho para estudantes que pergunte: "Compare o resumo do Bard com o seu. O que é que ele omitiu?" Isto promove a avaliação crítica em vez da aceitação passiva.

Esta estrutura vai além de "qual IA é melhor" para "como podemos usar os pontos fortes de cada IA estrategicamente dentro das nossas restrições pedagógicas".

9. Aplicações Futuras & Direções de Pesquisa

Aplicações Imediatas:

Sistemas de Tutoria Personalizada: Implantar o Bing Chat ou o Bard como base para tutores de IA que fornecem prática e explicação sob demanda, adaptados ao programa do VNHSGE.
Geração Automática de Materiais: Usar estes LLMs para criar questões de prática, ensaios modelo e explicações simplificadas de textos complexos alinhados com o currículo nacional.
Ferramenta de Apoio ao Professor: Auxiliar os professores na classificação, no fornecimento de feedback sobre a escrita dos estudantes e na geração de ideias para planos de aula.

Direções de Pesquisa Críticas:

Engenharia de Prompts para Pedagogia: Investigação sistemática sobre o design de prompts que forcem os LLMs a explicar o raciocínio, identificar conceções erróneas dos estudantes ou estruturar a aprendizagem, em vez de apenas dar respostas.
Estudos de Impacto Longitudinal: Usar um tutor de LLM melhora realmente os resultados de aprendizagem dos estudantes e as pontuações nos exames ao longo de um semestre ou ano? São necessários estudos controlados.
Avaliação Multimodal: Futuros exames de alta importância podem incluir componentes orais. Avaliar as capacidades de reconhecimento e geração de fala dos LLMs num contexto educativo é a próxima fronteira.
Equidade e Acesso: Investigação sobre a mitigação do risco de alargar a divisão digital—garantindo que os benefícios chegam a estudantes em escolas com menos recursos, sem internet ou dispositivos fiáveis.
Adaptação Cultural & Contextual: Afinar ou desenvolver mecanismos de recuperação que permitam que os LLMs globais compreendam e refiram melhor materiais educativos, história e cultura vietnamitas locais.

10. Referências

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.