Comparaison des performances de ChatGPT, Bing Chat et Bard sur le jeu de données VNHSGE en anglais

1. Introduction

Cet article présente une comparaison des performances de trois modèles de langage de grande taille (LLM) éminents — ChatGPT d'OpenAI (GPT-3.5), Bing Chat de Microsoft et Bard de Google — sur le jeu de données d'anglais de l'examen de fin d'études secondaires vietnamien (VNHSGE). L'étude vise à évaluer leurs capacités dans le contexte spécifique de l'enseignement de l'anglais au lycée au Vietnam, d'autant que ChatGPT n'est pas officiellement disponible dans ce pays. La recherche aborde trois questions clés concernant les performances des modèles, leur comparaison avec les élèves humains et les applications potentielles des LLM dans ce contexte éducatif.

2. Travaux connexes

L'article se situe dans le contexte plus large de l'intégration de l'IA dans l'éducation, soulignant le potentiel transformateur des LLM comme les architectures BERT et GPT.

2.1 Modèles de langage de grande taille

Les LLM, alimentés par des architectures de type Transformer, ont démontré un potentiel significatif dans les applications éducatives, notamment l'apprentissage personnalisé, le développement de contenu et la traduction linguistique. Leurs capacités conversationnelles quasi humaines les rendent adaptés aux assistants virtuels et aux systèmes de soutien à l'apprentissage en ligne.

3. Méthodologie

La méthodologie principale consiste à soumettre le jeu de données VNHSGE en anglais aux trois LLM. Le jeu de données est probablement composé de questions de test standardisées évaluant la maîtrise de la langue anglaise au niveau du lycée. La performance est mesurée par la précision des réponses des modèles par rapport au corrigé officiel.

4. Résultats expérimentaux

Performance de Bing Chat

92,4%

Précision sur le jeu de données VNHSGE en anglais

Performance de Google Bard

86,0%

Précision sur le jeu de données VNHSGE en anglais

Performance de ChatGPT (GPT-3.5)

79,2%

Précision sur le jeu de données VNHSGE en anglais

Principales conclusions :

Classement des performances : Microsoft Bing Chat (92,4%) a surpassé à la fois Google Bard (86%) et OpenAI ChatGPT (79,2%).
Implication pratique : Bing Chat et Bard sont présentés comme des alternatives viables à ChatGPT pour l'enseignement de l'anglais au Vietnam, où l'accès à ChatGPT est restreint.
Comparaison avec les humains : Les trois LLM ont dépassé la performance moyenne des lycéens vietnamiens au même test de compétence en anglais, indiquant leur potentiel en tant que ressources de connaissances supérieures ou aides au tutorat.

Description du graphique : Un diagramme en barres visualiserait efficacement cette hiérarchie de performance, avec l'axe des ordonnées représentant la précision (%) et l'axe des abscisses listant les trois LLM. La barre de Bing Chat serait la plus haute, suivie de celle de Bard, puis de ChatGPT. Une ligne de référence séparée pourrait indiquer le score moyen des élèves vietnamiens pour une comparaison directe.

5. Discussion

Les résultats démontrent le potentiel significatif des LLM disponibles commercialement en tant qu'outils pour l'enseignement de la langue anglaise. La performance supérieure de Bing Chat peut être attribuée à son intégration avec un moteur de recherche, lui donnant accès à des informations plus actuelles ou spécifiques au contexte. Le fait que tous les modèles aient surpassé les élèves humains met en lumière un changement de paradigme, où l'IA peut servir non seulement d'assistant mais aussi de point de référence à haute compétence, permettant potentiellement de personnaliser l'enseignement et de fournir un retour d'information instantané et précis.

6. Analyse originale et commentaire d'expert

Idée centrale : Cet article n'est pas seulement un benchmark ; c'est un signal de marché. Dans une région (le Vietnam) où le modèle phare (ChatGPT) est verrouillé, la recherche identifie et valide de manière proactive des alternatives fonctionnelles (Bing Chat, Bard), révélant une approche pragmatique et axée sur l'application de l'adoption de l'IA dans l'éducation. Le constat que tous les LLM dépassent la performance moyenne des élèves n'est pas seulement un point académique — c'est une force disruptive, suggérant que le rôle de l'IA pourrait évoluer d'un outil complémentaire à un agent didactique principal ou à une référence.

Flux logique et points forts : La méthodologie est simple et percutante : utiliser un examen national reconnu et à enjeux élevés comme métrique d'évaluation. Cela confère une crédibilité immédiate et tangible pour les éducateurs et les décideurs. L'accent mis sur l'accessibilité (« ce qui est réellement disponible ») plutôt que sur la supériorité théorique est un point fort majeur, rendant la recherche immédiatement actionnable. Elle s'aligne sur les tendances notées par des institutions comme le Stanford Institute for Human-Centered AI, qui soulignent l'importance d'évaluer l'IA dans des contextes réels et contraints.

Faiblesses et lacunes critiques : L'analyse est superficielle. Elle rapporte des scores mais offre peu d'informations sur la nature des erreurs. Les modèles ont-ils échoué sur la grammaire, la compréhension écrite ou les nuances culturelles ? Cette évaluation en boîte noire reflète une limitation du domaine lui-même. De plus, la comparaison avec un score « moyen » d'élève est statistiquement peu profonde. Une analyse plus robuste, similaire à la théorie de la réponse à l'item utilisée en psychométrie, pourrait cartographier la compétence du modèle à des niveaux de compétence spécifiques du test. L'article évite également complètement la question critique du comment intégrer ces outils. Le simple fait de disposer d'une IA à haut score ne se traduit pas par une pédagogie efficace, un défi largement documenté dans l'International Journal of Artificial Intelligence in Education.

Perspectives actionnables : Pour les éducateurs sur des marchés à accès restreint similaires, cet article est un guide : 1) Établissez des références locales : Ne vous fiez pas au battage médiatique mondial ; testez les outils disponibles par rapport à votre programme spécifique. 2) Regardez au-delà du leader : Les modèles concurrents peuvent offrir des performances suffisantes ou contextuellement meilleures. 3) Concentrez-vous sur le « comment » : La prochaine phase de recherche urgente doit passer de la question si les LLM fonctionnent à comment les déployer de manière responsable — concevoir des prompts qui encouragent la pensée critique plutôt que la récupération de réponses, créer des cadres pour l'évaluation augmentée par l'IA et aborder l'équité d'accès. La vraie victoire ne sera pas un score de test d'IA plus élevé, mais l'amélioration des résultats d'apprentissage humains.

7. Détails techniques et cadre mathématique

Bien que l'article n'approfondisse pas les architectures des modèles, la performance peut être conceptualisée à travers le prisme de la probabilité et de la précision de la tâche. La métrique d'évaluation principale est la précision ($Acc$), définie comme le ratio des items correctement répondu sur le nombre total d'items ($N$).

$Acc = \frac{\text{Nombre de réponses correctes}}{N} \times 100\%$

Pour une compréhension plus nuancée, on pourrait modéliser la performance d'un LLM sur un item de test à choix multiples comme une distribution de probabilité sur les réponses possibles. Soit $P_M(c | q, \theta)$ la probabilité du modèle de sélectionner la bonne réponse $c$ parmi un ensemble d'options $O$, où $q$ est la question et $\theta$ représente les paramètres du modèle et tout contexte récupéré (particulièrement pertinent pour l'augmentation par recherche de Bing Chat). Le score final est une agrégation de ces probabilités sur tous les items. L'écart de performance entre les modèles suggère des différences significatives dans leurs représentations internes $\theta$ ou leurs mécanismes d'augmentation par récupération $R(q)$ pour générer $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Cadre d'analyse : une étude de cas sans code

Scénario : Un chef de département d'anglais à Hanoï souhaite évaluer des outils d'IA pour soutenir les élèves de Terminale.

Application du cadre :

Définir l'objectif local : Améliorer les performances des élèves sur les sections de grammaire et de compréhension écrite du VNHSGE.
Identification des outils et vérification de l'accès : Lister les outils disponibles : Bing Chat (accessible), Google Bard (accessible), ChatGPT (nécessite un VPN, non officiellement pris en charge). Prioriser les deux premiers sur la base des conclusions de cet article.
Benchmarking granulaire : Ne pas se contenter d'utiliser des sujets d'examen complets. Créer un test diagnostique ciblé :
- Sous-ensemble A : 20 questions de grammaire (temps, prépositions).
- Sous-ensemble B : 20 questions de compréhension écrite.
- Soumettre les sous-ensembles A et B à Bing Chat et Bard. Enregistrer non seulement la précision, mais aussi le raisonnement fourni dans leurs réponses.
Analyse et cartographie des erreurs : Catégoriser les erreurs commises par chaque IA. Par exemple : « Bing Chat a échoué sur 3/5 questions de mode subjonctif ; Bard a donné un raisonnement concis mais parfois incomplet pour les questions d'inférence. »
Conception de l'intégration : Sur la base de l'analyse : Utiliser Bing Chat pour les explications d'exercices de grammaire en raison de sa plus grande précision. Utiliser les réponses de Bard comme « réponses types » pour la compréhension écrite, mais concevoir une feuille de travail pour les élèves qui demande : « Comparez le résumé de Bard au vôtre. Qu'a-t-il manqué ? » Cela favorise l'évaluation critique plutôt que l'acceptation passive.

Ce cadre va au-delà de « quelle IA est meilleure » pour se concentrer sur « comment pouvons-nous utiliser stratégiquement les points forts de chaque IA dans nos contraintes pédagogiques ».

9. Applications futures et axes de recherche

Applications immédiates :

Systèmes de tutorat personnalisés : Déployer Bing Chat ou Bard comme socle pour des tuteurs IA fournissant des exercices et des explications à la demande, adaptés au programme du VNHSGE.
Génération automatisée de matériel : Utiliser ces LLM pour créer des questions d'entraînement, des dissertations types et des explications simplifiées de textes complexes alignés sur le programme national.
Outil de soutien aux enseignants : Aider les enseignants dans la notation, la fourniture de retours sur les écrits des élèves et la génération d'idées de plans de cours.

Axe de recherche critiques :

Ingénierie des prompts pour la pédagogie : Recherche systématique sur la conception de prompts qui obligent les LLM à expliquer leur raisonnement, à identifier les idées fausses des élèves ou à échafauder l'apprentissage plutôt que de simplement donner des réponses.
Études d'impact longitudinales : L'utilisation d'un tuteur LLM améliore-t-elle réellement les résultats d'apprentissage et les scores aux examens des élèves sur un semestre ou une année ? Des études contrôlées sont nécessaires.
Évaluation multimodale : Les futurs examens à enjeux élevés pourraient inclure des composantes orales. Évaluer les capacités de reconnaissance et de génération de la parole des LLM dans un contexte éducatif est la prochaine frontière.
Équité et accès : Recherche sur l'atténuation du risque d'élargissement de la fracture numérique — garantir que les avantages atteignent les élèves des écoles sous-dotées sans accès internet ou appareils fiables.
Adaptation culturelle et contextuelle : Affiner ou développer des mécanismes de récupération permettant aux LLM globaux de mieux comprendre et référencer les matériels éducatifs, l'histoire et la culture vietnamiens locaux.

10. Références

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.