Comparativa de Rendimiento de ChatGPT, Bing Chat y Bard en el Conjunto de Datos de Inglés del VNHSGE

1. Introducción

Este artículo presenta una comparativa de rendimiento de tres destacados modelos de lenguaje de gran escala (LLM, por sus siglas en inglés): ChatGPT de OpenAI (GPT-3.5), Bing Chat de Microsoft y Bard de Google, en el conjunto de datos de inglés del Examen de Graduación de la Escuela Secundaria de Vietnam (VNHSGE). El estudio tiene como objetivo evaluar sus capacidades en el contexto específico de la educación de inglés en las escuelas secundarias vietnamitas, especialmente dado que ChatGPT no está disponible oficialmente en Vietnam. La investigación aborda tres preguntas clave sobre el rendimiento de los modelos, la comparación con estudiantes humanos y las aplicaciones potenciales de los LLM en este entorno educativo.

2. Trabajos Relacionados

El artículo se sitúa en el contexto más amplio de la integración de la IA en la educación, destacando el potencial transformador de los LLM como las arquitecturas BERT y GPT.

2.1 Modelos de Lenguaje de Gran Escala

Los LLM, impulsados por arquitecturas de transformadores, han demostrado un potencial significativo en aplicaciones educativas, incluyendo el aprendizaje personalizado, el desarrollo de contenido y la traducción de idiomas. Sus habilidades conversacionales similares a las humanas los hacen adecuados para asistentes virtuales y sistemas de apoyo al aprendizaje en línea.

3. Metodología

La metodología central implica administrar el conjunto de datos de inglés del VNHSGE a los tres LLM. Es probable que el conjunto de datos consista en preguntas de examen estandarizadas que evalúan el dominio del idioma inglés a nivel de escuela secundaria. El rendimiento se mide por la precisión de las respuestas de los modelos en comparación con la clave de respuestas oficial.

4. Resultados Experimentales

Rendimiento de Bing Chat

92.4%

Precisión en el Conjunto de Datos de Inglés del VNHSGE

Rendimiento de Google Bard

86.0%

Precisión en el Conjunto de Datos de Inglés del VNHSGE

Rendimiento de ChatGPT (GPT-3.5)

79.2%

Precisión en el Conjunto de Datos de Inglés del VNHSGE

Hallazgos Clave:

Clasificación de Rendimiento: Microsoft Bing Chat (92.4%) superó tanto a Google Bard (86%) como a OpenAI ChatGPT (79.2%).
Implicación Práctica: Bing Chat y Bard se presentan como alternativas viables a ChatGPT para la educación de inglés en Vietnam, donde el acceso a ChatGPT está restringido.
Comparación Humana: Los tres LLM superaron el rendimiento promedio de los estudiantes vietnamitas de secundaria en la misma prueba de dominio de inglés, lo que indica su potencial como recursos de conocimiento superiores o ayudas de tutoría.

Descripción del Gráfico: Un gráfico de barras visualizaría efectivamente esta jerarquía de rendimiento, con el eje y representando la precisión (%) y el eje x enumerando los tres LLM. La barra de Bing Chat sería la más alta, seguida por Bard y luego ChatGPT. Una línea de referencia separada podría indicar la puntuación promedio de los estudiantes vietnamitas para una comparación directa.

5. Discusión

Los resultados demuestran el potencial significativo de los LLM disponibles comercialmente como herramientas para la educación del idioma inglés. El rendimiento superior de Bing Chat puede atribuirse a su integración con un motor de búsqueda, proporcionando acceso a información más actual o específica del contexto. El hecho de que todos los modelos superaran a los estudiantes humanos destaca un cambio de paradigma, donde la IA puede servir no solo como asistente sino como un punto de referencia de alta competencia, potencialmente personalizando la instrucción y proporcionando retroalimentación instantánea y precisa.

6. Análisis Original y Comentario Experto

Perspectiva Central: Este artículo no es solo un punto de referencia; es una señal de mercado. En una región (Vietnam) donde el modelo principal (ChatGPT) está restringido, la investigación identifica y valida proactivamente alternativas funcionales (Bing Chat, Bard), revelando un enfoque pragmático y orientado a la aplicación para la adopción de la IA en la educación. El hallazgo de que todos los LLM superan el rendimiento promedio de los estudiantes no es solo un punto académico; es una fuerza disruptiva, sugiriendo que el papel de la IA puede evolucionar de una herramienta complementaria a un agente didáctico primario o un punto de referencia.

Flujo Lógico y Fortalezas: La metodología es directa e impactante: usar un examen nacionalmente reconocido y de alto impacto como métrica de evaluación. Esto proporciona credibilidad inmediata y relacionable para educadores y responsables políticos. El enfoque en la accesibilidad ("lo que realmente está disponible") sobre la superioridad teórica es una fortaleza importante, haciendo que la investigación sea inmediatamente accionable. Se alinea con las tendencias señaladas por instituciones como el Stanford Institute for Human-Centered AI, que enfatizan la evaluación de la IA en contextos reales y restringidos.

Defectos y Brechas Críticas: El análisis es superficial. Informa puntuaciones pero ofrece poco sobre la naturaleza de los errores. ¿Fallaron los modelos en gramática, comprensión lectora o matices culturales? Esta evaluación de caja negra refleja una limitación en el campo mismo. Además, comparar con una puntuación "promedio" de estudiante es estadísticamente superficial. Un análisis más robusto, similar a la teoría de respuesta al ítem utilizada en psicometría, podría mapear la competencia del modelo a niveles de habilidad específicos en la prueba. El artículo también evita por completo el tema crítico de cómo integrar estas herramientas. Simplemente tener una IA de alta puntuación no se traduce en una pedagogía efectiva, un desafío ampliamente documentado en el International Journal of Artificial Intelligence in Education.

Perspectivas Accionables: Para educadores en mercados con acceso restringido similar, este artículo es un manual: 1) Establecer puntos de referencia locales: No confíes en el bombo global; prueba las herramientas disponibles contra tu plan de estudios específico. 2) Mira más allá del líder: Los modelos competitivos pueden ofrecer un rendimiento suficiente o contextualmente mejor. 3) Enfócate en el "cómo": La siguiente fase urgente de investigación debe pasar de si los LLM funcionan a cómo desplegarlos de manera responsable: diseñando indicaciones que fomenten el pensamiento crítico sobre la recuperación de respuestas, creando marcos para la evaluación aumentada por IA y abordando la equidad en el acceso. La verdadera victoria no será una puntuación de prueba de IA más alta, sino mejores resultados de aprendizaje humano.

7. Detalles Técnicos y Marco Matemático

Aunque el artículo no profundiza en las arquitecturas de los modelos, el rendimiento puede conceptualizarse a través de la lente de la probabilidad y la precisión de la tarea. La métrica de evaluación central es la precisión ($Acc$), definida como la proporción de ítems respondidos correctamente al número total de ítems ($N$).

$Acc = \frac{\text{Número de Respuestas Correctas}}{N} \times 100\%$

Para una comprensión más matizada, se podría modelar el rendimiento de un LLM en un ítem de prueba de opción múltiple como una distribución de probabilidad sobre las posibles respuestas. Sea la probabilidad del modelo de seleccionar la respuesta correcta $c$ de un conjunto de opciones $O$ como $P_M(c | q, \theta)$, donde $q$ es la pregunta y $\theta$ representa los parámetros del modelo y cualquier contexto recuperado (particularmente relevante para la aumentación de búsqueda de Bing Chat). La puntuación final es una agregación de estas probabilidades en todos los ítems. La brecha de rendimiento entre modelos sugiere diferencias significativas en sus representaciones internas $\theta$ o en sus mecanismos de aumentación de recuperación $R(q)$ para generar $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Marco de Análisis: Un Caso de Estudio Sin Código

Escenario: Un jefe de departamento de inglés en Hanoi quiere evaluar herramientas de IA para apoyar a estudiantes de 12º grado.

Aplicación del Marco:

Definir Objetivo Local: Mejorar el rendimiento de los estudiantes en las secciones de gramática y comprensión lectora del VNHSGE.
Identificación de Herramientas y Verificación de Acceso: Listar herramientas disponibles: Bing Chat (accesible), Google Bard (accesible), ChatGPT (requiere VPN, no soportado oficialmente). Priorizar las dos primeras basándose en los hallazgos de este artículo.
Puntos de Referencia Granulares: No solo usar exámenes pasados completos. Crear una prueba diagnóstica enfocada:
- Subconjunto A: 20 preguntas de gramática (tiempos verbales, preposiciones).
- Subconjunto B: 20 preguntas de comprensión lectora.
- Administrar los subconjuntos A y B a Bing Chat y Bard. Registrar no solo la precisión, sino también el razonamiento proporcionado en sus respuestas.
Análisis de Errores y Mapeo: Categorizar los errores cometidos por cada IA. Por ejemplo: "Bing Chat falló en 3/5 preguntas sobre el modo subjuntivo; Bard dio razonamientos concisos pero a veces incompletos para preguntas de inferencia."
Diseño de Integración: Basado en el análisis: Usar Bing Chat para explicaciones de ejercicios de gramática debido a su mayor precisión. Usar las respuestas de Bard como "respuestas modelo" para comprensión lectora, pero diseñar una hoja de trabajo para estudiantes que pregunte: "Compara el resumen de Bard con el tuyo. ¿Qué omitió?" Esto promueve la evaluación crítica en lugar de la aceptación pasiva.

Este marco va más allá de "qué IA es mejor" hacia "cómo podemos usar estratégicamente las fortalezas de cada IA dentro de nuestras limitaciones pedagógicas".

9. Aplicaciones Futuras y Direcciones de Investigación

Aplicaciones Inmediatas:

Sistemas de Tutoría Personalizada: Desplegar Bing Chat o Bard como la base para tutores de IA que proporcionen práctica y explicación bajo demanda, adaptados al plan de estudios del VNHSGE.
Generación Automatizada de Material: Usar estos LLM para crear preguntas de práctica, ensayos modelo y explicaciones simplificadas de textos complejos alineados con el currículo nacional.
Herramienta de Apoyo para Docentes: Asistir a los profesores en la calificación, proporcionar retroalimentación sobre la escritura de los estudiantes y generar ideas para planes de lección.

Direcciones de Investigación Críticas:

Ingeniería de Indicaciones para la Pedagogía: Investigación sistemática en el diseño de indicaciones que obliguen a los LLM a explicar el razonamiento, identificar conceptos erróneos de los estudiantes o estructurar el aprendizaje en lugar de solo dar respuestas.
Estudios de Impacto Longitudinal: ¿Usar un tutor LLM realmente mejora los resultados de aprendizaje de los estudiantes y las puntuaciones de los exámenes durante un semestre o un año? Se necesitan estudios controlados.
Evaluación Multimodal: Los exámenes futuros de alto impacto pueden incluir componentes orales. Evaluar las capacidades de reconocimiento y generación de voz de los LLM en un contexto educativo es la próxima frontera.
Equidad y Acceso: Investigación para mitigar el riesgo de ampliar la brecha digital, asegurando que los beneficios lleguen a estudiantes en escuelas con menos recursos sin internet o dispositivos confiables.
Adaptación Cultural y Contextual: Ajustar o desarrollar mecanismos de recuperación que permitan a los LLM globales comprender y referenciar mejor los materiales educativos, la historia y la cultura vietnamitas locales.

10. Referencias

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.