Сравнение производительности ChatGPT, Bing Chat и Bard на наборе данных VNHSGE English

1. Введение

В данной статье представлено сравнение производительности трёх ведущих больших языковых моделей (БЯМ) — ChatGPT (GPT-3.5) от OpenAI, Bing Chat от Microsoft и Bard от Google — на наборе данных по английскому языку Вьетнамского выпускного экзамена для средней школы (VNHSGE). Исследование направлено на оценку их возможностей в специфическом контексте вьетнамского школьного образования по английскому языку, особенно с учётом того, что ChatGPT официально недоступен во Вьетнаме. Работа отвечает на три ключевых вопроса, касающихся производительности моделей, сравнения с учениками-людьми и потенциальных применений БЯМ в данной образовательной среде.

2. Связанные работы

Статья позиционирует себя в более широком контексте интеграции ИИ в образование, подчёркивая преобразующий потенциал БЯМ, таких как архитектуры BERT и GPT.

2.1 Большие языковые модели

БЯМ, основанные на архитектуре трансформеров, продемонстрировали значительный потенциал в образовательных приложениях, включая персонализированное обучение, разработку контента и перевод языков. Их способность вести диалог, подобно человеку, делает их пригодными для виртуальных помощников и систем поддержки онлайн-обучения.

3. Методология

Основная методология заключается в применении набора данных VNHSGE English к трём БЯМ. Набор данных, вероятно, состоит из стандартизированных тестовых вопросов, оценивающих уровень владения английским языком на уровне средней школы. Производительность измеряется точностью ответов моделей по сравнению с официальным ключом ответов.

4. Результаты эксперимента

Производительность Bing Chat

92.4%

Точность на наборе данных VNHSGE English

Производительность Google Bard

86.0%

Точность на наборе данных VNHSGE English

Производительность ChatGPT (GPT-3.5)

79.2%

Точность на наборе данных VNHSGE English

Ключевые выводы:

Рейтинг производительности: Microsoft Bing Chat (92.4%) превзошёл как Google Bard (86%), так и OpenAI ChatGPT (79.2%).
Практическое значение: Bing Chat и Bard представлены как жизнеспособные альтернативы ChatGPT для обучения английскому языку во Вьетнаме, где доступ к ChatGPT ограничен.
Сравнение с человеком: Все три БЯМ превзошли средние показатели вьетнамских школьников на том же тесте по английскому языку, что указывает на их потенциал в качестве превосходных источников знаний или помощников в обучении.

Описание диаграммы: Столбчатая диаграмма эффективно визуализирует эту иерархию производительности, где ось Y представляет точность (%), а ось X перечисляет три БЯМ. Столбец Bing Chat будет самым высоким, за ним последуют Bard и ChatGPT. Отдельная линия бенчмарка может указывать средний балл вьетнамских учеников для прямого сравнения.

5. Обсуждение

Результаты демонстрируют значительный потенциал коммерчески доступных БЯМ как инструментов для обучения английскому языку. Превосходная производительность Bing Chat может быть обусловлена его интеграцией с поисковой системой, что обеспечивает доступ к более актуальной или контекстно-зависимой информации. Тот факт, что все модели превзошли учеников-людей, подчёркивает смену парадигмы, когда ИИ может служить не просто помощником, а эталоном высокой компетентности, потенциально персонализируя обучение и предоставляя мгновенную точную обратную связь.

6. Оригинальный анализ и комментарии экспертов

Ключевая идея: Эта статья — не просто бенчмарк; это рыночный сигнал. В регионе (Вьетнам), где доступ к флагманской модели (ChatGPT) ограничен, исследование проактивно выявляет и валидирует функциональные альтернативы (Bing Chat, Bard), демонстрируя прагматичный, ориентированный на применение подход к внедрению ИИ в образовании. Находка о том, что все БЯМ превосходят средние показатели учеников, — не просто академический пункт; это разрушительная сила, предполагающая, что роль ИИ может эволюционировать от вспомогательного инструмента до основного дидактического агента или эталона.

Логика и сильные стороны: Методология проста и эффективна: использовать признанный на национальном уровне экзамен с высокими ставками в качестве метрики оценки. Это обеспечивает немедленную, понятную достоверность для педагогов и политиков. Акцент на доступности («что реально доступно») вместо теоретического превосходства является главным преимуществом, делающим исследование немедленно применимым на практике. Это согласуется с тенденциями, отмеченными такими институтами, как Стэнфордский институт человеко-ориентированного ИИ, которые подчёркивают важность оценки ИИ в реальных, ограниченных контекстах.

Недостатки и критические пробелы: Анализ поверхностный. Он сообщает баллы, но мало говорит о характере ошибок. Ошибались ли модели в грамматике, понимании прочитанного или культурных нюансах? Эта оценка «чёрного ящика» отражает ограничение в самой области. Более того, сравнение со «средним» баллом ученика статистически неглубоко. Более строгий анализ, аналогичный теории ответов на задания, используемой в психометрии, мог бы сопоставить уровень владения моделью с конкретными уровнями навыков в тесте. Статья также полностью обходит критический вопрос о том, как интегрировать эти инструменты. Просто наличие высоко оценивающего ИИ не означает эффективной педагогики — проблема, подробно описанная в International Journal of Artificial Intelligence in Education.

Практические рекомендации: Для педагогов на рынках с аналогичными ограничениями доступа эта статья — руководство к действию: 1) Проводите локальное тестирование: Не полагайтесь на глобальный ажиотаж; тестируйте доступные инструменты в соответствии с вашей конкретной учебной программой. 2) Смотрите дальше лидера: Конкурирующие модели могут предложить достаточную или контекстно лучшую производительность. 3) Сосредоточьтесь на «как»: Следующая срочная фаза исследований должна сместиться с вопроса, работают ли БЯМ, на вопрос, как их развертывать ответственно — разрабатывая промпты, которые поощряют критическое мышление, а не поиск ответов, создавая фреймворки для оценки с поддержкой ИИ и решая проблему равенства в доступе. Настоящая победа будет не в более высоком балле ИИ на тесте, а в улучшении результатов обучения людей.

7. Технические детали и математическая основа

Хотя статья не углубляется в архитектуры моделей, производительность можно концептуализировать через призму вероятности и точности выполнения задачи. Основная метрика оценки — точность ($Acc$), определяемая как отношение правильно отвеченных вопросов к общему количеству вопросов ($N$).

$Acc = \frac{\text{Количество правильных ответов}}{N} \times 100\%$

Для более тонкого понимания можно смоделировать производительность БЯМ на тестовом вопросе с множественным выбором как распределение вероятностей по возможным ответам. Пусть вероятность выбора моделью правильного ответа $c$ из набора вариантов $O$ равна $P_M(c | q, \theta)$, где $q$ — вопрос, а $\theta$ представляет параметры модели и любой извлечённый контекст (что особенно актуально для поискового дополнения Bing Chat). Итоговый балл — это агрегация этих вероятностей по всем вопросам. Разрыв в производительности между моделями предполагает значительные различия в их внутренних представлениях $\theta$ или механизмах дополнения поиском $R(q)$ для генерации $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Фреймворк анализа: пример без кода

Сценарий: Заведующий кафедрой английского языка в Ханое хочет оценить инструменты ИИ для поддержки учеников 12-го класса.

Применение фреймворка:

Определите локальную цель: Улучшить успеваемость учеников по разделам грамматики и понимания прочитанного в VNHSGE.
Идентификация инструментов и проверка доступа: Составьте список доступных инструментов: Bing Chat (доступен), Google Bard (доступен), ChatGPT (требует VPN, официально не поддерживается). Отдайте приоритет первым двум на основе выводов данной статьи.
Детальное тестирование: Не используйте только полные прошлые экзаменационные работы. Создайте целенаправленный диагностический тест:
- Подмножество A: 20 вопросов по грамматике (времена, предлоги).
- Подмножество B: 20 вопросов на понимание прочитанного.
- Примените подмножества A и B к Bing Chat и Bard. Записывайте не только точность, но и обоснование, предоставленное в их ответах.
Анализ ошибок и сопоставление: Классифицируйте ошибки, допущенные каждым ИИ. Например: «Bing Chat ошибся в 3 из 5 вопросов на сослагательное наклонение; Bard давал краткие, но иногда неполные обоснования для вопросов на вывод».
Проектирование интеграции: На основе анализа: используйте Bing Chat для объяснений грамматических упражнений из-за более высокой точности. Используйте ответы Bard в качестве «образцовых ответов» для понимания прочитанного, но разработайте рабочий лист для учеников с вопросом: «Сравните резюме Bard со своим. Что он упустил?» Это способствует критической оценке, а не пассивному принятию.

Этот фреймворк выходит за рамки вопроса «какой ИИ лучше» к вопросу «как мы можем стратегически использовать сильные стороны каждого ИИ в рамках наших педагогических ограничений».

9. Будущие применения и направления исследований

Немедленные применения:

Персонализированные системы репетиторства: Развёртывание Bing Chat или Bard в качестве основы для ИИ-репетиторов, предоставляющих практику и объяснения по запросу, адаптированные к учебной программе VNHSGE.
Автоматическая генерация материалов: Использование этих БЯМ для создания практических вопросов, образцов эссе и упрощённых объяснений сложных текстов, соответствующих национальной учебной программе.
Инструмент поддержки учителей: Помощь учителям в оценивании, предоставлении обратной связи по письменным работам учеников и генерации идей для планов уроков.

Критические направления исследований:

Инженерия промптов для педагогики: Систематическое исследование по разработке промптов, которые заставляют БЯМ объяснять рассуждения, выявлять заблуждения учеников или создавать поддерживающие структуры для обучения, а не просто давать ответы.
Лонгитюдные исследования влияния: Улучшает ли использование ИИ-репетитора реальные результаты обучения учеников и экзаменационные баллы в течение семестра или года? Необходимы контролируемые исследования.
Мультимодальная оценка: Будущие экзамены с высокими ставками могут включать устные компоненты. Оценка возможностей БЯМ в распознавании и генерации речи в образовательном контексте — следующая граница.
Равенство и доступ: Исследования по снижению риска увеличения цифрового разрыва — обеспечение того, чтобы преимущества достигали учеников в школах с ограниченными ресурсами без надёжного интернета или устройств.
Культурная и контекстная адаптация: Точная настройка или разработка механизмов извлечения, позволяющих глобальным БЯМ лучше понимать и ссылаться на местные вьетнамские образовательные материалы, историю и культуру.

10. Ссылки

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.