ChatGPT、Bing Chat与Bard在越南高中毕业会考英语数据集上的性能对比

1. 引言

本文对比了三种主流大语言模型——OpenAI的ChatGPT（GPT-3.5）、微软的Bing Chat和谷歌的Bard——在越南高中毕业会考英语数据集上的性能表现。本研究旨在评估它们在越南高中英语教育这一特定背景下的能力，尤其是在ChatGPT未在越南正式提供服务的情况下。研究围绕模型性能、与人类学生的对比以及LLMs在此教育场景中的潜在应用这三个关键问题展开。

2. 相关工作

本文的研究背景是人工智能在教育领域的广泛融合，重点探讨了BERT和GPT架构等大语言模型的变革潜力。

2.1 大语言模型

基于Transformer架构的大语言模型，在个性化学习、内容开发和语言翻译等教育应用中展现出巨大潜力。它们类人的对话能力使其非常适合作为虚拟助手和在线学习支持系统。

3. 方法论

核心方法是将越南高中毕业会考英语数据集提供给三个大语言模型进行测试。该数据集很可能包含评估高中阶段英语语言能力的标准化试题。通过将模型的回答与官方标准答案进行比对，以准确率来衡量其性能。

4. 实验结果

Bing Chat 表现

92.4%

在VNHSGE英语数据集上的准确率

Google Bard 表现

86.0%

在VNHSGE英语数据集上的准确率

ChatGPT (GPT-3.5) 表现

79.2%

在VNHSGE英语数据集上的准确率

主要发现：

性能排名： 微软Bing Chat（92.4%）的表现优于谷歌Bard（86%）和OpenAI ChatGPT（79.2%）。
实际意义： 在ChatGPT访问受限的越南，Bing Chat和Bard可作为英语教育的可行替代方案。
与人类对比： 三种大语言模型在相同英语能力测试上的表现均超过了越南高中生的平均水平，表明它们有潜力成为更优越的知识资源或辅导工具。

图表描述： 柱状图能有效可视化这种性能层级，Y轴代表准确率（%），X轴列出三种大语言模型。Bing Chat的柱状最高，其次是Bard，然后是ChatGPT。可以添加一条单独的基准线来标示越南学生的平均分数，以便直接对比。

5. 讨论

结果表明，商用大语言模型作为英语教育工具具有巨大潜力。Bing Chat的优异表现可能归因于其与搜索引擎的集成，使其能够获取更即时或更具情境性的信息。所有模型的表现都超越了人类学生，这突显了一种范式转变：人工智能不仅可以作为助手，还可以作为高能力的参考基准，从而可能实现个性化教学并提供即时、准确的反馈。

6. 原创分析与专家评论

核心见解： 本文不仅仅是一个基准测试；它是一个市场信号。在旗舰模型（ChatGPT）受限的地区（越南），本研究主动识别并验证了功能性替代方案（Bing Chat, Bard），揭示了教育领域采纳人工智能时一种务实的、应用优先的方法。所有大语言模型均超越学生平均水平的发现，不仅是一个学术观点，更是一种颠覆性力量，表明人工智能的角色可能从辅助工具演变为主要的教学主体或基准。

逻辑流程与优势： 方法论直接且具有影响力：使用全国公认的高风险考试作为评估指标。这为教育工作者和政策制定者提供了即时、可信的参考。研究重点在于“实际可用性”而非理论优越性，这是一个主要优势，使得研究成果可立即付诸实践。这与斯坦福以人为本人工智能研究所等机构指出的趋势一致，即强调在现实、受限的环境中评估人工智能。

缺陷与关键不足： 分析停留在表面。它报告了分数，但对错误的性质探讨甚少。模型是在语法、阅读理解还是文化细微差别上出错？这种黑盒评估反映了该领域自身的一个局限。此外，与“平均”学生分数进行比较在统计上是浅显的。更稳健的分析（类似于心理测量学中使用的项目反应理论）可以将模型能力映射到测试中的特定技能水平。本文也完全回避了如何整合这些工具的关键问题。仅仅拥有一个高分的人工智能并不能转化为有效的教学法，这一挑战在《国际教育人工智能杂志》中已有广泛记载。

可操作的见解： 对于身处类似访问受限市场的教育工作者，本文提供了一个行动指南：1）本地化基准测试： 不要依赖全球炒作；根据您的具体课程测试可用工具。2）超越领导者： 竞争模型可能提供足够或在特定情境下更好的性能。3）聚焦“如何做”： 下一个紧迫的研究阶段必须从是否有效转向如何负责任地部署它们——设计鼓励批判性思维而非答案检索的提示语，创建人工智能增强评估的框架，并解决访问公平性问题。真正的胜利将不是更高的人工智能测试分数，而是人类学习成果的改善。

7. 技术细节与数学框架

虽然本文未深入探讨模型架构，但可以通过概率和任务准确率的视角来概念化其性能。核心评估指标是准确率（$Acc$），定义为正确回答的项目数与总项目数（$N$）之比。

$Acc = \frac{\text{正确回答数}}{N} \times 100\%$

为了更细致地理解，可以将大语言模型在选择题项目上的表现建模为对可能答案的概率分布。设模型从选项集合$O$中选择正确答案$c$的概率为$P_M(c | q, \theta)$，其中$q$是问题，$\theta$代表模型的参数和任何检索到的上下文（这对Bing Chat的搜索增强功能尤其相关）。最终分数是所有项目上这些概率的聚合。模型之间的性能差距表明，它们在内部表示$\theta$或用于生成$P_M$的检索增强机制$R(q)$上存在显著差异。

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. 分析框架：一个非代码案例研究

场景： 河内一位英语系主任希望评估用于支持12年级学生的人工智能工具。

框架应用：

定义本地目标： 提高学生在VNHSGE语法和阅读理解部分的成绩。
工具识别与访问检查： 列出可用工具：Bing Chat（可访问）、Google Bard（可访问）、ChatGPT（需要VPN，非官方支持）。根据本文发现，优先考虑前两者。
精细化基准测试： 不要仅使用完整的历年试卷。创建一个聚焦的诊断测试：
- 子集A：20道语法题（时态、介词）。
- 子集B：20道阅读理解题。
- 将子集A和B提供给Bing Chat和Bard。不仅记录准确率，还要记录其答案中提供的推理过程。
错误分析与映射： 对每个人工智能所犯错误进行分类。例如：“Bing Chat在3/5的虚拟语气题目上出错；Bard对推理题给出了简洁但有时不完整的推理。”
整合设计： 基于分析：由于准确率更高，使用Bing Chat进行语法练习讲解。将Bard的回答作为阅读理解的“参考答案”，但设计一个学生工作表，提问：“将Bard的总结与你自己的进行对比。它遗漏了什么？”这促进了批判性评估，而非被动接受。

此框架超越了“哪个AI更好”，转向了“如何在我们的教学限制下战略性地利用每个AI的优势”。

9. 未来应用与研究展望

近期应用：

个性化辅导系统： 部署Bing Chat或Bard作为AI导师的核心，根据VNHSGE教学大纲提供按需练习和讲解。
自动化材料生成： 利用这些大语言模型创建与国家课程大纲一致的练习题、范文以及对复杂文本的简化解释。
教师支持工具： 协助教师进行评分、对学生写作提供反馈以及生成教案思路。

关键研究方向：

面向教学法的提示工程： 系统研究如何设计提示语，以迫使大语言模型解释推理过程、识别学生误解或搭建学习支架，而不仅仅是给出答案。
纵向影响研究： 使用大语言模型导师是否真的能在一个学期或一年内提高学生的学习成果和考试成绩？需要进行对照研究。
多模态评估： 未来的高风险考试可能包含口语部分。在教育背景下评估大语言模型的语音识别和生成能力是下一个前沿。
公平性与访问性： 研究如何缓解数字鸿沟扩大的风险——确保资源匮乏学校中无法获得可靠网络或设备的学生也能受益。
文化与情境适应： 对全球性大语言模型进行微调或开发检索机制，使其能更好地理解和引用越南本地的教育材料、历史和文化。

10. 参考文献

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT：优化用于对话的语言模型. OpenAI 博客.
Kasneci, E., 等. (2023). ChatGPT有益吗？论大语言模型在教育中的机遇与挑战. 学习与个体差异, 103, 102274.
Kung, T. H., 等. (2023). ChatGPT在美国医师执照考试上的表现：使用大语言模型进行AI辅助医学教育的潜力. PLOS数字健康, 2(2), e0000198.
斯坦福以人为本人工智能研究所 (HAI). (2023). 2023年人工智能指数年度报告. 斯坦福大学.
国际教育人工智能学会 (IAIED). 国际教育人工智能杂志.
Thorp, H. H. (2023). ChatGPT很有趣，但不是作者. 科学, 379(6630), 313.