ChatGPT、Bing Chat同Bard喺VNHSGE英文數據集上嘅表現比較

1. 引言

本文比較咗三個主要嘅大型語言模型（LLM）——OpenAI嘅ChatGPT（GPT-3.5）、Microsoft嘅Bing Chat同Google嘅Bard——喺越南高中畢業試（VNHSGE）英文數據集上嘅表現。呢項研究旨在評估佢哋喺越南高中英文教育呢個特定情境下嘅能力，尤其考慮到ChatGPT喺越南並未正式提供服務。研究圍繞模型表現、同人類學生嘅比較，以及LLM喺呢個教育場景中嘅潛在應用呢三個關鍵問題展開。

2. 相關研究

本文將自身置於人工智能融入教育嘅更廣闊背景之中，強調咗BERT同GPT架構等LLM嘅變革潛力。

2.1 大型語言模型

由Transformer架構驅動嘅LLM，喺教育應用中展現出巨大潛力，包括個性化學習、內容開發同語言翻譯。佢哋類人嘅對話能力，令佢哋好適合用於虛擬助手同在線學習支援系統。

3. 研究方法

核心研究方法係將VNHSGE英文數據集用於測試呢三個LLM。該數據集可能包含評估高中水平英文能力嘅標準化試題。模型嘅表現係透過佢哋嘅回答同官方標準答案相比嘅準確率嚟衡量。

4. 實驗結果

Bing Chat 表現

92.4%

喺VNHSGE英文數據集上嘅準確率

Google Bard 表現

86.0%

喺VNHSGE英文數據集上嘅準確率

ChatGPT (GPT-3.5) 表現

79.2%

喺VNHSGE英文數據集上嘅準確率

主要發現：

表現排名： Microsoft Bing Chat（92.4%）表現優於Google Bard（86%）同OpenAI ChatGPT（79.2%）。
實際意義： 喺ChatGPT使用受限嘅越南，Bing Chat同Bard被視為英文教育中可行嘅替代方案。
與人類比較： 三個LLM喺同一個英文能力測試上嘅表現，都超越咗越南高中學生嘅平均水平，表明佢哋有潛力成為更優越嘅知識資源或輔助學習工具。

圖表描述： 柱狀圖可以有效咁視覺化呢個表現層級，Y軸代表準確率（%），X軸列出三個LLM。Bing Chat嘅柱會係最高，跟住係Bard，然後係ChatGPT。可以加一條獨立嘅基準線，標示越南學生嘅平均分數，以便直接比較。

5. 討論

結果顯示，市面可用嘅LLM作為英文教育工具具有巨大潛力。Bing Chat嘅優越表現可能歸因於佢同搜索引擎嘅整合，能夠獲取更多最新或特定情境嘅資訊。所有模型嘅表現都超越人類學生呢個事實，凸顯咗一個範式轉變：人工智能唔單止可以作為助手，更可以作為一個高能力嘅參考點，潛在地實現個性化教學，並提供即時、準確嘅反饋。

6. 原創分析與專家評論

核心見解： 呢篇論文唔單止係一個基準測試；佢係一個市場信號。喺旗艦模型（ChatGPT）受限嘅地區（越南），研究主動識別並驗證咗功能性替代方案（Bing Chat、Bard），揭示咗教育領域採用人工智能嘅一種務實、應用為先嘅方法。所有LLM都超越學生平均表現呢個發現，唔單止係一個學術觀點——佢係一股顛覆性力量，暗示人工智能嘅角色可能從輔助工具演變為主要嘅教學媒介或基準。

邏輯流程與優點： 研究方法直接而有力：用一個全國認可、高風險嘅考試作為評估指標。呢個為教育工作者同政策制定者提供咗即時、易於理解嘅可信度。研究重點放喺「實際可用性」而非理論優越性上，係一個主要優點，令研究結果可以立即付諸行動。佢同史丹福大學以人為本人工智能研究所等機構指出嘅趨勢一致，即強調喺現實、受限嘅情境中評估人工智能。

缺陷與關鍵不足： 分析流於表面。佢報告咗分數，但對錯誤嘅性質著墨甚少。模型係喺語法、閱讀理解定文化細微差別上出錯？呢種黑盒評估反映咗該領域自身嘅一個局限。此外，同「平均」學生分數比較，喺統計學上係膚淺嘅。一個更穩健嘅分析，類似心理測量學中使用嘅項目反應理論，可以將模型熟練度映射到測試中嘅特定技能水平。論文亦完全迴避咗如何整合呢啲工具呢個關鍵問題。單純擁有一個高分嘅AI並唔等同於有效嘅教學法，呢個挑戰喺《國際人工智能教育期刊》中有廣泛記載。

可行建議： 對於身處類似受限市場嘅教育工作者，呢篇論文係一本行動指南：1）本地化基準測試： 唔好依賴全球熱度；用你嘅具體課程去測試可用工具。2）放眼領先者之外： 競爭模型可能提供足夠或情境下更好嘅表現。3）聚焦「如何做」： 下一個緊急研究階段必須從LLM係咪有效轉向如何負責任地部署佢哋——設計鼓勵批判性思考而非單純答案檢索嘅提示語、創建人工智能增強評估嘅框架，以及解決使用機會嘅公平性問題。真正嘅勝利唔係AI測試分數更高，而係人類學習成果得到改善。

7. 技術細節與數學框架

雖然論文冇深入探討模型架構，但可以透過概率同任務準確率嘅視角嚟理解表現。核心評估指標係準確率（$Acc$），定義為正確回答項目數與總項目數（$N$）嘅比率。

$Acc = \frac{\text{正確回答數量}}{N} \times 100\%$

為咗更細緻嘅理解，可以將LLM喺多項選擇題上嘅表現，建模為對可能答案嘅概率分佈。設模型從選項集合$O$中選擇正確答案$c$嘅概率為$P_M(c | q, \theta)$，其中$q$係問題，$\theta$代表模型嘅參數同任何檢索到嘅上下文（對Bing Chat嘅搜索增強功能尤其相關）。最終分數係所有項目上呢啲概率嘅聚合。模型之間嘅表現差距，表明佢哋嘅內部表徵$\theta$或生成$P_M$時嘅檢索增強機制$R(q)$存在顯著差異。

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. 分析框架：一個非編碼案例研究

情境： 河內一位英文科主任想評估用於支援中六學生嘅AI工具。

框架應用：

定義本地目標： 提升學生喺VNHSGE語法同閱讀理解部分嘅表現。
工具識別與可用性檢查： 列出可用工具：Bing Chat（可用）、Google Bard（可用）、ChatGPT（需要VPN，非官方支援）。根據本文發現，優先考慮前兩者。
細粒度基準測試： 唔好只係用完整嘅歷屆試題。創建一個聚焦嘅診斷測試：
- 子集A：20條語法題（時態、介詞）。
- 子集B：20條閱讀理解題。
- 將子集A同B用於測試Bing Chat同Bard。唔單止記錄準確率，仲要記錄佢哋答案中提供嘅推理過程。
錯誤分析與映射： 對每個AI犯嘅錯誤進行分類。例如：「Bing Chat喺3/5條虛擬語氣題上出錯；Bard對推理題提供嘅解釋簡潔但有時唔完整。」
整合設計： 根據分析：由於準確率更高，使用Bing Chat進行語法練習解釋。將Bard嘅回答作為閱讀理解嘅「範例答案」，但設計一個學生工作紙，提問：「將Bard嘅總結同你自己嘅比較。佢漏咗啲咩？」呢樣做可以促進批判性評估，而非被動接受。

呢個框架超越咗「邊個AI更好」，轉向「點樣喺我哋嘅教學限制內，策略性地運用每個AI嘅優勢」。

9. 未來應用與研究方向

即時應用：

個性化輔導系統： 部署Bing Chat或Bard作為AI導師嘅核心，根據VNHSGE教學大綱，按需提供練習同解釋。
自動化材料生成： 使用呢啲LLM創建練習題、範文，以及對複雜文本嘅簡化解釋，並與國家課程保持一致。
教師支援工具： 協助教師評分、對學生寫作提供反饋，以及生成教案構思。

關鍵研究方向：

教學法提示語工程： 系統研究如何設計提示語，迫使LLM解釋推理過程、識別學生嘅錯誤概念，或搭建學習支架，而不僅僅係提供答案。
縱向影響研究： 使用LLM導師係咪真係能夠喺一個學期或一年內改善學生嘅學習成果同考試分數？需要進行對照研究。
多模態評估： 未來嘅高風險考試可能包含口語部分。喺教育情境中評估LLM嘅語音識別同生成能力係下一個前沿領域。
公平與使用機會： 研究如何減輕擴大數碼鴻溝嘅風險——確保資源匱乏、無穩定網絡或設備嘅學校嘅學生都能受益。
文化與情境適應： 微調或開發檢索機制，令全球性嘅LLM能夠更好地理解同引用本地越南教育材料、歷史同文化。

10. 參考文獻

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.