1. 緒論
本文針對三款知名大型語言模型——OpenAI 的 ChatGPT (GPT-3.5)、Microsoft 的 Bing Chat 以及 Google 的 Bard——在越南高中畢業會考英文資料集上的表現進行比較。本研究旨在評估它們在越南高中英文教育特定情境下的能力,尤其考慮到 ChatGPT 在越南並未正式提供服務。本研究針對模型效能、與人類學生的比較,以及 LLM 在此教育環境中的潛在應用等三個關鍵問題進行探討。
2. 相關研究
本文將自身置於人工智慧融入教育的更廣泛脈絡中,強調了 BERT 和 GPT 架構等大型語言模型的變革潛力。
2.1 大型語言模型
基於 Transformer 架構的 LLM,已在教育應用中展現出巨大潛力,包括個人化學習、內容開發和語言翻譯。其類人的對話能力使其適合用於虛擬助理和線上學習支援系統。
3. 研究方法
核心研究方法涉及將 VNHSGE 英文資料集提供給三個 LLM 進行測驗。該資料集可能包含評估高中階段英文能力的標準化測驗題目。效能衡量方式是將模型的回應與官方標準答案進行比對,計算其準確率。
4. 實驗結果
Bing Chat 表現
92.4%
在 VNHSGE 英文資料集上的準確率
Google Bard 表現
86.0%
在 VNHSGE 英文資料集上的準確率
ChatGPT (GPT-3.5) 表現
79.2%
在 VNHSGE 英文資料集上的準確率
主要發現:
- 效能排名: Microsoft Bing Chat (92.4%) 的表現優於 Google Bard (86%) 和 OpenAI ChatGPT (79.2%)。
- 實務意涵: 在 ChatGPT 使用受限的越南,Bing Chat 和 Bard 被視為英文教育的可行替代方案。
- 與人類比較: 所有三個 LLM 在相同的英文能力測驗上,表現均超越了越南高中學生的平均水準,顯示它們有潛力成為更優越的知識資源或輔助教學工具。
圖表說明: 長條圖能有效視覺化此效能層級,Y 軸代表準確率 (%),X 軸列出三個 LLM。Bing Chat 的長條會最高,其次是 Bard,然後是 ChatGPT。可以加入一條單獨的基準線來標示越南學生的平均分數,以便直接比較。
5. 討論
結果顯示,商用 LLM 作為英文教育工具具有顯著潛力。Bing Chat 的優異表現可能歸因於其與搜尋引擎的整合,使其能存取更即時或更具情境脈絡的資訊。所有模型的表現均超越人類學生,這凸顯了一種典範轉移:人工智慧不僅能作為輔助工具,更能成為一個高能力的參考基準,潛在地實現個人化教學並提供即時、準確的回饋。
6. 原創分析與專家評論
核心洞察: 本文不僅僅是一個基準測試;它是一個市場訊號。在旗艦模型 (ChatGPT) 受限的地區(越南),本研究主動識別並驗證了功能性的替代方案(Bing Chat, Bard),揭示了教育領域採用人工智慧時一種務實的、應用優先的途徑。所有 LLM 均超越學生平均表現的發現,不僅僅是一個學術觀點——它是一股顛覆性力量,暗示人工智慧的角色可能從輔助工具演變為主要的教學媒介或基準。
邏輯流程與優勢: 研究方法直接且具影響力:使用全國認可的高風險考試作為評估指標。這為教育工作者和政策制定者提供了立即且易於理解的公信力。研究重點在於「實際可用性」而非理論上的優越性,這是一大優勢,使研究成果能立即付諸行動。這與史丹佛大學以人為本人工智慧研究所等機構所強調的趨勢一致,即評估人工智慧在現實世界、受限情境下的表現。
缺陷與關鍵缺口: 分析停留在表面層次。它報告了分數,但對錯誤的性質著墨甚少。模型是在文法、閱讀理解還是文化細微差異上出錯?這種黑箱評估反映了該領域本身的一個限制。此外,與「平均」學生分數比較在統計上過於淺薄。更穩健的分析(類似心理計量學中使用的試題反應理論)可以將模型熟練度對應到測驗中的特定技能水準。本文也完全迴避了如何整合這些工具的關鍵問題。僅僅擁有一個高分的人工智慧並不等同於有效的教學法,這項挑戰在《國際人工智慧教育期刊》中有廣泛記載。
可行建議: 對於處於類似存取受限市場的教育工作者,本文提供了一份行動指南:1) 在地化基準測試: 不要依賴全球熱潮;根據您的特定課程測試可用的工具。2) 放眼領先者之外: 競爭模型可能提供足夠或在情境中更好的表現。3) 聚焦於「如何做」: 下一個緊迫的研究階段必須從 LLM 是否有效,轉向如何負責任地部署它們——設計能鼓勵批判性思考而非單純檢索答案的提示語、建立人工智慧增強評估的框架,並解決存取公平性問題。真正的勝利不會是人工智慧獲得更高的測驗分數,而是人類學習成果的改善。
7. 技術細節與數學框架
雖然本文未深入探討模型架構,但可以透過機率和任務準確率的視角來概念化其表現。核心評估指標是準確率 ($Acc$),定義為正確回答的題數與總題數 ($N$) 的比率。
$Acc = \frac{\text{正確回答數}}{N} \times 100\%$
為了更細緻的理解,可以將 LLM 在選擇題上的表現建模為對可能答案的機率分佈。假設模型從選項集合 $O$ 中選擇正確答案 $c$ 的機率為 $P_M(c | q, \theta)$,其中 $q$ 是問題,$\theta$ 代表模型的參數以及任何檢索到的上下文(這對 Bing Chat 的搜尋增強功能尤其相關)。最終分數是這些機率在所有題目上的聚合。模型之間的效能差距顯示了它們內部表徵 $\theta$ 或生成 $P_M$ 的檢索增強機制 $R(q)$ 存在顯著差異。
$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$
$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$
8. 分析框架:非程式碼案例研究
情境: 河內一位英文科主任希望評估用於支援十二年級學生的人工智慧工具。
框架應用:
- 定義在地目標: 提升學生在 VNHSGE 文法和閱讀理解部分的表現。
- 工具識別與存取檢查: 列出可用工具:Bing Chat(可存取)、Google Bard(可存取)、ChatGPT(需要 VPN,非官方支援)。根據本文研究結果,優先考慮前兩者。
- 細粒度基準測試: 不要只使用完整的歷屆試題。建立一個聚焦的診斷測驗:
- 子集 A:20 道文法題(時態、介系詞)。
- 子集 B:20 道閱讀理解題。
- 將子集 A 和 B 提供給 Bing Chat 和 Bard。不僅記錄準確率,也記錄它們在答案中提供的推理過程。
- 錯誤分析與對應: 對每個人工智慧犯的錯誤進行分類。例如:「Bing Chat 在 3/5 的假設語氣題目上出錯;Bard 對推論題提供了簡潔但有時不完整的推理。」
- 整合設計: 根據分析結果:由於準確率較高,使用 Bing Chat 進行文法練習講解。將 Bard 的回應用作閱讀理解的「範例答案」,但設計一份學生工作表,提問:「將 Bard 的摘要與你自己的進行比較。它遺漏了什麼?」這能促進批判性評估,而非被動接受。
此框架超越了「哪個人工智慧更好」,轉向「如何在我們的教育限制下,策略性地運用每個人工智慧的優勢」。
9. 未來應用與研究方向
立即應用:
- 個人化輔導系統: 部署 Bing Chat 或 Bard 作為人工智慧輔導系統的核心,根據 VNHSGE 教學大綱提供隨需應變的練習和講解。
- 自動化教材生成: 使用這些 LLM 來創建練習題、範文,以及對符合國家課程的複雜文本進行簡化解釋。
- 教師支援工具: 協助教師評分、對學生寫作提供回饋,並生成教案點子。
關鍵研究方向:
- 教學導向的提示語工程: 系統性研究如何設計提示語,迫使 LLM 解釋推理過程、識別學生的錯誤概念,或搭建學習鷹架,而不僅僅是給出答案。
- 縱貫性影響研究: 使用 LLM 輔導員是否真的能在一學期或一年內改善學生的學習成果和考試分數?需要進行對照研究。
- 多模態評估: 未來的高風險考試可能包含口說部分。在教育情境下評估 LLM 的語音辨識和生成能力是下一個前沿領域。
- 公平性與可及性: 研究如何降低擴大數位落差風險——確保資源不足學校中沒有穩定網路或設備的學生也能受益。
- 文化與情境脈絡適應: 微調或開發檢索機制,使全球性的 LLM 能更好地理解和參考越南本地的教育材料、歷史和文化。
10. 參考文獻
- Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
- OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
- Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
- Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
- Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
- International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
- Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.