運用預訓練神經語言模型解決ESL句子填空問題

1. 引言

句子填空（Sentence Completion, SC）問題是評估英語作為第二語言（ESL）能力的一項基本工具。這類問題提供一個含有一個或多個空格的句子，以及一組候選單字或片語。自動化解決這些問題，對於語言學習者（即時回饋）、教育工作者（題目品質評估）以及智慧輔導系統的開發，都具有顯著益處。

先前的計算方法，例如 n-gram 語言模型或專門的填空語言模型，在真實教育情境下面臨挑戰：由專業人士設計的高度混淆的干擾選項、對深層語言知識（文法、句法、語義）的需求，以及每個空格可變的詞元數量和空格數量。

本研究提出一個神經框架，利用大規模預訓練語言模型來應對這些挑戰，並在一個真實世界的 K-12 ESL 資料集上展現了卓越的效能。

2. 我們的方法

2.1 問題定義

一個 SC 問題定義為一個元組 $(q, O)$，其中 $q$ 是包含 $m$ 個以 `[MASK]` 標記表示空格的句子，而 $O = \{o_1, o_2, ..., o_n\}$ 是 $n$ 個候選選項（通常為 3-5 個）的集合。每個選項 $o_i$ 是一個詞元序列，旨在共同填補所有空格。目標是選擇能使完成後的句子最合理的選項 $o^* \in O$。

2.2 模型架構

此方法的核心是基於 Transformer 架構的序列到序列模型，並使用去噪自編碼器目標（例如 BART 或 T5）進行預訓練。該模型針對 SC 任務進行微調。對於給定的問題 $q$ 和一個選項 $o_i$，模型的任務是重建原始的完整句子。

編碼器的輸入是損壞的序列（帶有空格的問題）。解碼器以此為條件，必須生成原始句子。將選項 $o_i$ 插入 $q$ 的空格中，以建立解碼器的目標序列。模型的效能評分是根據給定輸入生成目標序列的負對數概似。

2.3 訓練與推論

在訓練期間，模型學習從其遮罩版本重建句子。在推論時，給定一個問題 $q$ 及其選項 $O$，模型為每個選項 $o_i$ 計算一個分數 $s_i$： $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. 實驗與結果

3.1 資料集

使用了一個從線上 K-12 教育平台收集的真實世界資料集。它包含數千個由英語教學專業人士為華語 ESL 學習者創建的 SC 問題。該資料集的特點是問題包含 1-3 個空格，並具有高品質、語義相似的干擾選項。

資料集統計

來源： 真實世界 K-12 線上平台

問題數量： 數千個

每題空格數： 1 至 3 個

每題選項數： 3 至 5 個

3.2 基準模型

將提出的模型與幾個強力的基準模型進行比較：

N-gram 語言模型： 在大型語料庫上訓練的傳統統計模型。
填空語言模型 [Shen et al.]： 一種專門用於填空的迭代語言模型。
遮罩語言模型（例如 BERT）： 使用預訓練的遮罩語言模型來評分選項詞元在空格位置的概率。
序列到序列語言模型（非預訓練）： 在 SC 任務上從頭開始訓練的標準 Transformer 模型。

3.3 主要結果

所提出的預訓練序列到序列模型在保留測試集上的預測準確率方面，顯著優於所有基準模型。其關鍵優勢源於其在大規模文本語料庫上的預訓練，這賦予了它深層的語言知識和世界知識，對於區分細微的干擾選項至關重要。序列到序列的公式化也自然地處理了多個空格和多詞元選項。

3.4 精確率-召回率分析

本文進行了精確率-召回率的權衡分析，以討論實際部署。透過調整接受答案的分數閾值，可以將系統調整為高精確率（僅在非常有信心時提供回饋，以最小化錯誤）或高召回率（嘗試回答更多問題，但可能伴隨更多錯誤）。這對於現實教育應用至關重要，因為錯誤回饋的代價很高。

4. 關鍵見解與分析

核心見解： 本文的根本突破不僅僅是將預訓練模型應用於新任務；而是認識到序列到序列去噪目標幾乎完美地代表了解決 SC 問題背後的認知過程。模型不僅僅是挑選一個詞；它是在心智上「完成」句子並檢查連貫性——這個過程透過從遮罩版本重建完整句子來反映。這比單純使用遮罩語言模型來評分個別詞元更為優雅和強大，後者無法捕捉多個空格之間的相互依賴關係。

邏輯流程： 論證極具說服力且簡單：1) 真實世界的 ESL 問題由於專家設計的干擾選項和複雜的語言約束而困難。2) 傳統甚至早期的神經方法缺乏應對此問題的細微理解。3) 大規模預訓練語言模型，特別是那些使用去噪目標（如 BART 或 T5）訓練的模型，具備這種細微理解。4) 因此，使用這些模型將 SC 框架為序列重建任務，應能產生最先進的結果。實驗有力地驗證了這一流程。

優點與缺點： 主要優點是方法的概念優雅性和實證成功。使用真實世界的 K-12 資料集，而非經過清理的學術語料庫，極大地增加了實際可信度。精確率-召回率分析顯示了對部署的深思熟慮。主要缺點，也是許多人工智慧教育論文的通病，是解決方案的黑箱性質。它不提供可解釋的回饋——學生得到的是「D 是正確的」，而不是「因為 'must' 在第一子句中表示邏輯必然性，而基於 'hates black color' 的證據，'can't' 是第二子句中正確的否定形式」。正如 2022 年回顧文章《教育中的可解釋人工智慧》（XAIED）所指出的，這種缺乏可解釋性的情況限制了直接的教學效用。此外，模型的效能本質上與其預訓練資料相關，這些資料可能包含偏見或缺乏對某些 ESL 錯誤模式的覆蓋。

可行見解： 對於教育科技公司而言，這項研究是一個現成的藍圖。第一步是在專有的題庫上微調像 T5 或 BART 這樣的模型。然而，真正的競爭優勢不會僅僅來自準確性，而是來自可解釋性。下一個迭代應該整合可解釋人工智慧的技術——或許使用注意力權重來突顯與所選答案最相關的句子部分，或生成自然語言的理由。其次，這項技術的主要應用不在於高風險測試，而在於練習和形成性評量。將其整合到適應性學習平台中，以生成無限的、個人化的練習題（透過遮罩真實文本中的詞彙），是一個合乎邏輯且高價值的方向，從解題者轉變為生成者，正如引言中所暗示的。

5. 技術細節

該模型利用了 Transformer 架構的編碼器-解碼器框架。預訓練目標至關重要。對於像 BART 這樣的模型，它是透過任意噪聲函數（例如，詞元遮罩、句子排列、文件旋轉）損壞文本，然後學習重建原始文本來進行訓練的。這使其非常適合 SC 任務，後者是一種受控的文本損壞與重建形式。

微調目標是最小化解碼器輸出分佈與目標序列（用正確選項完成的句子）之間的交叉熵損失。對於一批資料，損失函數為： $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. 分析框架範例

情境： 評估一個用於 SC 任務的候選模型。

框架應用：

任務分解： 分解 SC 問題：識別空格數量、每個空格所需的詞性或句法角色，以及句子線索與正確答案之間的語義關係。
模型評分： 對於每個選項，使用模型計算序列分數 $s_i$。例如，對於問題「He _ to the store yesterday,」，選項為 {go, went, goes}，模型會因為正確的過去式一致性，而給予序列「He went to the store yesterday」最高分。
錯誤分析： 如果模型失敗，分析失敗模式。它選擇了「go」嗎？這表明在文法時態理解方面存在弱點。它選擇了「goes」嗎？這表明在主謂一致方面存在弱點。此分析指導進一步的資料收集或模型調整。
干擾選項強度評估： 使用模型在各選項上的分數分佈。正確答案分數高而干擾選項分數非常低，表示問題簡單。如果有兩個選項的分數相似且都高，則表示存在高品質、令人困惑的干擾選項，這對於診斷性評量很有價值。

此框架超越了簡單的準確率，轉向對學生和模型能力的診斷性理解。

7. 未來應用與方向

可解釋人工智慧整合： 最關鍵的方向是從「黑箱」解題者演變為「可解釋的導師」。未來的模型應該能生成理由、突顯關鍵句子證據，甚至識別正在測試的特定文法規則。
個人化干擾選項生成： 該模型可用於生成針對學生常見錯誤模式量身訂製的合理但不正確的干擾選項，從而創造超個人化的練習。
自動化問題生成： 反轉過程。給定一段文本，模型可以識別要遮罩的關鍵詞並生成合理的干擾選項，自動為練習題庫創建新的 SC 問題，從而大規模擴展內容創建。
多模態擴展： 對於年幼學習者或特定情境，SC 問題可能涉及圖像。未來的工作可以涉及多模態預訓練模型（如 VL-T5）來解決或生成結合文本和視覺線索的問題。
跨語言遷移： 透過利用多語言預訓練模型（如 mT5），將該框架應用於其他語言，幫助母語非華語的 ESL 學習者。

8. 參考文獻

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.

目錄