運用預訓練神經語言模型解決ESL句子填充題

1. 引言

句子填充題係評估英語作為第二語言能力嘅基礎工具。佢哋提供一個帶有一個或多個空格嘅句子，以及一組候選詞或短語。自動化解決呢啲問題對語言學習者（即時反饋）、教育工作者（題目質量評估）以及智能輔導系統嘅開發都有顯著好處。

以往嘅計算方法，例如 n-gram 語言模型或專門嘅空格語言模型，喺現實教育環境中面臨挑戰：專業人士設計嘅高度混淆嘅干擾項、需要深厚嘅語言知識（語法、句法、語義），以及每個空格嘅空格數同標記數可變。

本研究提出一個神經框架，利用大規模預訓練語言模型來應對呢啲挑戰，並喺一個真實嘅 K-12 ESL 數據集上展示出卓越嘅性能。

2. 我哋嘅方法

2.1 問題定義

一個句子填充題定義為一個元組 $(q, O)$，其中 $q$ 係帶有 $m$ 個用 `[MASK]` 標記表示嘅空格嘅句子，而 $O = \{o_1, o_2, ..., o_n\}$ 係 $n$ 個候選選項（通常為 3-5 個）嘅集合。每個選項 $o_i$ 係一個旨在共同填充所有空格嘅標記序列。目標係選擇令完成後嘅句子最合理嘅選項 $o^* \in O$。

2.2 模型架構

方法嘅核心係一個基於 Transformer 架構嘅序列到序列模型，並使用去噪自編碼器目標（例如 BART 或 T5）進行預訓練。該模型針對句子填充任務進行微調。對於給定嘅問題 $q$ 同一個選項 $o_i$，模型嘅任務係重建原始嘅完整句子。

編碼器嘅輸入係損壞嘅序列（帶有空格嘅問題）。解碼器以此為條件，必須生成原始句子。將選項 $o_i$ 插入 $q$ 嘅空格中以創建解碼器嘅目標序列。模型嘅性能通過給定輸入下生成目標序列嘅負對數似然來評分。

2.3 訓練與推論

訓練期間，模型學習從其遮罩版本重建句子。推論時，給定一個問題 $q$ 及其選項 $O$，模型為每個選項 $o_i$ 計算一個分數 $s_i$： $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. 實驗與結果

3.1 數據集

使用咗從一個在線 K-12 教育平台收集嘅真實數據集。佢包含數千個由英語教學專業人士為中文 ESL 學習者創建嘅句子填充題。該數據集嘅特點係題目有 1-3 個空格，以及高質量、語義相似嘅干擾項。

數據集統計

來源： 真實 K-12 在線平台

題目數量： 數千

每題空格數： 1 至 3

每題選項數： 3 至 5

3.2 基準模型

將提出嘅模型與幾個強勁嘅基準模型進行比較：

N-gram 語言模型： 喺大型語料庫上訓練嘅傳統統計模型。
空格語言模型 [Shen et al.]： 一種專門用於填充空格嘅迭代語言模型。
遮罩語言模型（例如 BERT）： 使用預訓練嘅遮罩語言模型來評分選項標記喺空格位置嘅概率。
序列到序列語言模型（非預訓練）： 喺句子填充任務上從頭開始訓練嘅標準 Transformer 模型。

3.3 主要結果

提出嘅預訓練序列到序列模型喺留出測試集上嘅預測準確率方面顯著優於所有基準模型。關鍵優勢源於其喺海量文本語料庫上嘅預訓練，呢種訓練賦予佢深厚嘅語言知識同世界知識，對於區分微妙嘅干擾項至關重要。序列到序列嘅表述亦自然處理多個空格同多標記選項。

3.4 精確率-召回率分析

論文進行咗精確率-召回率權衡分析，以討論實際部署。通過調整接受答案嘅分數閾值，可以將系統調整為高精確率（僅在非常有信心時提供反饋，最小化錯誤）或高召回率（嘗試回答更多問題，可能伴隨更多錯誤）。對於現實教育應用中錯誤反饋成本高嘅情況，呢一點至關重要。

4. 關鍵見解與分析

核心見解： 論文嘅根本突破唔單止係將預訓練模型應用於新任務；而係認識到序列到序列去噪目標幾乎完美地模擬咗解決句子填充題背後嘅認知過程。模型唔單止係揀一個詞；佢係喺腦海中「完成」句子並檢查連貫性——呢個過程通過從遮罩版本重建完整句子來反映。呢個方法比單純使用遮罩語言模型來評分單個標記更優雅、更強大，後者無法捕捉多個空格之間嘅相互依賴關係。

邏輯流程： 論證非常簡單有力：1) 現實世界嘅 ESL 題目由於專家設計嘅干擾項同複雜嘅語言約束而困難。2) 傳統甚至早期神經方法缺乏應對呢啲問題所需嘅細微理解。3) 大規模預訓練語言模型，特別係那些使用去噪目標（如 BART 或 T5）訓練嘅模型，具備呢種細微理解。4) 因此，使用呢啲模型將句子填充題構建為序列重建任務應該能產生最先進嘅結果。實驗有力地驗證咗呢個流程。

優點與缺點： 主要優點係方法嘅概念優雅性同實證成功。使用真實嘅 K-12 數據集，而非清理過嘅學術語料庫，大大增加咗實際可信度。精確率-召回率分析顯示出對部署嘅深思熟慮。主要缺點，同許多人工智能教育論文一樣，係解決方案嘅黑盒性質。佢唔提供可解釋嘅反饋——學生得到「D係正確嘅」，但唔係「因為『must』表示第一個分句中嘅邏輯必然性，而基於『hates black color』呢個證據，『can't』係第二個分句中正確嘅否定形式。」正如 2022 年嘅評論《教育可解釋人工智能》（XAIED）所指，呢種缺乏可解釋性限制咗直接嘅教學效用。此外，模型嘅性能本質上與其預訓練數據相關，呢啲數據可能包含偏見或缺乏對某些 ESL 錯誤模式嘅覆蓋。

可行見解： 對於教育科技公司，呢項研究係一個現成嘅藍圖。第一步係喺專有題庫上微調像 T5 或 BART 咁樣嘅模型。然而，真正嘅競爭優勢唔會僅僅來自準確性，而係來自可解釋性。下一個迭代應該整合可解釋人工智能嘅技術——或許使用注意力權重來突出顯示與所選答案最相關嘅句子部分，或者生成自然語言解釋。其次，呢項技術嘅主要應用唔係喺高風險測試中，而係喺練習同形成性評估中。將其整合到自適應學習平台中，以生成無限嘅、個性化嘅練習題（通過遮罩真實文本中嘅詞語），係一個合乎邏輯且高價值嘅方向，正如引言中暗示嘅，從解題者轉變為生成者。

5. 技術細節

模型利用 Transformer 架構嘅編碼器-解碼器框架。預訓練目標至關重要。對於像 BART 咁樣嘅模型，佢通過任意噪聲函數（例如，標記遮罩、句子排列、文檔旋轉）損壞文本，然後學習重建原始文本來進行訓練。呢個令佢非常適合句子填充任務，後者係一種受控形式嘅文本損壞同重建。

微調目標係最小化解碼器輸出分佈與目標序列（用正確選項完成嘅句子）之間嘅交叉熵損失。對於一批數據，損失函數為： $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. 分析框架示例

場景： 評估一個用於句子填充任務嘅候選模型。

框架應用：

任務分解： 分解句子填充題：識別空格數量、每個空格所需嘅詞性或句法角色，以及句子線索與正確答案之間嘅語義關係。
模型評分： 對於每個選項，使用模型計算序列分數 $s_i$。例如，對於問題 "He _ to the store yesterday," 選項為 {go, went, goes}，模型會將序列 "He went to the store yesterday" 評為最高分，因為正確嘅過去時態一致。
錯誤分析： 如果模型失敗，分析失敗模式。佢揀咗 "go"？呢個表明喺語法時態理解方面存在弱點。佢揀咗 "goes"？呢個表明喺主謂一致方面存在弱點。呢個分析指導進一步嘅數據收集或模型調整。
干擾項強度評估： 使用模型跨選項嘅分數分佈。正確答案分數高而干擾項分數非常低，表明係一個簡單嘅題目。如果兩個選項具有相似嘅高分，則表明係一個高質量、令人困惑嘅干擾項，呢個對於診斷性評估非常有價值。

呢個框架超越咗簡單嘅準確性，轉向對學生同模型能力嘅診斷性理解。

7. 未來應用與方向

可解釋人工智能整合： 最關鍵嘅方向係從「黑盒」解題者演變為「可解釋嘅導師」。未來嘅模型應該能夠生成理由、突出關鍵句子證據，甚至識別正在測試嘅特定語法規則。
個性化干擾項生成： 該模型可用於生成針對學生常見錯誤模式而定制嘅合理但錯誤嘅干擾項，從而創建超個性化練習。
自動題目生成： 反轉過程。給定一段文本，模型可以識別要遮罩嘅關鍵詞並生成合理嘅干擾項，自動為練習庫創建新嘅句子填充題，大規模擴展內容創建。
多模態擴展： 對於年幼學習者或特定情境，句子填充題可能涉及圖像。未來工作可以涉及多模態預訓練模型（如 VL-T5）來解決或生成結合文本同視覺線索嘅題目。
跨語言遷移： 通過利用多語言預訓練模型（如 mT5）將框架應用於其他語言，幫助母語唔係中文嘅 ESL 學習者。

8. 參考文獻

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.

目錄