基于预训练神经语言模型的英语作为第二语言句子填空题自动求解

1. 引言

句子填空题是评估英语作为第二语言（ESL）能力的一项基本工具。这类题目提供一个包含一个或多个空白的句子以及一组候选单词或短语。自动求解这些题目能为语言学习者（即时反馈）、教育工作者（题目质量评估）以及智能辅导系统的开发带来显著益处。

以往的计算方法，如n-元语言模型或专门的填空语言模型，在真实教育场景下面临挑战：由专业人士设计的高度混淆的干扰项、对深层语言知识（语法、句法、语义）的需求，以及每道题空白数量和每个空白所需词元数量的可变性。

本研究提出一种利用大规模预训练语言模型的神经框架来应对这些挑战，并在一个真实的K-12 ESL数据集上展示了卓越的性能。

2. 我们的方法

2.1 问题定义

一个句子填空题被定义为一个元组 $(q, O)$，其中 $q$ 是包含 $m$ 个由 `[MASK]` 标记表示的空白句子，而 $O = \{o_1, o_2, ..., o_n\}$ 是 $n$ 个候选选项（通常为3-5个）的集合。每个选项 $o_i$ 是一个旨在共同填充所有空白的词元序列。目标是选择能使完成后的句子最合理的选项 $o^* \in O$。

2.2 模型架构

该方法的核心是一个基于Transformer架构的序列到序列模型，该模型使用去噪自编码器目标（例如BART或T5）进行预训练，并针对句子填空任务进行微调。对于给定的题目 $q$ 和一个选项 $o_i$，模型的任务是重建原始的完整句子。

编码器的输入是损坏的序列（包含空白的题目）。解码器以此序列为条件，必须生成原始句子。选项 $o_i$ 被插入到 $q$ 的空白处以创建解码器的目标序列。模型的性能通过给定输入生成目标序列的负对数似然来评分。

2.3 训练与推理

在训练期间，模型学习从其掩码版本重建句子。在推理时，给定题目 $q$ 及其选项 $O$，模型为每个选项 $o_i$ 计算一个分数 $s_i$： $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. 实验与结果

3.1 数据集

使用了一个从在线K-12教育平台收集的真实数据集。该数据集包含数千道由英语教学专业人士为中国ESL学习者创建的句子填空题。其特点是题目包含1-3个空白，并配有高质量、语义相似的干扰项。

数据集统计

来源： 真实K-12在线平台

题目数量： 数千道

每道题空白数： 1 至 3

每道题选项数： 3 至 5

3.2 基线模型

将提出的模型与几个强基线模型进行了比较：

N-元语言模型： 在大规模语料库上训练的传统统计模型。
填空语言模型 [Shen et al.]： 一种专门用于填空的迭代语言模型。
掩码语言模型（如BERT）： 使用预训练的掩码语言模型来评估选项词元在空白位置的概率。
序列到序列语言模型（非预训练）： 在句子填空任务上从头开始训练的标准Transformer模型。

3.3 主要结果

所提出的预训练序列到序列模型在留出测试集上的预测准确率显著优于所有基线模型。其关键优势源于在大规模文本语料库上的预训练，这使其具备了区分微妙干扰项所必需的深层语言知识和世界知识。序列到序列的公式化也自然地处理了多个空白和多词元选项。

3.4 精确率-召回率分析

本文进行了精确率-召回率权衡分析，以讨论实际部署。通过调整接受答案的分数阈值，系统可以调整为高精确率（仅在非常有把握时提供反馈，最小化错误）或高召回率（尝试回答更多问题，但可能伴随更多错误）。这对于错误反馈成本高昂的现实教育应用至关重要。

4. 核心见解与分析

核心见解： 本文的根本突破不仅仅是将预训练模型应用于新任务；更在于认识到序列到序列去噪目标几乎是求解句子填空题背后认知过程的完美代理。模型不仅仅是挑选一个词；它是在心理上“完成”句子并检查连贯性——这一过程通过从掩码版本重建完整句子得以体现。这比简单地使用掩码语言模型对单个词元评分更为优雅和强大，后者无法捕捉多个空白之间的相互依赖关系。

逻辑脉络： 论证过程极具说服力且简洁：1) 由于专家设计的干扰项和复杂的语言约束，现实世界的ESL题目难度很高。2) 传统方法乃至早期神经方法缺乏应对此问题的细致理解能力。3) 大规模预训练语言模型，特别是那些使用去噪目标（如BART或T5）训练的模型，具备这种细致理解能力。4) 因此，使用这些模型将句子填空任务构建为序列重建任务，应能产生最先进的结果。实验有力地验证了这一脉络。

优势与不足： 主要优势在于该方法概念上的优雅性和实证上的成功。使用真实的K-12数据集（而非经过清洗的学术语料库）极大地增加了其实际可信度。精确率-召回率分析显示出对部署的深思熟虑。主要不足（许多AI+教育论文的通病）是解决方案的黑箱性质。它不提供可解释的反馈——学生得到的是“D是正确的”，而不是“因为‘must’表示第一个分句中的逻辑必然性，而基于‘hates black color’这一证据，‘can't’是第二个分句中正确的否定形式”。正如2022年综述《教育中的可解释人工智能》（XAIED）所指出的，这种缺乏可解释性的情况限制了其直接的教学效用。此外，模型的性能本质上与其预训练数据相关，这些数据可能包含偏见或缺乏对某些ESL错误模式的覆盖。

可操作的见解： 对于教育科技公司而言，这项研究是一个现成的蓝图。第一步是在专有的题库上微调一个类似T5或BART的模型。然而，真正的竞争优势不会仅仅来自准确性，而是来自可解释性。下一迭代应整合可解释AI的技术——或许可以使用注意力权重来突出显示与所选答案最相关的句子部分，或生成自然语言的理由说明。其次，这项技术的主要应用场景不在于高风险考试，而在于练习和形成性评估。将其集成到自适应学习平台中，通过掩码真实文本中的单词来生成无限的、个性化的练习题，是一个合乎逻辑且高价值的方向，正如引言中暗示的那样，从求解器转变为生成器。

5. 技术细节

该模型利用了Transformer架构的编码器-解码器框架。预训练目标至关重要。对于像BART这样的模型，它通过任意噪声函数（例如，词元掩码、句子置换、文档旋转）损坏文本，然后学习重建原始文本来进行训练。这使其非常适合句子填空任务，后者是一种受控形式的文本损坏与重建。

微调目标是最小化解码器输出分布与目标序列（用正确选项完成的句子）之间的交叉熵损失。对于一个批次的数据，损失函数为： $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. 分析框架示例

场景： 评估一个用于句子填空任务的候选模型。

框架应用：

任务分解： 分解句子填空题：识别空白数量、每个空白所需的词性或句法角色，以及句子线索与正确答案之间的语义关系。
模型评分： 对于每个选项，使用模型计算序列分数 $s_i$。例如，对于题目“He _ to the store yesterday,”，选项为 {go, went, goes}，模型会给序列“He went to the store yesterday”最高分，因为其过去时态一致正确。
错误分析： 如果模型失败，分析失败模式。它选择了“go”吗？这表明其在语法时态理解方面存在弱点。它选择了“goes”吗？这表明其在主谓一致方面存在弱点。此分析指导进一步的数据收集或模型调整。
干扰项强度评估： 使用模型在各个选项上的分数分布。正确答案分数高而干扰项分数非常低表明题目简单。如果两个选项具有相似的高分，则表明存在高质量、令人困惑的干扰项，这对于诊断性评估很有价值。

此框架超越了简单的准确率，转向对学生和模型能力的诊断性理解。

7. 未来应用与方向

可解释人工智能集成： 最关键的方向是从“黑箱”求解器演变为“可解释的导师”。未来的模型应能生成理由、突出关键句子证据，甚至识别正在测试的具体语法规则。
个性化干扰项生成： 该模型可用于生成针对学生常见错误模式量身定制的、看似合理但错误的干扰项，从而创建高度个性化的练习。
自动题目生成： 逆转该过程。给定一段文本，模型可以识别要掩码的关键词并生成看似合理的干扰项，从而自动为练习题库创建新的句子填空题，大规模扩展内容创作。
多模态扩展： 对于年幼学习者或特定情境，句子填空题可能涉及图像。未来的工作可以涉及多模态预训练模型（如VL-T5）来求解或生成结合文本和视觉线索的题目。
跨语言迁移： 通过利用多语言预训练模型（如mT5），将该框架应用于其他语言，帮助母语非中文的ESL学习者。

8. 参考文献

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.

目录