RNN语言模型与跨语言句法偏向：英语与西班牙语关系从句依附对比分析

1. 引言

本文研究了循环神经网络语言模型习得的句法偏向，特别聚焦于关系从句依附歧义现象。核心假设是：RNN的架构偏向（例如近因偏向）偶然地与英语中主要的人类解析偏好（低依附）相一致，却与西班牙语中相反的人类偏好（高依附）不符。这在英语模型中造成了一种类似人类句法能力的假象，但这种假象无法跨语言泛化，从而挑战了“必要语言偏向存在于训练数据中”这一假设。

2. 方法论与实验设计

2.1. 关系从句依附歧义

本研究使用具有歧义关系从句依附的句子来探测模型，例如：“安德鲁昨天和那位离婚了的老师的侄子共进了晚餐。” 存在两种可能的解释：依附于较高的名词短语（“侄子”——高依附）或较低的名词短语（“老师”——低依附）。虽然两种解释在语法上都成立，但英语使用者表现出稳定的低依附偏向，而西班牙语使用者则表现出高依附偏向。

2.2. 模型架构与训练

基于标准RNN的语言模型（例如LSTM或GRU）在大型英语和西班牙语文本语料库上进行训练。训练目标是在给定前文语境下最小化下一个词的负对数似然：$L(\theta) = -\sum_{t=1}^{T} \log P(w_t | w_{

2.3. 评估指标

通过比较模型在每种解释（高依附 vs. 低依附）下赋予句子后续部分的条件概率来量化模型偏好。偏向分数计算为对数概率差：$\text{偏向分数} = \log P(\text{低依附}) - \log P(\text{高依附})$。

关键实验参数

语言： 英语，西班牙语
模型类型： RNN（LSTM/GRU）
评估指标： 对数概率差
人类基线： 低依附偏向（英语），高依附偏向（西班牙语）

3. 结果与分析

3.1. 英语模型表现

在英语文本上训练的RNN语言模型始终表现出显著的低依附偏向，这与已有充分文献记载的人类偏好相符。这表明对于英语中的这一现象，模型的内部表征与人类的句法处理方式一致。

3.2. 西班牙语模型表现

与此形成鲜明对比的是，在西班牙语文本上训练的RNN语言模型未能表现出类人的高依附偏向。相反，它们常常表现出微弱甚至反向（低依附）的偏向，这表明模型未能捕捉到西班牙语数据中存在的、该语言类型常见的句法偏好。

3.3. 跨语言比较

模型在英语和西班牙语上表现的差异强烈表明，模型在英语上的表面成功并非源于从数据中学习到了抽象的句法规则，而是源于RNN固有的近因偏向（倾向于依附于最近的名词）与英语的低依附偏好之间的重叠。这种架构偏向阻碍了学习西班牙语所需的高依附偏好。

4. 技术细节与数学框架

语言模型的核心是在给定语境下对单词 $w_t$ 进行序列预测。对于RNN，隐藏状态 $h_t$ 的更新公式为：$h_t = f(W_{hh}h_{t-1} + W_{xh}x_t + b_h)$，其中 $f$ 是非线性激活函数（例如tanh或LSTM单元）。词汇表上的概率分布为：$P(w_t | w_{

5. 分析框架：一个非代码案例研究

案例： 评估RNN语言模型对句子“记者采访了那位有争议的参议员的助理。”中关系从句依附的理解。

步骤 1 - 解析生成： 构建两个最小差异的句子后续部分，分别强制高依附（助理有争议）或低依附（参议员有争议）的解释。
步骤 2 - 概率查询： 将每个完整句子（语境 + 强制后续）输入训练好的RNN语言模型，并提取序列概率 $P(\text{句子})$。
步骤 3 - 偏向计算： 计算 $\Delta = \log P(\text{低依附后续}) - \log P(\text{高依附后续})$。
步骤 4 - 解释： 正的 $\Delta$ 表示低依附偏向（类似英语）；负的 $\Delta$ 表示高依附偏向（类似西班牙语）。将此结果与人类心理语言学数据进行比较。

6. 核心见解与分析视角

核心见解： 本文为NLP领域提供了一个至关重要的现实检验。它表明，语言模型中看似“学习句法”的表现，常常可能是一种海市蜃楼——是模型架构缺陷（如近因偏向）与特定语言（英语）统计模式之间幸运的巧合。在西班牙语上无法复现这一结果，暴露了这种“学习”的脆弱性。正如Linzen等人（2016）关于评估语言模型句法知识的开创性工作所强调的，我们必须警惕基于狭隘的、语言特定的成功，就将类人的语言能力归因于模型。

逻辑脉络： 论证构建精妙。它始于一个已知的人类语言对比（英语低依附 vs. 西班牙语高依附偏向），在两种语言上训练标准模型，并发现了性能不对称性。作者随后逻辑地将这种不对称性与RNN一个已知的、非语言的特性（近因偏向）联系起来，提供了一个简洁的解释，无需假设模型学习了抽象规则。这一脉络有效地削弱了“训练信号本身包含足够信息以供学习深层句法”的假设。

优势与局限： 主要优势在于巧妙地利用跨语言变异作为受控实验，以区分数据驱动的学习与架构偏向。这是一个强有力的方法论贡献。然而，分析在一定程度上受限于其聚焦于单一（尽管重要）的句法现象。它留下了一个悬而未决的问题：这个问题有多普遍？英语语言模型中其他表面上的句法能力是否同样虚幻？此外，本研究使用了较旧的RNN架构；使用基于Transformer的现代模型（其具有不同的归纳偏向，如注意力机制）进行测试是关键的下一步，正如从GPT-2到GPT-3等模型的演进所暗示的那样。

可操作的见解： 对于研究人员和工程师而言，本文要求评估策略的转变。首先， 跨语言评估必须成为任何关于模型语言能力主张的标准压力测试，超越以英语为中心的基准套件。其次， 我们需要更多能将架构偏向与真正学习区分开来的“探针”，或许可以通过在单一语言中设计对抗性数据集来实现。第三， 对于那些为非英语语言构建生产系统的人来说，这是一个严厉的警告：现成的架构可能嵌入了与目标语言格格不入的句法偏向，可能会降低复杂解析任务的性能。前进的道路包括设计更具语言学意识的模型架构，或者开发明确惩罚这些不想要的归纳偏向的训练目标，超越简单的下一个词预测。

7. 未来应用与研究展望

多语言与低资源NLP： 开发在类型学上多样化的语言间均表现稳健的评估框架和模型架构，确保公平的性能。
诊断性基准测试： 创建一套“偏向检测”任务，用于在部署前审计预训练模型中的伪相关性和架构伪影。
语言学启发的模型设计： 探索混合模型，融入明确的、参数化的语言学先验（例如基于通用依存关系）以指导学习，特别是对于低资源语言。
认知建模： 利用模型表现与人类数据之间的脱节（如西班牙语案例），生成关于人类语言处理以及人类所用“训练信号”本质的新假设。
稳健的机器翻译： 通过确保源语言解析偏向不会错误地转移到目标语言，提高涉及结构歧义句子的翻译质量。

8. 参考文献

Davis, F., & van Schijndel, M. (2020). Recurrent Neural Network Language Models Always Learn English-Like Relative Clause Attachment. arXiv:2005.00165.
Linzen, T., Dupoux, E., & Goldberg, Y. (2016). Assessing the ability of LSTMs to learn syntax-sensitive dependencies. Transactions of the Association for Computational Linguistics.
Carreiras, M., & Clifton, C. (1999). Another word on parsing relative clauses: Eye-tracking evidence from Spanish and English. Memory & Cognition.
Fernández, E. M. (2003). Bilingual sentence processing: Relative clause attachment in English and Spanish. John Benjamins Publishing.
Radford, A., et al. (2018). Improving language understanding by generative pre-training. OpenAI Blog.
Dyer, C., et al. (2019). How to train your RNN to capture linguistic structure. BlackboxNLP Workshop.

目录