评估神经语言模型作为语言习得的认知模型

1 引言

本文批判性地审视了将神经语言模型作为人类语言习得理论代理的日益增长的趋势。尽管语言模型在各种自然语言处理任务上取得了显著成功，但由于其训练数据的规模和性质与儿童语言学习存在根本差异，其作为认知模型的相关性受到质疑。

作者认为，流行的句法评估基准（例如 BLiMP、SyntaxGym）可能缺乏评估语言模型是否以类人方式习得语言所需的结构多样性和心理有效性。他们主张使用更严谨、经过语言学精心设计的数据集，例如 LI-Adger 数据集，该数据集包含了母语者的梯度可接受性判断。

1.1 对语言习得研究的启示？

本节强调了显著的数据差异：像 BERT 这样的模型在数十亿个词元上进行训练，而儿童每年仅接收约一千万个单词。近期研究试图通过以更接近人类规模的儿童导向语料（例如 500 万个词元）训练模型来弥合这一差距。核心问题是，在此类“削减”输入上训练的模型是否仍能在行为基准测试中表现良好，从而成为有效的认知模型。

2 核心洞见：基准测试的幻象

本文的核心论点直接挑战了自然语言处理领域的自满情绪。在 BLiMP 等模板化、合成的基准测试上取得的令人印象深刻的性能，制造了一种语法能力的幻象。作者揭露这是一种方法论上的假象。当语言模型在 LI-Adger 数据集上进行测试时——这是一个由理论语言学家精心构建的最小对比对集合，旨在探究特定的句法原则——其评估结果与人类判断显著背离。这不仅仅是性能差距；它证明了根本的表征不匹配。语言模型可能正在学习表面统计模式，这些模式偶然地与简单的句法模板一致，而非支撑人类语法的抽象、层次化结构。

3 逻辑脉络：从数据差异到方法论批判

论证过程如外科手术般精确。首先，它确立了语言模型训练与儿童习得之间不可否认的数据规模鸿沟，将“小规模训练”研究框定为必要但不足的纠正措施。其次，它证明即使在这个公平的竞争环境（小数据）下，语言模型的性能也可能被更简单的基线模型匹配，从而质疑其附加的认知价值。逻辑的转折点在于对基准设计的批判：模板化任务缺乏真实语言探究的“结构多样性”。最终的、决定性的证据来自 LI-Adger 测试，其中语言模型的性能与人类语言直觉完全相悖。脉络如下：问题陈述（数据不匹配）-> 尝试的解决方案（小规模训练）-> 揭示更深层问题（有缺陷的评估）-> 结论性的反证。

4 优势与缺陷：批判性剖析

优势： 本文最大的优势在于其方法论的严谨性和跨学科基础。它不仅批评，还提供了一个更优的替代方案（LI-Adger）。通过将评估与核心理论语言学和心理语言学联系起来，它提高了构成“类人”知识证据的门槛。对数据规模的关注也具有前瞻性，与高效机器学习更广泛的趋势相一致。

缺陷与遗漏： 该分析虽然尖锐，但可能夸大了失败的程度。在 LI-Adger 上的分歧是否就否定了语言模型学习与语言习得之间的所有相似性？或许并非如此。本文本可以更多地探讨语言模型确实做对了什么以及原因。此外，它严重依赖于句法知识；一个更完整的认知模型还必须考虑语义、语用和社会学习方面。对“更真实数据”的呼吁是合理的，但不够具体——我们如何对儿童导向输入的多模态、交互性和充满错误的性质进行建模？

5 可行建议：前进之路

对于研究人员而言，要求很明确：放弃对简易基准测试的依赖。将来自理论语言学（如 LI-Adger 范式）和发展心理学的资源整合到评估套件中。优先创建“认知基准测试”，以检验人类语言学习的标志性特征：从稀疏数据中泛化、对噪声的鲁棒性以及对抽象语法原则的遵循。对于模型开发者，目标应从最大化基准测试分数转向设计数据高效且能从类人输入中学习的架构和训练机制（例如，融入受发展启发的课程学习或主动学习机制）。最终的洞见是：构建一个真正的认知模型，与构建一个高性能的自然语言处理系统是不同且更困难的问题。

6 原创分析：语言建模中的认知鸿沟

Vázquez Martínez 等人的这篇论文在一个常被规模所迷惑的时代，提出了必要且发人深省的批判。它正确地指出了一个根本性的张力：尽管现代语言模型，尤其是大语言模型，展现出令人印象深刻的表面语言能力，但其获得这种能力的路径与儿童有天壤之别。作者对基准测试不足的关注尤为敏锐。这呼应了其他人工智能领域的担忧，即基准测试性能未能转化为稳健、可泛化的智能。例如，在计算机视觉领域，在 ImageNet 上表现出色的模型可能会被简单的对抗性扰动所愚弄，揭示了其缺乏真正的视觉理解——麻省理工学院和谷歌大脑等机构的研究详细描述了这一现象。同样，本文表明，语言模型在 BLiMP 上的成功可能是一种类似的“聪明的汉斯”效应，即模型利用了基准构建中的统计规律性，而非学习了底层的句法规则。

对 LI-Adger 数据集的倡导是本文最重要的贡献。通过将评估建立在最小对比对和梯度可接受性判断——理论句法学的黄金标准——之上，它迫使模型展示对语法性的知识，而不仅仅是可能性。语言模型在此失败的结果很有说服力。这表明，从海量文本语料库中学到的概率分布（$P(w_n | w_{1:n-1})$）并不一定收敛于表征人类语法知识的范畴性或梯度性判断。这与诺姆·乔姆斯基等语言学家的论点一致，他们长期以来一直认为，从表面形式进行统计学习不足以解释刺激贫乏和句法规则的抽象性。

然而，本文的结论不应是语言模型与认知科学无关。相反，它重新定义了挑战。未来在于“认知架构启发”的建模。这可能涉及融入受语言学理论启发的归纳偏置（例如，对层次结构的倾向性），正如一些神经符号方法中所见，或者设计超越下一个词预测的训练目标。Brenden Lake 和 Marco Baroni 等研究人员在少样本学习和组合性方面的工作指明了这个方向。前进之路不是抛弃语言模型，而是根据正确的认知基准对其进行严格测试，并根据失败之处迭代地重新设计它们，就像其他科学中理论和实验的循环一样。

7 技术细节与数学框架

讨论的核心评估方法是使用语言模型的输出概率来预测人类可接受性判断。对于一个句子 $S = w_1, w_2, ..., w_n$，标准的自回归语言模型分配一个概率： $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ 其中 $\theta$ 是模型参数。惊奇度或负对数似然常被用作（不）可接受性的代理： $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ 假设是更高的概率（更低的惊奇度）应与更高的人类可接受性评分相关。本文的关键发现是，这种相关性在 LI-Adger 数据集上被打破，表明语言模型基于概率的“语法性”度量与人类判断之间存在脱节。

本文还提到了在儿童导向语料上训练的模型。这里的关键技术挑战是从非常小的数据集（约 $5\times10^6$ 个词元）中学习，这与标准的语言模型语料库（$>10^9$ 个词元）相比相去甚远。这需要高效的架构和训练技术，以避免过拟合并从稀疏数据中提取可泛化的模式。

8 实验结果与图表分析

本文在图 1（PDF 内容中描述）中展示了一个关键结果。该图表比较了不同语言模型（BabyBERTa、AO-CHILDES、AO-NEWSELA、Wikipedia-1）在 LI-Adger 数据集上的性能与人类性能基线。

图表解读： 代表人类性能的垂直线作为基准。该图表可能显示了每个语言模型的惊奇度与人类可接受性评分之间的相关系数（例如，斯皮尔曼 $\rho$）。关键发现是，所有语言模型的柱状图都显著低于人类基准线。这直观地证明了本文的核心主张：即使是专门在类儿童数据（BabyBERTa、AO-CHILDES）上训练的模型，也无法在这个句法细微的数据集上匹配人类判断。性能差距表明，根据这项严格测试的衡量，当前语言模型的训练目标并未导致类人语法知识的习得。

9 分析框架：LI-Adger 案例研究

框架： 通过最小对比对可接受性评估语言模型作为认知模型。

目标： 确定语言模型的内部概率分布是否与人类对结构对比句子的语法直觉相一致。

步骤：

刺激选择： 使用像 LI-Adger 这样的数据集，该数据集由最小对比对组成（例如，“Who do you think that John saw?” 与 “Who do you think John saw?”），其中基于特定句法原则（例如，“that-trace”过滤器），一个变体是合乎语法的，另一个则不太可接受或不合语法。
模型查询： 对于最小对比对中的每个句子 $S$，计算模型的平均词元惊奇度：$\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$。
预测生成： 模型“偏好”惊奇度较低的句子。对于一个最小对比对 (A, B)，如果 $\text{Surprisal}(A) < \text{Surprisal}(B)$，则模型预测 A 更可接受。
与人类数据比较： 将模型在数百个此类最小对比对上的偏好模式与来自人类参与者的汇总可接受性判断进行比较。计算模型惊奇度与人类评分之间的相关系数（例如，斯皮尔曼 $\rho$）。
解释： 一个高的、显著的正相关将表明语言模型的知识与人类句法判断一致。一个低或不显著的相关性（如本文所发现）则表明存在分歧。

非代码示例： 考虑测试跨干扰从句的主谓一致知识：“The key to the cabinets *are/*is on the table.” 人类一致认为“is”是正确的。一个习得了抽象一致规则（主语‘key’ -> 动词‘is’）的语言模型应该为正确的句子分配更高的概率。一个依赖局部 n-gram 统计的语言模型可能会被“cabinets”的邻近性误导而偏好“are”。将上述框架应用于许多此类对比对，可以揭示语言模型所习得知识的本质。

10 未来应用与研究方向

1. 开发“认知基准测试”： 一个主要方向是创建标准化的、多方面的评估套件，超越句法，涵盖语义、语用和语言习得里程碑（例如，词汇爆发、过度泛化错误）。这些基准测试应由计算语言学家、发展心理学家和认知科学家共同设计。

2. 具有语言学归纳偏置的架构： 未来的模型可能会融入明确的结构先验。例如，天生构建层次化表征或在生成过程中强制执行句法约束的架构，更接近语言学中的原则与参数框架。

3. 交互式与多模态训练： 为了更好地模拟儿童学习，模型可以在具身人工智能研究中探索的那样，在具身环境中，基于交互式、多模态数据流（视觉+语音+文本）进行训练，而非静态文本。

4. 数据高效与课程学习： 开发能够以数量级更少数据取得成功的训练算法，或许可以通过实施反映儿童导向语料中复杂性进展的课程学习策略来实现。

5. 与神经语言学的桥梁： 将语言模型的内部表征和处理动态与人类在执行语言任务时的神经数据（例如，功能磁共振成像、脑电图）进行比较，正如麻省理工学院麦戈文脑研究所的研究人员所开创的工作那样，可以为认知模型提供新的验证层面。

11 参考文献

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.