評估神經語言模型作為語言習得的認知模型

1 引言

本文批判性地審視了將神經語言模型作為人類語言習得理論代理的日益增長的趨勢。儘管語言模型在各種自然語言處理任務上取得了顯著成功，但由於其訓練數據的規模和性質與兒童語言學習存在根本差異，它們作為認知模型的相關性受到質疑。

作者認為，流行的句法評估基準（例如 BLiMP、SyntaxGym）可能缺乏評估語言模型是否以類人方式習得語言所需的結構多樣性和心理有效性。他們主張使用更嚴謹、經過語言學整理的數據集，例如 LI-Adger 數據集，該數據集包含了母語者的梯度可接受性判斷。

1.1 對語言習得的啟示？

本節強調了顯著的數據差異：像 BERT 這樣的模型在數十億個詞元上進行訓練，而兒童每年僅接收約一千萬個單詞。近期研究試圖通過在更接近人類規模的兒童導向語料（例如 500 萬個詞元）上訓練模型來彌合這一差距。核心問題是，在此類「削減」輸入上訓練的模型是否仍能在行為基準上表現良好，從而成為有效的認知模型。

2 核心洞見：基準測試的幻象

本文的核心論點直接挑戰了自然語言處理領域的自滿情緒。在模板化、合成的基準測試（如 BLiMP）上取得的令人印象深刻的表現，創造了一種語法能力的幻象。作者揭露這是一種方法論上的假象。當語言模型在 LI-Adger 數據集上進行測試時——這是一個由理論語言學家精心構建的、旨在探測特定句法原則的最小配對集——它們的評估結果與人類判斷顯著不同。這不僅僅是性能差距；它證明了根本的表徵不匹配。語言模型可能正在學習表面的統計模式，這些模式偶然與簡單的句法模板一致，而非支撐人類語法的抽象層次結構。

3 邏輯脈絡：從數據差異到方法論批判

論證以精準的邏輯展開。首先，它確立了語言模型訓練與兒童習得之間無可否認的數據規模鴻溝，將「小規模訓練」研究定位為必要但不充分的修正。其次，它證明即使在這個公平的競爭環境（小數據）中，語言模型的表現也可能被更簡單的基線模型匹配，從而質疑其附加的認知價值。邏輯的轉折點在於對基準設計的批判：模板化任務缺乏真實語言探究的「結構多樣性」。最後，決定性的證據來自 LI-Adger 測試，其中語言模型的表現與人類語言直覺完全矛盾。脈絡是：問題陳述（數據不匹配） -> 嘗試解決方案（小規模訓練） -> 揭示更深層問題（有缺陷的評估） -> 結論性的反證。

4 優點與缺陷：批判性剖析

優點：本文最大的優點是其方法論的嚴謹性和跨學科基礎。它不僅僅是批評；還提供了一個更優越的替代方案（LI-Adger）。通過將評估與核心理論語言學和心理語言學聯繫起來，它提高了構成「類人」知識證據的標準。對數據規模的關注也具有前瞻性，與高效機器學習的更廣泛趨勢相一致。

缺陷與遺漏：分析雖然尖銳，但可能誇大了失敗的程度。在 LI-Adger 上的分歧是否就否定了語言模型學習與習得之間的所有相似性？也許並非如此。本文可以更多地探討語言模型確實做對了什麼以及原因。此外，它嚴重依賴句法知識；一個完整的認知模型還必須考慮語義、語用和社會學習等方面。對「更真實數據」的呼籲是合理的，但定義不明確——我們如何對兒童導向輸入的多模態、互動性和充滿錯誤的特性進行建模？

5 可行建議：前進之路

對研究者而言，任務很明確：放棄對簡單基準測試的依賴。將來自理論語言學（如 LI-Adger 範式）和發展心理學的資源整合到評估套件中。優先創建「認知基準」，以測試人類語言學習的特徵：從稀疏數據中泛化、對噪音的魯棒性以及對抽象語法原則的遵守。對於模型開發者，目標應從最大化基準分數轉向設計數據高效且能從類人輸入中學習的架構和訓練機制（例如，融入受發展啟發的課程學習或主動學習機制）。最終的洞見是：建立一個真正的認知模型，與建立一個高性能的自然語言處理系統是不同且更困難的問題。

6 原創分析：語言建模中的認知鴻溝

Vázquez Martínez 等人的這篇論文在一個常被規模所迷惑的時代，提供了一個必要且發人深省的批判。它正確地指出了一個根本的張力：雖然現代語言模型，尤其是大型語言模型，展現了令人印象深刻的表層語言能力，但其獲得這種能力的途徑與兒童的途徑有天壤之別。作者對基準測試不足的關注尤為敏銳。這呼應了其他人工智慧領域的擔憂，即基準測試性能未能轉化為穩健、可泛化的智能。例如，在電腦視覺領域，在 ImageNet 上表現出色的模型可能會被簡單的對抗性擾動所愚弄，揭示了其缺乏真正的視覺理解——這是麻省理工學院和 Google Brain 等機構的研究中詳細描述的現象。同樣，本文表明，語言模型在 BLiMP 上的成功可能是一種類似的「聰明漢斯」效應，即模型利用了基準構建中的統計規律性，而非學習底層的句法規則。

倡導使用 LI-Adger 數據集是本文最重要的貢獻。通過將評估建立在最小配對和梯度可接受性判斷——理論句法學的黃金標準——之上，它迫使模型展示對語法性的知識，而不僅僅是可能性。語言模型在此失敗的發現具有啟發性。這表明，從龐大文本語料庫中學習到的概率分佈（$P(w_n | w_{1:n-1})$）並不一定會收斂到表徵人類語法知識的類別性或梯度性判斷。這與 Noam Chomsky 等語言學家的論點一致，他們長期以來認為，從表層形式進行的統計學習不足以解釋刺激貧乏和句法規則的抽象性。

然而，本文的結論不應是語言模型與認知科學無關。相反，它重新定義了挑戰。未來在於「認知架構知情」的建模。這可能涉及融入受語言學理論啟發的歸納偏置（例如，對層次結構的傾向性），正如一些神經符號方法中所見，或者設計超越下一個詞預測的訓練目標。Brenden Lake 和 Marco Baroni 等研究者在少樣本學習和組合性方面的工作指出了這個方向。前進之路不是拋棄語言模型，而是根據正確的認知基準對其進行嚴格測試，並根據失敗迭代地重新設計它們，就像其他科學中理論與實驗的循環一樣。

7 技術細節與數學框架

討論的核心評估方法是使用語言模型的輸出概率來預測人類的可接受性判斷。對於一個句子 $S = w_1, w_2, ..., w_n$，一個標準的自迴歸語言模型分配概率： $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ 其中 $\theta$ 是模型參數。驚奇值或負對數似然常被用作（不）可接受性的代理： $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ 假設是更高的概率（更低的驚奇值）應與更高的人類可接受性評分相關。本文的關鍵發現是，這種相關性在 LI-Adger 數據集上失效，表明語言模型基於概率的「語法性」度量與人類判斷之間存在脫節。

本文還提到了在兒童導向語料上訓練的模型。這裡的關鍵技術挑戰是從非常小的數據集（$\approx 5\times10^6$ 個詞元）中學習，相對於標準的語言模型語料庫（$>10^9$ 個詞元）。這需要高效的架構和訓練技術，以避免過度擬合，並從稀疏數據中提取可泛化的模式。

8 實驗結果與圖表分析

本文在圖 1 中展示了一個關鍵結果（在 PDF 內容中描述）。該圖表比較了不同語言模型（BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1）在 LI-Adger 數據集上相對於人類表現基線的性能。

圖表解讀：代表人類表現的垂直線作為一個基準。圖表可能顯示了每個語言模型的驚奇值與人類可接受性評分之間的相關係數（例如 Spearman 的 $\rho$）。關鍵發現是，所有語言模型的柱狀圖都顯著低於人類基準線。這直觀地展示了本文的核心主張：即使是專門在類兒童數據（BabyBERTa, AO-CHILDES）上訓練的模型，也無法在這個句法細微的數據集上匹配人類判斷。性能差距表明，根據這項嚴格測試的衡量，當前的語言模型訓練目標並未導致獲得類人的語法知識。

9 分析框架：LI-Adger 案例研究

框架：通過最小配對可接受性評估語言模型作為認知模型。

目標：確定語言模型的內部概率分佈是否與人類對結構對比句子的語法直覺一致。

步驟：

刺激選擇：使用像 LI-Adger 這樣的數據集，該數據集由最小配對組成（例如，「Who do you think that John saw?」與「Who do you think John saw?」），其中一個變體是合乎語法的，另一個根據特定句法原則（例如「that-trace」過濾器）較不可接受或不合語法。
模型查詢：對於最小配對中的每個句子 $S$，計算模型的平均詞元驚奇值：$\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$。
預測生成：模型「偏好」驚奇值較低的句子。對於一個最小配對 (A, B)，如果 $\text{Surprisal}(A) < \text{Surprisal}(B)$，則模型預測 A 更可接受。
與人類數據比較：將模型在數百個此類最小配對上的偏好模式與來自人類參與者的聚合可接受性判斷進行比較。計算模型驚奇值與人類評分之間的相關係數（例如 Spearman 的 $\rho$）。
解讀：一個高且顯著的正相關將表明語言模型的知識與人類句法判斷一致。一個低或非顯著的相關性（如本文所發現）則表明存在分歧。

非程式碼範例：考慮測試對跨越干擾子句的主謂一致的知識：「The key to the cabinets *are/*is on the table.」人類強烈認為「is」是正確的。一個學會了抽象一致規則（主語 'key' -> 動詞 'is'）的語言模型應該為正確的句子分配更高的概率。一個依賴局部 n-gram 統計的語言模型可能會被「cabinets」的鄰近性誤導而偏好「are」。將上述框架應用於許多這樣的配對，可以揭示語言模型所獲得知識的本質。

10 未來應用與研究方向

1. 開發「認知基準」：一個主要方向是創建標準化、多方面的評估套件，超越句法，涵蓋語義、語用和語言習得里程碑（例如，詞彙爆發、過度泛化錯誤）。這些基準應由計算語言學家、發展心理學家和認知科學家共同設計。

2. 具有語言學歸納偏置的架構：未來的模型可能會融入明確的結構先驗。例如，天生構建層次表徵或在生成過程中強制執行句法約束的架構，更接近語言學中的原則與參數框架。

3. 互動式與多模態訓練：為了更好地模擬兒童學習，模型可以在具身人工智慧研究中探索的、在接地環境中的互動式、多模態數據流（視覺 + 語音 + 文本）上進行訓練，而非靜態文本。

4. 數據高效與課程學習：開發能夠以數量級更少的數據取得成功的訓練演算法，或許可以通過實施反映兒童導向語料複雜性進展的課程學習策略來實現。

5. 橋接神經語言學：將語言模型的內部表徵和處理動態與人類在語言任務中的神經數據（例如 fMRI、EEG）進行比較，正如麻省理工學院麥戈文研究所研究人員開創的工作那樣，可以為認知模型提供新的驗證層次。

11 參考文獻

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.