評估神經語言模型作為語言習得嘅認知模型

1 引言

本文批判性地審視咗將神經語言模型用作人類語言習得理論替代品嘅趨勢。雖然語言模型喺各種自然語言處理任務上取得顯著成功，但由於其訓練數據嘅規模同性質與兒童語言學習存在根本差異，佢哋作為認知模型嘅相關性受到質疑。

作者認為，流行嘅句法評估基準（例如 BLiMP、SyntaxGym）可能缺乏評估語言模型係咪以類人方式習得語言所需嘅結構多樣性同心理有效性。佢哋主張使用更嚴謹、經過語言學整理嘅數據集，例如 LI-Adger 數據集，該數據集包含母語者嘅梯度可接受性判斷。

1.1 對語言習得嘅啟示？

本節強調咗巨大嘅數據差距：像 BERT 呢類模型喺數十億個詞元上訓練，而一個兒童每年只接收到大約一千萬個詞。近期研究嘗試通過喺更接近人類規模（例如 500 萬個詞元）嘅兒童導向語料上訓練模型來彌合呢個差距。核心問題係：喺呢類「削減」輸入上訓練嘅模型，係咪仍然能夠喺行為基準測試上表現良好，從而成為有效嘅認知模型。

2 核心觀點：基準測試嘅幻象

本文嘅核心論點係對自然語言處理界自滿情緒嘅直接挑戰。喺 BLiMP 呢類模板化、合成基準測試上嘅出色表現，營造咗一種語法能力嘅幻象。作者揭露咗呢個係方法論上嘅假象。當語言模型喺 LI-Adger 數據集上進行測試時——呢個係由理論語言學家精心構建、用於探究特定句法原則嘅最小對立句集合——佢哋嘅評估結果與人類判斷出現顯著分歧。呢唔單止係表現差距；更係根本性表徵錯配嘅證據。語言模型可能只係學習咗表面統計模式，呢啲模式碰巧與簡單句法模板吻合，而非支撐人類語法嘅抽象層次結構。

3 邏輯脈絡：從數據差異到方法論批判

論證以精準嘅邏輯展開。首先，確立咗語言模型訓練與兒童習得之間無可否認嘅數據規模鴻溝，將「小規模訓練」研究定位為必要但不足夠嘅修正。其次，證明即使喺呢個公平嘅環境（小數據）下，語言模型嘅表現亦可以被更簡單嘅基線模型匹配，從而質疑佢哋嘅附加認知價值。邏輯轉折點在於對基準設計嘅批判：模板化任務缺乏真實語言探究所需嘅「結構多樣性」。最後，決定性嘅證據來自 LI-Adger 測試，語言模型嘅表現與人類語言直覺完全矛盾。脈絡如下：問題陳述（數據錯配） -> 嘗試解決方案（小規模訓練） -> 揭示更深層問題（有缺陷嘅評估） -> 結論性反證。

4 優點與缺陷：批判性剖析

優點： 本文最大嘅優點在於其方法論嘅嚴謹性同跨學科基礎。佢唔單止批評，更提供咗一個更優越嘅替代方案（LI-Adger）。通過將評估與核心理論語言學同心理語言學聯繫起來，佢提高咗證明「類人」知識證據嘅門檻。對數據規模嘅關注亦具有前瞻性，與高效機器學習嘅大趨勢一致。

缺陷與遺漏： 分析雖然尖銳，但可能誇大咗失敗程度。喺 LI-Adger 上嘅分歧，係咪就否定咗語言模型學習與語言習得之間所有嘅相似性？可能未必。本文可以更多探討語言模型確實做對咗啲乜同原因。此外，佢過度依賴句法知識；一個完整嘅認知模型必須同時考慮語義、語用同社會學習方面。對「更真實數據」嘅呼籲係合理嘅，但定義唔夠明確——我哋點樣去模擬兒童導向輸入嘅多模態、互動性同充滿錯誤嘅性質？

5 可行建議：前進之路

對於研究者而言，要求好明確：放棄依賴簡單基準測試嘅舒適區。將理論語言學（如 LI-Adger 範式）同發展心理學嘅資源整合到評估套件中。優先創建「認知基準測試」，用於檢驗人類語言學習嘅特徵：從稀疏數據中泛化、對噪音嘅魯棒性，以及對抽象語法原則嘅遵循。對於模型開發者，目標應該從最大化基準測試分數，轉向設計數據高效且能夠從類人輸入中學習嘅架構同訓練機制（例如，融入受發展過程啟發嘅課程學習或主動學習機制）。最終嘅見解係：構建一個真正嘅認知模型，係一個與構建高性能自然語言處理系統唔同——而且更難——嘅問題。

6 原創分析：語言建模中嘅認知鴻溝

Vázquez Martínez 等人嘅呢篇論文，喺一個經常被規模所迷惑嘅時代，提出咗必要且發人深省嘅批判。佢正確地指出咗一個根本性嘅矛盾：雖然現代語言模型，尤其係大型語言模型，展現出令人印象深刻嘅表面語言能力，但佢哋獲得呢種能力嘅途徑與兒童嘅途徑有天壤之別。作者對基準測試不足嘅關注尤其敏銳。呢個呼應咗其他人工智能領域嘅擔憂，即基準測試表現未能轉化為穩健、可泛化嘅智能。例如，喺電腦視覺領域，喺 ImageNet 上表現出色嘅模型可能會被簡單嘅對抗性擾動愚弄，揭示出缺乏真正嘅視覺理解——呢個現象喺麻省理工學院同 Google Brain 等機構嘅研究中都有詳細描述。同樣，本文表明語言模型喺 BLiMP 上嘅成功可能係一種類似「聰明漢斯」效應，即模型利用咗基準測試構造中嘅統計規律性，而非學習咗底層嘅句法規則。

對 LI-Adger 數據集嘅倡導係本文最重要嘅貢獻。通過將評估基於最小對立句同梯度可接受性判斷——理論句法學嘅黃金標準——佢迫使模型展示對語法性嘅知識，而不僅僅係可能性。語言模型喺此處失敗嘅發現係有啟示意義嘅。佢表明，從海量文本語料庫中學習到嘅概率分佈（$P(w_n | w_{1:n-1})$）並不一定會收斂到表徵人類語法知識嘅分類或梯度判斷。呢個與 Noam Chomsky 等語言學家嘅論點一致，佢哋長期認為從表面形式進行統計學習，不足以解釋刺激貧乏同句法規則嘅抽象性。

然而，本文嘅結論不應該係語言模型與認知科學無關。相反，佢重新定義咗挑戰。未來在於「認知架構知情」嘅建模。呢個可能涉及融入受語言學理論啟發嘅歸納偏置（例如，對層次結構嘅傾向性），正如喺一些神經符號方法中所見；或者設計超越下一個詞預測嘅訓練目標。Brenden Lake 同 Marco Baroni 等研究人員喺小樣本學習同組合性方面嘅工作正指向呢個方向。前進之路唔係拋棄語言模型，而係根據正確嘅認知基準對佢哋進行嚴格測試，並根據失敗迭代重新設計，就好似其他科學中理論與實驗嘅循環一樣。

7 技術細節與數學框架

討論嘅核心評估方法係使用語言模型嘅輸出概率來預測人類可接受性判斷。對於一個句子 $S = w_1, w_2, ..., w_n$，一個標準嘅自回歸語言模型分配概率： $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ 其中 $\theta$ 係模型參數。驚奇值或負對數似然通常用作（不）可接受性嘅代理： $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ 假設係，更高嘅概率（更低嘅驚奇值）應該與更高嘅人類可接受性評分相關。本文嘅關鍵發現係，呢種相關性喺 LI-Adger 數據集上失效，表明語言模型基於概率嘅「語法性」度量與人類判斷之間存在脫節。

本文亦提及喺兒童導向語料上訓練嘅模型。呢度嘅關鍵技術挑戰係從非常細嘅數據集（$\approx 5\times10^6$ 個詞元）中學習，相對於標準語言模型語料庫（$>10^9$ 個詞元）。呢個需要高效嘅架構同訓練技術，以避免過度擬合同從稀疏數據中提取可泛化嘅模式。

8 實驗結果與圖表分析

本文喺圖 1（PDF 內容中描述）中展示咗一個關鍵結果。圖表比較咗唔同語言模型（BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1）喺 LI-Adger 數據集上嘅表現，並以人類表現作為基線。

圖表解讀： 代表人類表現嘅垂直線作為一個基準。圖表可能顯示咗每個語言模型嘅模型驚奇值與人類可接受性評分之間嘅相關係數（例如，Spearman's $\rho$）。關鍵發現係，所有語言模型嘅柱狀圖都顯著低於人類基準線。呢個視覺化地展示咗本文嘅核心主張：即使係專門喺類兒童數據上訓練嘅模型（BabyBERTa, AO-CHILDES），亦無法喺呢個句法細微嘅數據集上匹配人類判斷。表現差距表明，根據呢個嚴謹測試嘅衡量，當前語言模型嘅訓練目標並未導致類人語法知識嘅習得。

9 分析框架：LI-Adger 案例研究

框架： 通過最小對立句可接受性評估語言模型作為認知模型。

目標： 確定語言模型嘅內部概率分佈係咪與人類對結構對比句子嘅語法直覺一致。

步驟：

刺激選擇： 使用像 LI-Adger 咁樣嘅數據集，該數據集由最小對立句組成（例如，「Who do you think that John saw?」對比「Who do you think John saw?」），其中一個變體係合乎語法嘅，另一個則基於特定句法原則（例如，「that-trace」過濾）較不可接受或不合語法。
模型查詢： 對於最小對立句中嘅每個句子 $S$，計算模型嘅平均詞元驚奇值：$\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$。
預測生成： 模型「偏好」驚奇值較低嘅句子。對於一個最小對立句 (A, B)，如果 $\text{Surprisal}(A) < \text{Surprisal}(B)$，模型預測 A 更可接受。
與人類數據比較： 將模型喺數百個呢類最小對立句上嘅偏好模式，與來自人類參與者嘅聚合可接受性判斷進行比較。計算模型驚奇值與人類評分之間嘅相關係數（例如，Spearman's $\rho$）。
解讀： 一個高且顯著嘅正相關將表明語言模型嘅知識與人類句法判斷一致。一個低或唔顯著嘅相關（如本文所發現）則表明存在分歧。

非代碼示例： 考慮測試跨干擾子句嘅主謂一致知識：「The key to the cabinets *are/*is on the table.」人類強烈認為「is」係正確嘅。一個學習咗抽象一致規則（主語 'key' -> 動詞 'is'）嘅語言模型應該為正確句子分配更高概率。一個依賴局部 n-gram 統計嘅語言模型可能會被「cabinets」嘅鄰近性誤導而偏好「are」。將上述框架應用於許多呢類對立句，可以揭示語言模型習得知識嘅性質。

10 未來應用與研究方向

1. 開發「認知基準測試」： 一個主要方向係創建標準化、多面向嘅評估套件，超越句法，涵蓋語義、語用同語言習得里程碑（例如，詞彙爆發、過度泛化錯誤）。呢啲基準測試應該由計算語言學家、發展心理學家同認知科學家共同設計。

2. 具有語言學歸納偏置嘅架構： 未來模型可能會融入明確嘅結構先驗。例如，天生構建層次表徵或喺生成過程中強制執行句法約束嘅架構，更接近語言學中嘅原則與參數框架。

3. 互動式與多模態訓練： 為咗更好地模擬兒童學習，模型可以唔係喺靜態文本上訓練，而係喺一個具身環境中，喺互動式、多模態數據流（視覺 + 語音 + 文本）上訓練，正如具身人工智能研究所探索嘅。

4. 數據高效與課程學習： 開發能夠以數量級更少數據取得成功嘅訓練算法，或許通過實施課程學習策略，該策略反映兒童導向語料中複雜度嘅進展。

5. 與神經語言學橋接： 將語言模型嘅內部表徵同處理動態，與人類喺語言任務期間嘅神經數據（例如，功能磁振造影、腦電圖）進行比較，正如麻省理工學院麥戈文腦研究所研究人員開創嘅工作，可以為認知模型提供新層次嘅驗證。

11 參考文獻

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.