1. 緒論

兒童的語言習得遵循著極其一致的順序:從音素分類到詞彙發展,最終掌握複雜的句法結構。這種從嬰兒期到大約六歲所觀察到的發展軌跡,引發了關於其背後計算原理的根本性問題。這種階段性學習是人類神經生物學的獨特特徵,還是能在人工系統中湧現?本研究透過比較54名兒童(18個月至6歲)與48個從頭開始訓練的GPT-2模型的學習軌跡,直接探討此問題。核心假設是:如果兩者都出現相似的階段,則可能指向共享的、由資料驅動的學習約束。

2. 研究方法

本研究採用比較框架,在人類與人工學習者發展的多個階段對其進行探測。

2.1 實驗設置

兒童: 分析了54名兒童的語言產出。根據Friedmann等人(2021)建立的方法,評估了他們的自發性言語以及重複不同句法複雜度句子的能力。

GPT-2模型: 48個GPT-2模型實例(124M參數變體)從隨機初始化開始,以標準語言建模目標(例如WebText)進行訓練。在整個訓練過程中,定期探測其內部狀態。

2.2 資料收集與探針

從已建立的基準測試中精選了96個診斷探針:

  • BLiMP: 用於評估涵蓋67種句法現象的語法知識。
  • Zorro: 用於探測語義與常識推理。
  • BIG-Bench: 用於評估更廣泛的語言與認知能力。

這些探針在每個訓練檢查點應用於GPT-2模型,並作為與兒童產出任務類似的衡量指標。

3. 結果與分析

3.1 學習軌跡比較

分析顯示,GPT-2模型與兒童一樣,以系統性的順序習得語言技能。較簡單的任務(例如,基本的語法一致性)在訓練早期即被掌握,而更複雜的任務(例如,像關係子句這樣的嵌套句法結構)則需要顯著更多的訓練步數(類似於發展時間)。

3.2 平行學習模式

一個關鍵發現是學習的平行特性。即使在訓練後期才完全掌握的任務,從第一步開始就顯示出可測量的進步。這表明模型建立了基礎表徵並持續精煉,而非以嚴格、孤立的順序學習技能。

3.3 共享與分歧階段

本研究識別了重疊與關鍵分歧:

  • 共享: 從簡單到更複雜句法形式的廣泛進展順序。
  • 分歧: 某些子技能的具體順序不同。例如,模型可能以不同於兒童的順序習得某些形式句法規則,這可能是由於訓練資料分佈與人類感知和社會經驗的差異所致。

這突顯出,雖然資料驅動的壓力創造了階段性,但階段序列的具體細節會受到學習者架構與輸入的調節。

關鍵實驗指標

訓練模型: 48個GPT-2實例

診斷探針: 來自BLiMP、Zorro、BIG-Bench的96項任務

兒童參與者: 54名(18個月至6歲)

核心發現: 兒童與模型在學習階段順序上存在顯著相關性,但並非完全相同。

4. 技術框架

4.1 數學公式

GPT-2的核心學習目標是透過最大似然估計進行下一個詞元預測。給定一個詞元序列 $x_1, x_2, ..., x_t$,參數為 $\theta$ 的模型被訓練以最小化負對數似然:

$L(\theta) = -\sum_{t} \log P(x_t | x_{

在訓練步數 $\tau$ 時,針對特定語言探針 $p$ 的探針準確率 $A_p(\theta, \tau)$ 衡量了湧現的能力。學習軌跡是函數 $\tau \rightarrow \{A_{p_1}(\theta, \tau), A_{p_2}(\theta, \tau), ...\}$。本研究的分析比較了不同探針 $p$ 在模型訓練步數 $\tau$ 與兒童年齡上跨越性能閾值(例如,80%準確率)的順序。

4.2 分析框架範例

案例:追蹤關係子句習得

探針任務: 區分合乎語法("The boy that I saw sang")與不合語法("The boy that I saw sing")的句子。

分析步驟:

  1. 資料擷取: 對於每個模型檢查點 $\tau$,計算在100個平衡的關係子句探針集上的準確率。
  2. 閾值設定: 將習得步數 $\tau_{acquire}$ 定義為第一個準確率 > 80% 且在後續檢查中保持高於此值的檢查點。
  3. 相關性分析: 比較關係子句探針的 $\tau_{acquire}$ 順序排名與其他句法探針(例如,主謂一致、疑問句形成)的順序排名。
  4. 與人類對齊: 將 $\tau_{acquire}$ 映射到兒童在產出中掌握此結構的典型年齡範圍(例如,約42個月)。

此框架允許對根本不同的學習系統之間的發展時間表進行量化比較。

5. 結果視覺化

概念圖表:學習軌跡比較

結果可以在雙軸圖上視覺化:

  • X軸(時間): 對兒童而言是年齡(月)。對GPT-2而言是訓練步數(對數尺度)。
  • Y軸: 標準化尺度上的性能準確率(%)。
  • 多條線: 每條線代表不同的語言技能(例如,音素辨別、基本主謂賓結構、疑問句形成、嵌套句法)。

該圖表將顯示兩種軌跡對每項技能都呈現S型學習曲線,但各條線的順序(哪項技能先上升)相似但不完全相同。第二個關鍵視覺化將是一個熱圖,顯示模型集合在所有96個探針上的習得順序相關矩陣,與兒童觀察到的順序進行對比,突顯出高相關與低相關的集群。

6. 核心洞見與分析師觀點

核心洞見: 本文提出了一個關鍵且細微的發現:語言學習的階段性並非人類獨有的奧秘,而是在約束下,增量式、資料驅動的最佳化所湧現的特性。然而,這些階段的藍圖是由學習者內在架構共同編寫的。GPT-2與兒童在「從簡單到複雜」的學習進程上趨同,是因為資料本身就包含了這種進程。它們在具體細節上產生分歧,是因為Transformer的「歸納偏置」(Vaswani等人,2017)與人類兒童的認知和感知先驗不同。

邏輯流程: 論證結構優雅。它從一個確立的經驗事實(兒童的階段性順序)出發,提出一個計算問題(這種順序是否會在AI中湧現?),並使用一個穩健的多探針方法來驗證。從證明「順序存在」到分析其「平行特性」,最後剖析「共享/分歧」元素,邏輯性強而有力。這類似於像CycleGAN論文(Zhu等人,2017)這類奠基性工作中的分析進展,該論文不僅提出了一個新模型,還系統性地將不成對圖像翻譯的問題分解為循環一致性約束。

優點與缺陷: 本研究的優點在於其方法論的嚴謹性和直接可比性。使用多個模型實例和大量探針集減少了雜訊。一個主要的缺陷(雖未明言但已隱含承認)是衡量方式的不對稱性:兒童的語言產出 vs. 模型的內部探針準確率。模型在探針中「知道」一條句法規則,是否等同於兒童在自發性言語中「使用」它?不一定。這類似於對ImageNet等基準測試的批評,即模型學會了捷徑(Geirhos等人,2020)。探針套件雖然廣泛,但可能未能捕捉到人類語言習得的整合性、溝通性本質。

可操作的洞見: 對於AI研究人員而言,這是課程學習和模型診斷的寶庫。如果我們希望模型像人類一樣學習,就需要設計能更好反映人類發展時間表的訓練資料序列或損失函數。對於認知科學家而言,這項工作提供了一個新的、可操控的測試平台:改變模型的架構(例如,引入像LSTM中的循環連接)或訓練資料(例如,添加多模態輸入),觀察發展軌跡如何變化。這可能有助於分離特定人類偏置的貢獻。最終的洞見是:建構更好的AI與理解人類認知,現在已成為一項單一且相互交織的事業。

7. 未來應用與方向

  • AI的發展里程碑基準: 為大型語言模型創建標準化的「發展里程碑」基準,從靜態評估轉向動態軌跡分析。
  • 有依據的課程設計: 利用兒童發展的洞見來構建訓練資料順序,以實現更高效、更穩健的模型訓練,可能減少資料與計算需求。
  • 架構創新: 設計融入假設的人類認知偏置(例如,物體恆存性、社會獎勵訊號)的新型神經網路架構,觀察其是否會導致更接近人類的學習軌跡。
  • 臨床工具: 開發遵循非典型學習軌跡(模擬發展性語言障礙)的AI模型,以在電腦模擬中生成假設並測試干預措施。
  • 多模態整合: 將此研究擴展到多模態模型(視覺、音訊、文字)。是否會湧現出跨模態整合(例如,從視覺情境學習詞義)先於或後於純語言階段的階段,從而反映嬰兒的學習過程?

8. 參考文獻

  1. Evanson, L., Lakretz, Y., & King, J. (2023). Language acquisition: do children and language models follow similar learning stages? arXiv preprint arXiv:2306.03586.
  2. Friedmann, N., Reznick, J., & et al. (2021). The order of acquisition of syntactic structures: A study of Hebrew-speaking children. Language Acquisition.
  3. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  4. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
  5. Geirhos, R., Jacobsen, J. H., Michaelis, C., Zemel, R., Brendel, W., Bethge, M., & Wichmann, F. A. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665-673.
  6. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
  7. Bowman, S. R., & Dahl, G. E. (2021). What will it take to fix benchmarking in natural language understanding? Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.