Menilai Model Bahasa Neural sebagai Model Kognitif Pemerolehan Bahasa

1 Pengenalan

Kertas kerja ini mengkaji secara kritikal trend yang semakin berkembang dalam menggunakan model bahasa neural (LM) sebagai proksi untuk teori pemerolehan bahasa manusia. Walaupun LM telah mencapai kejayaan luar biasa dalam pelbagai tugas NLP, relevansinya sebagai model kognitif dipersoalkan kerana perbezaan asas dalam skala dan sifat data latihan berbanding pembelajaran bahasa kanak-kanak.

Penulis berhujah bahawa penanda aras penilaian sintaksis yang popular (cth., BLiMP, SyntaxGym) mungkin kekurangan kepelbagaian struktur dan kesahan psikologi yang diperlukan untuk menilai sama ada LM memperoleh bahasa dengan cara seperti manusia. Mereka memperjuangkan penggunaan set data yang lebih ketat dan dikurasi secara linguistik seperti set data LI-Adger, yang mengandungi penilaian penerimaan berperingkat daripada penutur asli.

1.1 Implikasi untuk Pemerolehan Bahasa?

Bahagian ini mengetengahkan perbezaan data yang ketara: model seperti BERT dilatih pada berbilion-bilion token, manakala seorang kanak-kanak hanya menerima kira-kira 10 juta perkataan setahun. Kerja terkini cuba merapatkan jurang ini dengan melatih model pada pertuturan yang diarahkan kepada kanak-kanak (CDS) pada skala yang lebih mirip manusia (cth., 5M token). Persoalan utama ialah sama ada model yang dilatih pada input "terpotong" sedemikian masih boleh berprestasi baik pada penanda aras tingkah laku dan seterusnya berfungsi sebagai model kognitif yang sah.

2 Teras Wawasan: Fatamorgana Penanda Aras

Tesis teras kertas kerja ini adalah cabaran langsung kepada sikap selesa komuniti NLP. Prestasi mengagumkan pada penanda aras sintetik berasaskan templat seperti BLiMP mencipta ilusi kecekapan tatabahasa. Penulis mendedahkan ini sebagai artifak metodologi. Apabila LM diuji pada set data LI-Adger—satu set pasangan minimal yang dibina dengan teliti oleh ahli linguistik teori untuk menyiasat prinsip sintaksis tertentu—penilaian mereka menyimpang dengan ketara daripada pertimbangan manusia. Ini bukan sekadar jurang prestasi; ia adalah bukti ketidakpadanan perwakilan asas. LM mungkin mempelajari corak statistik permukaan yang secara kebetulan selari dengan templat sintaksis mudah, bukan struktur hierarki abstrak yang menjadi asas tatabahasa manusia.

3 Aliran Logik: Dari Perbezaan Data ke Kritikan Metodologi

Hujah diteruskan dengan ketepatan pembedahan. Pertama, ia mewujudkan jurang skala data yang tidak dapat dinafikan antara latihan LM dan pemerolehan kanak-kanak, merangka penyelidikan "latihan skala kecil" sebagai pembetulan yang perlu tetapi tidak mencukupi. Kedua, ia menunjukkan bahawa walaupun pada persekitaran yang setara (data kecil), LM boleh disamai oleh garis dasar yang lebih mudah, mempersoalkan nilai kognitif tambahan mereka. Pusingan logik adalah kritikan terhadap reka bentuk penanda aras: tugas berasaskan templat kekurangan "kepelbagaian struktur" penyelidikan linguistik sebenar. Bukti terakhir yang membuktikan kegagalan datang daripada ujian LI-Adger, di mana prestasi LM secara langsung bercanggah dengan intuisi linguistik manusia. Alirannya adalah: penyataan masalah (ketidakpadanan data) -> penyelesaian dicuba (latihan skala kecil) -> pendedahan masalah lebih mendalam (penilaian yang cacat) -> bukti balas muktamad.

4 Kekuatan & Kelemahan: Sebuah Pembedahan Kritikal

Kekuatan: Kekuatan terbesar kertas kerja ini ialah ketegasan metodologi dan asas interdisiplinernya. Ia bukan sekadar mengkritik; ia menawarkan alternatif yang lebih unggul (LI-Adger). Dengan mengikat penilaian kepada linguistik teori teras dan psikolinguistik, ia menaikkan standard untuk apa yang membentuk bukti pengetahuan "seperti manusia". Fokus pada skala data juga bijak, selari dengan trend lebih luas dalam ML cekap.

Kelemahan & Ketinggalan: Analisis, walaupun tajam, berpotensi membesar-besarkan kegagalan. Adakah perbezaan pada LI-Adger membatalkan semua persamaan antara pembelajaran LM dan pemerolehan? Mungkin tidak. Kertas kerja ini boleh melibatkan lebih banyak tentang apa yang LM betul dapat dan mengapa. Tambahan pula, ia sangat bergantung pada pengetahuan sintaksis; model kognitif yang lebih lengkap mesti juga mengambil kira aspek pembelajaran semantik, pragmatik, dan sosial. Seruan untuk "data yang lebih realistik" adalah sah tetapi tidak ditentukan secara spesifik—bagaimana kita memodelkan sifat multimodal, interaktif, dan penuh ralat input yang diarahkan kepada kanak-kanak?

5 Wawasan Boleh Tindak: Jalan ke Hadapan

Untuk penyelidik, mandatnya jelas: tinggalkan keselesaan penanda aras mudah. Integrasikan sumber daripada linguistik teori (seperti paradigma LI-Adger) dan psikologi perkembangan ke dalam suite penilaian. Utamakan penciptaan "penanda aras kognitif" yang menguji ciri-ciri pembelajaran bahasa manusia: generalisasi daripada data jarang, ketahanan terhadap bunyi bising, dan pematuhan kepada prinsip tatabahasa abstrak. Untuk pembangun model, matlamat harus beralih daripada memaksimumkan skor penanda aras kepada mereka bentuk seni bina dan rejim latihan yang cekap data dan boleh belajar daripada input seperti manusia (cth., menggabungkan pembelajaran kurikulum atau mekanisme pembelajaran aktif yang diilhamkan oleh perkembangan). Wawasan utama: membina model kognitif sebenar adalah masalah yang berbeza—dan lebih sukar—daripada membina sistem NLP yang berprestasi.

6 Analisis Asal: Jurang Kognitif dalam Pemodelan Bahasa

Kertas kerja oleh Vázquez Martínez et al. ini menyampaikan kritikan yang perlu dan menyedarkan dalam era yang sering terpesona dengan skala. Ia mengenal pasti dengan betul ketegangan asas: walaupun LM moden, terutamanya model bahasa besar (LLM), mempamerkan kecekapan linguistik permukaan yang mengagumkan, laluan mereka kepada kecekapan itu adalah berbeza secara astronomi daripada kanak-kanak. Fokus penulis pada ketidakcukupan penanda aras adalah sangat bijak. Ia menggema kebimbangan dalam domain AI lain di mana prestasi penanda aras gagal diterjemahkan kepada kecerdasan yang teguh dan boleh digeneralisasikan. Sebagai contoh, dalam penglihatan komputer, model yang cemerlang pada ImageNet boleh dikelirukan oleh gangguan permusuhan mudah, mendedahkan kekurangan pemahaman visual sebenar—fenomena yang diterangkan secara terperinci dalam penyelidikan daripada institusi seperti MIT dan Google Brain. Begitu juga, kertas kerja ini menunjukkan bahawa kejayaan LM pada BLiMP mungkin merupakan kesan "Clever Hans" yang serupa, di mana model mengeksploitasi keteraturan statistik dalam pembinaan penanda aras dan bukannya mempelajari peraturan sintaksis asas.

Penyokongan untuk set data LI-Adger adalah sumbangan paling signifikan kertas kerja ini. Dengan mengasaskan penilaian dalam pasangan minimal dan penilaian penerimaan berperingkat—piawaian emas dalam sintaksis teori—ia memaksa model untuk menunjukkan pengetahuan tentang kegramatisan, bukan sekadar kebarangkalian. Penemuan bahawa LM gagal di sini adalah bermakna. Ia mencadangkan bahawa taburan kebarangkalian yang dipelajari daripada korpus teks yang besar ($P(w_n | w_{1:n-1})$) tidak semestinya menumpu pada penilaian kategori atau berperingkat yang mencirikan pengetahuan tatabahasa manusia. Ini selari dengan hujah ahli linguistik seperti Noam Chomsky, yang lama berpendapat bahawa pembelajaran statistik daripada bentuk permukaan adalah tidak mencukupi untuk menjelaskan kemiskinan rangsangan dan sifat abstrak peraturan sintaksis.

Walau bagaimanapun, kesimpulan kertas kerja ini tidak sepatutnya bahawa LM tidak relevan dengan sains kognitif. Sebaliknya, ia membingkai semula cabaran. Masa depan terletak pada pemodelan "bermaklumat seni bina kognitif". Ini mungkin melibatkan penggabungan bias induktif yang diilhamkan oleh teori linguistik (cth., kecenderungan untuk struktur hierarki), seperti yang dilihat dalam beberapa pendekatan neuro-simbolik, atau mereka bentuk objektif latihan yang melangkaui ramalan perkataan seterusnya. Kerja penyelidik seperti Brenden Lake dan Marco Baroni mengenai pembelajaran sedikit tembakan dan komposisionaliti menunjuk ke arah ini. Jalan ke hadapan bukan untuk membuang LM tetapi untuk mengujinya dengan ketat terhadap penanda aras kognitif yang betul dan mereka bentuk semula secara berulang berdasarkan kegagalan, sama seperti kitaran teori dan eksperimen dalam sains lain.

7 Butiran Teknikal & Kerangka Matematik

Kaedah penilaian teras yang dibincangkan ialah menggunakan kebarangkalian output model bahasa untuk meramal penilaian penerimaan manusia. Untuk ayat $S = w_1, w_2, ..., w_n$, LM autoregresif standard memberikan kebarangkalian: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ di mana $\theta$ ialah parameter model. Kejutan atau log-kebarangkalian negatif sering digunakan sebagai proksi untuk (tidak)penerimaan: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ Hipotesisnya ialah kebarangkalian yang lebih tinggi (kejutan lebih rendah) sepatutnya berkorelasi dengan penilaian penerimaan manusia yang lebih tinggi. Penemuan kritikal kertas kerja ini ialah korelasi ini gagal pada set data LI-Adger, menunjukkan ketidakselarasan antara metrik "kegramatisan" berasaskan kebarangkalian LM dan pertimbangan manusia.

Kertas kerja ini juga merujuk model yang dilatih pada pertuturan yang diarahkan kepada kanak-kanak. Cabaran teknikal utama di sini ialah pembelajaran daripada set data yang sangat kecil ($\approx 5\times10^6$ token) berbanding korpus LM standard ($>10^9$ token). Ini memerlukan seni bina dan teknik latihan yang cekap untuk mengelakkan lampau muat dan mengekstrak corak yang boleh digeneralisasikan daripada data jarang.

8 Keputusan Eksperimen & Analisis Carta

Kertas kerja ini membentangkan keputusan utama dalam Rajah 1 (diterangkan dalam kandungan PDF). Carta membandingkan prestasi LM berbeza (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) pada set data LI-Adger berbanding garis dasar prestasi manusia.

Tafsiran Carta: Garisan menegak yang mewakili prestasi manusia bertindak sebagai penanda aras. Carta mungkin menunjukkan pekali korelasi (cth., Spearman's $\rho$) antara kejutan model dan penilaian penerimaan manusia untuk setiap LM. Penemuan kritikal ialah semua bar LM jatuh jauh di bawah garisan penanda aras manusia. Ini secara visual menunjukkan tuntutan utama kertas kerja: walaupun model yang dilatih khusus pada data seperti kanak-kanak (BabyBERTa, AO-CHILDES) gagal sepadan dengan pertimbangan manusia pada set data bernuansa sintaksis ini. Jurang prestasi menunjukkan bahawa objektif latihan LM semasa tidak membawa kepada pemerolehan pengetahuan tatabahasa seperti manusia, seperti yang diukur oleh ujian ketat ini.

9 Kerangka Analisis: Kajian Kes LI-Adger

Kerangka: Menilai LM sebagai Model Kognitif melalui Penerimaan Pasangan Minimal.

Objektif: Untuk menentukan sama ada taburan kebarangkalian dalaman LM selari dengan intuisi tatabahasa manusia untuk ayat yang berbeza secara struktur.

Prosedur:

Pemilihan Rangsangan: Gunakan set data seperti LI-Adger, yang terdiri daripada pasangan minimal (cth., "Who do you think that John saw?" vs. "Who do you think John saw?") di mana satu varian adalah gramatis dan yang lain kurang boleh diterima atau tidak gramatis, berdasarkan prinsip sintaksis tertentu (cth., penapis "that-trace").
Pertanyaan Model: Untuk setiap ayat $S$ dalam pasangan minimal, kira kejutan token purata model: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$.
Penjanaan Ramalan: Model "lebih suka" ayat dengan kejutan lebih rendah. Untuk pasangan minimal (A, B), jika $\text{Surprisal}(A) < \text{Surprisal}(B)$, model meramalkan A lebih boleh diterima.
Perbandingan dengan Data Manusia: Bandingkan corak keutamaan model merentas beratus-ratus pasangan minimal sedemikian dengan penilaian penerimaan terkumpul daripada peserta manusia. Kira pekali korelasi (cth., Spearman's $\rho$) antara kejutan model dan skor penilaian manusia.
Tafsiran: Korelasi positif yang tinggi dan signifikan akan mencadangkan pengetahuan LM selari dengan pertimbangan sintaksis manusia. Korelasi rendah atau tidak signifikan (seperti yang ditemui dalam kertas kerja) menunjukkan perbezaan.

Contoh Bukan Kod: Pertimbangkan menguji pengetahuan perjanjian subjek-kata kerja merentas klausa mengganggu: "The key to the cabinets *are/*is on the table." Manusia secara teguh menilai "is" sebagai betul. LM yang telah mempelajari peraturan perjanjian abstrak (subjek 'key' -> kata kerja 'is') sepatutnya memberikan kebarangkalian lebih tinggi kepada ayat yang betul. LM yang bergantung pada statistik n-gram tempatan mungkin terpedaya oleh kedekatan "cabinets" dan lebih suka "are." Menggunakan kerangka di atas pada banyak pasangan sedemikian mendedahkan sifat pengetahuan yang diperoleh LM.

10 Aplikasi Masa Depan & Arah Penyelidikan

1. Pembangunan "Penanda Aras Kognitif": Arah utama ialah penciptaan suite penilaian piawai, pelbagai aspek yang melangkaui sintaksis untuk memasukkan semantik, pragmatik, dan pencapaian pemerolehan bahasa (cth., lonjakan perbendaharaan kata, ralat lampau umum). Penanda aras ini harus direka bersama oleh ahli linguistik pengiraan, ahli psikologi perkembangan, dan saintis kognitif.

2. Seni Bina dengan Bias Induktif Linguistik: Model masa depan mungkin menggabungkan prior struktur eksplisit. Sebagai contoh, seni bina yang secara semula jadi membina perwakilan hierarki atau menguatkuasakan kekangan sintaksis semasa penjanaan, bergerak lebih dekat kepada kerangka prinsip-dan-parameter dalam linguistik.

3. Latihan Interaktif dan Multimodal: Untuk mensimulasikan pembelajaran kanak-kanak dengan lebih baik, model boleh dilatih bukan pada teks statik tetapi pada aliran data multimodal interaktif (penglihatan + pertuturan + teks) dalam persekitaran berasaskan, seperti yang diterokai dalam penyelidikan AI berbadan.

4. Pembelajaran Cekap Data dan Kurikulum: Membangunkan algoritma latihan yang berjaya dengan data yang kurang beberapa magnitud, mungkin dengan melaksanakan strategi pembelajaran kurikulum yang mencerminkan perkembangan kerumitan dalam pertuturan yang diarahkan kepada kanak-kanak.

5. Menjambatani ke Neurolinguistik: Membandingkan perwakilan dalaman dan dinamik pemprosesan LM dengan data neural daripada manusia (cth., fMRI, EEG) semasa tugas bahasa, seperti yang dipelopori oleh kerja penyelidik di Institut McGovern MIT, boleh memberikan tahap pengesahan baharu untuk model kognitif.

11 Rujukan

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.