Model Bahasa Berasaskan Pengetahuan: Mendeduksi Pengetahuan Tatabahasa dalam Simulasi Pemerolehan Bahasa Multi-Agen

1. Pengenalan

Kertas kerja ini membentangkan kajian awal yang dijalankan oleh sistem MODOMA, iaitu persekitaran makmal pengiraan multi-agen untuk eksperimen pemerolehan bahasa tanpa pengawasan. Sistem ini memodelkan interaksi ibu bapa-anak di mana kedua-dua agen adalah model bahasa dengan perwakilan pengetahuan tatabahasa yang eksplisit. Tidak seperti model bahasa besar (LLM) yang bergantung pada rangkaian neural yang legap, MODOMA menyediakan struktur tatabahasa yang telus dan boleh diambil semula.

2. Inti Pati: Rangka Kerja MODOMA

Rangka kerja MODOMA (moeder-dochter-machine) adalah persekitaran simulasi yang diparametrisasikan sepenuhnya. Agen ibu menjana ujaran menggunakan peraturan linguistik yang eksplisit, manakala agen kanak-kanak menggunakan kaedah statistik untuk membuat inferens model berasaskan peraturan bahasa sasaran. Pendekatan hibrid ini merapatkan paradigma berasaskan peraturan dan statistik.

2.1 Reka Bentuk Multi-Agen

Sistem ini melaksanakan gelung interaksi ibu bapa-anak. Agen ibu menghasilkan contoh, dan agen kanak-kanak mengemas kini perwakilan tatabahasanya berdasarkan input. Semua prosedur direkodkan, membolehkan kebolehkesanan penuh proses pemerolehan.

2.2 Perwakilan Pengetahuan Eksplisit

Kedua-dua agen mengekalkan perwakilan eksplisit kategori tatabahasa (cth., kata nama, kata kerja, penentu) dan peraturan. Ini membezakan MODOMA daripada model neural yang mengekod pengetahuan secara tersirat dalam pemberat.

3. Aliran Logik: Reka Bentuk Eksperimen

Kajian ini menyiasat sama ada agen anak perempuan boleh memperoleh kategori fungsian dan kandungan daripada data latihan yang dijana oleh agen dewasa. Eksperimen mengubah jumlah contoh yang disediakan.

3.1 Data Latihan dan Ujian

Agen dewasa menjana ujaran dengan kerumitan yang berbeza-beza. Agen kanak-kanak menerima ujaran ini dan cuba membuat inferens kategori tatabahasa. Data ujian menilai ketepatan tatabahasa yang diperoleh.

3.2 Metrik Penilaian

Kejayaan pemerolehan diukur melalui keupayaan agen kanak-kanak untuk mengkategorikan perkataan dengan betul dan menjana/menghurai ujaran baharu. Keputusan menunjukkan corak yang serupa dengan pemerolehan bahasa manusia, dengan prestasi bertambah baik apabila bilangan contoh meningkat.

4. Kekuatan & Kelemahan: Analisis Kritikal

Kekuatan: Perwakilan eksplisit pengetahuan tatabahasa adalah kelebihan utama berbanding LLM kotak hitam. Reka bentuk berparameter membolehkan eksperimen terkawal. Interaksi multi-agen memodelkan pembelajaran naturalistik.

Kelemahan: Eksperimen semasa terhad kepada struktur tatabahasa yang mudah. Kebolehskalaan kepada bahasa dunia sebenar yang kompleks masih belum terbukti. Kebergantungan pada peraturan buatan tangan untuk agen ibu mungkin memperkenalkan bias.

5. Pandangan Boleh Tindak: Implikasi untuk NLP

MODOMA menawarkan alternatif telus kepada model bahasa neural untuk mengkaji pemerolehan bahasa. Penyelidik boleh menggunakannya untuk menguji teori linguistik secara pengiraan. Rangka kerja ini boleh diperluaskan untuk memodelkan dwibahasa atau gangguan bahasa.

6. Butiran Teknikal dan Perumusan Matematik

Algoritma pemerolehan boleh diformalkan sebagai masalah induksi tatabahasa probabilistik. Biarkan $G$ menjadi tatabahasa dengan kategori $C$ dan peraturan $R$. Agen kanak-kanak mengemas kini kepercayaannya terhadap $G$ berdasarkan ujaran yang diperhatikan $U$:

$$P(G|U) \propto P(U|G) P(G)$$

di mana $P(U|G)$ adalah kemungkinan menjana $U$ di bawah $G$, dan $P(G)$ adalah prior ke atas tatabahasa. Agen kanak-kanak menggunakan prosedur inferens Bayesian untuk mengira posterior.

7. Keputusan Eksperimen dan Penerangan Rajah

Rajah 1 (konseptual): Carta bar yang menunjukkan ketepatan pemerolehan (paksi-y) berbanding bilangan contoh latihan (paksi-x). Ketepatan meningkat daripada ~40% dengan 50 contoh kepada ~85% dengan 500 contoh, dengan dataran tinggi selepas 300 contoh. Bar ralat menunjukkan variasi merentas larian.

Jadual 1: Ketepatan pemerolehan kategori untuk jenis perkataan yang berbeza: kata nama (92%), kata kerja (88%), penentu (95%), preposisi (78%). Agen kanak-kanak berprestasi terbaik pada kategori fungsian dengan kekerapan tinggi.

8. Contoh Rangka Kerja Analisis: Kajian Kes

Pertimbangkan bahasa ringkas seperti Inggeris dengan kategori: D (penentu), N (kata nama), V (kata kerja). Agen ibu menjana ujaran seperti "the cat runs" (D N V). Agen kanak-kanak menerima ini dan membuat hipotesis kategori. Selepas pelbagai contoh, ia belajar bahawa "the" adalah penentu, "cat" dan "dog" adalah kata nama, dan "runs" dan "sleeps" adalah kata kerja. Tatabahasa yang diperoleh kemudiannya boleh menghurai input baharu seperti "a dog sleeps".

9. Aplikasi dan Hala Tuju Masa Depan

MODOMA boleh diperluaskan untuk memodelkan pemerolehan bahasa kedua, penukaran kod, dan peranan interaksi sosial dalam pembelajaran. Integrasi dengan komponen neural boleh menggabungkan yang terbaik dari kedua-dua paradigma. Rangka kerja ini juga berpotensi dalam teknologi pendidikan untuk tunjuk ajar bahasa peribadi.

10. Analisis Asal

Sistem MODOMA mewakili penyimpangan yang ketara daripada model bahasa neural arus perdana dengan mengutamakan ketelusan dan perwakilan tatabahasa yang eksplisit. Walaupun LLM seperti GPT-3 (Brown et al., 2020) mencapai prestasi yang mengagumkan, cara kerja dalaman mereka sebahagian besarnya legap. Pendekatan MODOMA sejajar dengan seruan yang semakin meningkat untuk AI yang boleh ditafsir dalam linguistik (Baroni, 2022). Pemerolehan kategori diskret yang berjaya mencerminkan penemuan dalam perkembangan bahasa kanak-kanak (Tomasello, 2003), mengesahkan kesahan ekologi simulasi. Walau bagaimanapun, pergantungan sistem pada peraturan buatan tangan untuk agen ibu mengehadkan kebolehskalaannya. Kerja masa depan harus meneroka induksi peraturan automatik daripada korpus naturalistik. Perwakilan eksplisit pengetahuan tatabahasa juga membuka jalan untuk perbandingan silang bahasa, kerana bahasa yang berbeza mungkin memerlukan sistem kategori yang berbeza. Kerja ini melengkapi penyelidikan mengenai induksi tatabahasa menggunakan model Bayesian (Perfors et al., 2011) dan menawarkan tempat ujian untuk teori linguistik. Rangka kerja MODOMA mungkin sangat berharga untuk mengkaji hipotesis tempoh kritikal dan peranan kuantiti input dalam pemerolehan.

11. Rujukan

Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
Baroni, M. (2022). On the proper role of linguistically-oriented deep net analysis in linguistic theorizing. Dalam Algebraic Structures in Natural Language.
Tomasello, M. (2003). Constructing a Language: A Usage-Based Theory of Language Acquisition. Harvard University Press.
Perfors, A., Tenenbaum, J. B., & Regier, T. (2011). The learnability of abstract syntactic principles. Cognition, 118(3), 306-338.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.