VocAgnoLM: Mengatasi Ketidakpadanan Perbendaharaan Kata dalam Latihan Model Bahasa Guru-Murid

1. Pengenalan & Penyataan Masalah

Paradigma utama untuk melatih model bahasa yang lebih kecil dan cekap (murid) melibatkan bimbingan daripada model yang lebih besar dan berkemampuan (guru). Walau bagaimanapun, pendekatan ini menemui halangan asas: ketidakpadanan perbendaharaan kata. Apabila model guru dan murid menggunakan tokenizer yang berbeza—situasi biasa apabila memanfaatkan model sumber terbuka atau khusus yang pelbagai—jujukan token dan taburan kebarangkalian output mereka menyimpang, melumpuhkan pemindahan pengetahuan yang berkesan. Seperti yang ditunjukkan dalam kertas kerja, model terkini seperti Qwen2.5-Math mungkin berkongsi serendah 6.32% perbendaharaan katanya dengan murid seperti TinyLlama, mewujudkan halangan besar untuk menggunakan model terbaik yang ada sebagai guru.

2. Rangka Kerja VocAgnoLM

Pemodelan Bahasa Dipandu Guru yang Bebas Perbendaharaan Kata (VocAgnoLM) mencadangkan penyelesaian dua hala untuk merapatkan jurang ini, membolehkan penyulingan pengetahuan yang bebas daripada perbendaharaan kata.

2.1 Inti Pati & Aliran Logik

Inti Pati: Halangan asas bukanlah seni bina model, tetapi ketidakselarasan perwakilan. Anda tidak boleh membandingkan epal (token Qwen) dengan oren (token TinyLlama) secara langsung. Kehebatan VocAgnoLM terletak pada membingkai semula masalah daripada "memadankan output" kepada "menyelaraskan ruang semantik dan isyarat pembelajaran." Ia memisahkan pengetahuan guru daripada skema tokenisasi khususnya.

Aliran Logik: Proses ini berurutan dengan elegan: 1) Untuk teks input yang diberikan, jana jujukan token untuk kedua-dua model murid dan guru. 2) Gunakan Penjajaran Leksikal pada Tahap Token untuk mencipta pemetaan antara jujukan yang tidak sepadan. 3) Manfaatkan pemetaan ini untuk menggunakan Kerugian Dipandu Guru, menggunakan kerugian dalaman guru sebagai isyarat latihan untuk murid, memintas pemadanan kebarangkalian token secara langsung.

2.2 Penjajaran Leksikal pada Tahap Token

Komponen ini menangani masalah ketidakselarasan jujukan. Ia mewujudkan pemetaan satu-kepada-banyak daripada setiap token murid kepada subjujukan token guru yang sepadan. Sebagai contoh, token murid "Pro" mungkin dipetakan kepada token guru "Prob" dan "ability". Ini secara konsepnya serupa dengan teknik penjajaran dalam terjemahan mesin (seperti yang digunakan dalam MT statistik atau model neural awal) tetapi digunakan pada tahap subkata merentasi skema tokenisasi yang berbeza. Matlamatnya adalah untuk mencipta jambatan yang membolehkan aliran maklumat walaupun terdapat ketidakhubungan leksikal.

2.3 Kerugian Dipandu Guru

Daripada memaksa murid meniru taburan kebarangkalian token seterusnya guru—yang mustahil dengan perbendaharaan kata yang berbeza—VocAgnoLM menggunakan kerugian pemodelan bahasa guru sendiri sebagai panduan. Murid dilatih untuk meminimumkan objektif gabungan: kerugian pemodelan bahasa piawainya dan kerugian yang menggalakkan perwakilan atau ramalan dalamannya membawa kepada nilai kerugian yang rendah untuk model guru pada jujukan yang diselaraskan. Ini adalah bentuk bimbingan yang lebih abstrak, namun berkuasa.

3. Kekuatan & Kelemahan Kritikal

Kekuatan:

Membuka Kepelbagaian Model: Ini adalah ciri utama. Ia memecahkan penguncian vendor/ekosistem, membolehkan pasukan menggunakan model terbaik yang ada (cth., Qwen khusus matematik) untuk mengajar mana-mana murid, tanpa mengira asalnya (cth., TinyLlama).
Pragmatik & Ringan: Ia tidak memerlukan latihan semula tokenizer guru atau lapisan penyematan murid, mengelakkan beban kejuruteraan yang besar.
Keputusan Empirikal yang Kukuh: Peningkatan prestasi 46% berbanding pralatihan naif dengan ketidakpadanan perbendaharaan kata yang teruk bukanlah perkara remeh. Ia menunjukkan pendekatan ini berkesan dalam praktik.

Kelemahan Kritikal & Persoalan Terbuka:

Heuristik Penjajaran Adalah Kotak Hitam: Kertas kerja ini mengabaikan algoritma tepat untuk "Penjajaran Leksikal pada Tahap Token." Adakah ia pengaturcaraan dinamik? Model yang dipelajari? Kekukuhan dan kos pengiraan langkah penjajaran ini adalah perkara yang tidak diketahui dan penting. Penjajaran yang lemah boleh menyebarkan hingar dan bukannya pengetahuan.
Kehilangan Isyarat Terperinci: Menggunakan kerugian skalar guru mengorbankan isyarat kaya dan berdimensi tinggi daripada taburan output penuhnya. Ia ibarat belajar daripada gred akhir dan bukannya maklum balas terperinci untuk setiap jawapan. Ini mungkin mengehadkan ketepatan pemindahan pengetahuan untuk keupayaan linguistik yang bernuansa.
Kebolehskalaan kepada Ketidakpadanan Ekstrem: Ketidakpadanan yang diuji (6% pertindihan) adalah teruk, tetapi bagaimana dengan pertindihan hampir sifar? Had teori pendekatan ini belum diuji.

4. Keputusan Eksperimen & Analisis

4.1 Persediaan & Metrik Prestasi

Kajian ini menggunakan model murid 1B parameter (TinyLlama) dan pelbagai model guru 7B (Llemma, Mistral, DeepSeek-Math, Qwen2.5-Math) dengan saiz perbendaharaan kata antara 32K hingga 150K. Metrik utama adalah prestasi pada suite penilaian matematik, membandingkan VocAgnoLM dengan garis dasar pralatihan berterusan tanpa bimbingan guru.

4.2 Penemuan Utama & Tafsiran Carta

Keputusan utama divisualisasikan dalam Rajah 1 kertas kerja. Ia menunjukkan dua tren kritikal:

Masalah Ketidakpadanan Perbendaharaan Kata: Paksi-x menunjukkan model guru dengan prestasi meningkat (daripada Llemma ke Qwen2.5-Math). Palang menunjukkan pertindihan perbendaharaan kata mereka dengan TinyLlama. Terdapat hubungan songsang yang jelas: guru yang paling berprestasi (Qwen) mempunyai pertindihan terkecil (~6%). Ini jelas menggambarkan masalah yang ingin diselesaikan oleh VocAgnoLM.
Keberkesanan VocAgnoLM: Teks menyatakan bahawa dengan Qwen2.5-Math sebagai guru, VocAgnoLM mencapai peningkatan prestasi 46% berbanding garis dasar. Ini membuktikan rangka kerja ini berjaya memanfaatkan guru yang kuat walaupun persamaan perbendaharaan kata minimum. Kertas kerja juga menyatakan manfaat konsisten daripada guru yang lebih kuat, mengesahkan premis teras.

Keputusan Eksperimen Utama

Peningkatan Prestasi 46% dicapai oleh VocAgnoLM menggunakan Qwen2.5-Math (6.32% pertindihan perbendaharaan kata) sebagai guru untuk TinyLlama, berbanding pralatihan berterusan piawai.

5. Pandangan Tindakan & Implikasi Strategik

Untuk pengamal dan pemimpin dalam AI:

Taktik Segera: Jika anda membina model khusus (cth., untuk kewangan, undang-undang, bioperubatan), berhenti mengehadkan pencarian guru anda kepada model dengan tokenizer yang serasi. Nilai secara aktif model berprestasi tinggi dalam domain anda, tanpa mengira tokenizer mereka. VocAgnoLM menyediakan laluan yang boleh dilaksanakan untuk menggunakannya.
Perolehan Strategik: Penyelidikan ini mengurangkan risiko "penguncian tokenizer." Apabila memilih model asas untuk organisasi anda, keserasian perbendaharaan kata menjadi kekangan yang kurang kritikal, membebaskan anda untuk memilih berdasarkan seni bina, pelesenan, dan prestasi semata-mata.
Pelaburan Penyelidikan: Komponen penjajaran adalah kunci. Melabur dalam kaedah penjajaran yang kukuh, cekap, dan mungkin boleh dipelajari akan menjadi kunci untuk mengindustrikan pendekatan ini. Anggap ia sebagai sempadan seterusnya dalam kebolehoperasian model.
Perhatian: Ini bukanlah penyelesaian ajaib. Untuk tugas yang memerlukan penjanaan tepat atau peniruan gaya, kehilangan pemadanan taburan terperinci mungkin menjadi kelemahan besar. Uji rintis untuk tugas intensif pengetahuan (seperti matematik, penaakulan) dahulu.

6. Selaman Mendalam Teknikal

6.1 Formulasi Matematik

Walaupun fungsi kerugian penuh tidak diterangkan secara eksplisit dalam petikan yang diberikan, idea teras boleh diformalkan. Biarkan $\mathcal{V}_s$ dan $\mathcal{V}_t$ menjadi perbendaharaan kata murid dan guru. Untuk jujukan input $x$, murid menghasilkan jujukan token $\mathbf{s} = [s_1, ..., s_n]$ dan guru menghasilkan $\mathbf{t} = [t_1, ..., t_m]$, dengan $n \neq m$ secara umumnya.

Fungsi Penjajaran Leksikal pada Tahap Token $\mathcal{A}$ memetakan setiap token murid $s_i$ kepada subjujukan token guru yang bersebelahan: $\mathcal{A}(s_i) = \mathbf{t}_{[j:k]}$.

Kerugian Dipandu Guru $\mathcal{L}_{guide}$ kemungkinan melibatkan memberi makan perwakilan atau ramalan yang diperoleh daripada murid (diselaraskan melalui $\mathcal{A}$) ke dalam laluan ke hadapan guru dan mengira kerugian pemodelan bahasa guru padanya. Objektif latihan total murid menjadi:

$$\mathcal{L}_{total} = \mathcal{L}_{LM}(\theta_s; x) + \lambda \cdot \mathcal{L}_{guide}(\theta_s, \theta_t; x, \mathcal{A})$$

di mana $\theta_s$ dan $\theta_t$ adalah parameter murid dan guru, $\mathcal{L}_{LM}$ adalah kerugian pemodelan bahasa piawai murid, dan $\lambda$ adalah hiperparameter pemberat. Kuncinya ialah $\mathcal{L}_{guide}$ beroperasi pada jujukan yang diselaraskan, memintas ketidakpadanan perbendaharaan kata secara langsung.

6.2 Rangka Kerja Analisis: Kajian Kes

Skenario: Sebuah syarikat ingin mencipta LLM padat dan cekap untuk analisis dokumen undang-undang. Guru khusus terbaik yang ada ialah `LexLaw-70B`, yang menggunakan tokenizer tersuai dilatih pada korpus undang-undang. Murid sasaran adalah model `Llama-3-8B`.

Aplikasi Rangka Kerja:

Diagnosis Masalah: Analisis pertindihan perbendaharaan kata. Kemungkinan di bawah 20%. Penyulingan pengetahuan langsung adalah mustahil.
Fasa Penjajaran: Jalankan sampel teks undang-undang melalui kedua-dua model. Gunakan modul penjajaran VocAgnoLM (cth., algoritma jarak edit minimum pada pengekodan pasangan bait) untuk membina pemetaan $\mathcal{A}$ antara token Llama-3 dan jujukan token LexLaw untuk istilah undang-undang biasa (cth., "force majeure").
Fasa Latihan: Latih murid Llama-3 pada korpus undang-undang. Untuk setiap kelompok, kira kerugian piawainya. Secara selari, untuk setiap jujukan, gunakan $\mathcal{A}$ untuk membina "pandangan guru" bagi jujukan ramalan murid, berikannya kepada guru LexLaw yang dibekukan, dan kira kerugiannya. Sebarkan balik kerugian gabungan untuk mengemas kini hanya parameter murid.
Penilaian: Pantau prestasi pada penanda aras Soal Jawab undang-undang berbanding murid garis dasar yang dilatih tanpa bimbingan LexLaw. Hasil yang dijangkakan ialah penaakulan undang-undang yang lebih baik tanpa menukar tokenizer murid.

7. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Pemindahan Rentas Modal & Rentas Bahasa: Prinsip teras menyelaraskan ruang perwakilan yang berbeza adalah asas. Kerja masa depan boleh melanjutkan ini untuk menggunakan guru bahasa-penglihatan (seperti GPT-4V) untuk memandu murid teks-sahaja melalui pasangan kapsyen-gambar yang diselaraskan, atau menggunakan guru bahasa sumber tinggi untuk memandu murid bahasa sumber rendah.
Penjajaran Dinamik & Dipelajari: Bergerak daripada penjajaran heuristik kepada model penjajaran kecil yang boleh dilatih yang mempelajari pemetaan optimum semasa latihan boleh meningkatkan kekukuhan dan kecekapan.
Saluran Paip Model Perindustrian: Ini membolehkan penciptaan "pasaran guru" di mana organisasi boleh menawarkan model guru khusus yang dibekukan sebagai perkhidmatan. Pengguna hiliran boleh menyuling ini ke dalam seni bina pilihan mereka sendiri, melindungi IP (guru dibekukan) dan memastikan keserasian.
Pembelajaran Teragih dengan Klien Heterogen: Dalam senario teragih, klien mungkin menggunakan model asas yang berbeza. VocAgnoLM boleh menyediakan kaedah untuk mengagregat pengetahuan daripada model heterogen ini ke dalam model global tanpa memerlukan pemiawaian.

8. Rujukan

Shin, H., Ji, L., Liu, X., & Gong, Y. (2025). Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling. arXiv preprint arXiv:2503.19123.
Zhang, P., et al. (2024). TinyLlama: An Open-Source Small Language Model. GitHub repository.
Yang, A., et al. (2024). Qwen2.5-Math: A Series of Large Language Models for Mathematical Problem Solving. Technical Report.
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531. (Karya asas mengenai penyulingan pengetahuan).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Karya berpengaruh mengenai menyelaraskan taburan merentasi domain berbeza, analog dengan cabaran penjajaran di sini).
Google AI. (2023). Gemma: Open Models Based on Google Research and Technology. https://ai.google.dev/gemma.
Meta AI. (2024). Llama 3 Model Card. https://llama.meta.com/llama3/.