1. Pengenalan

Hukum penskalaran untuk Model Bahasa Besar (LLM) secara tradisinya memberi tumpuan kepada parameter model dan saiz data latihan, sebahagian besarnya mengabaikan saiz perbendaharaan kata sebagai dimensi penskalaran kritikal. Kertas kerja ini menyiasat kesan saiz perbendaharaan kata terhadap prestasi LLM dan mencadangkan kaedah untuk menentukan saiz perbendaharaan kata optimum pengiraan bagi belanjawan latihan yang diberikan.

Penyelidikan ini menunjukkan bahawa LLM semasa seperti Llama2-70B menggunakan saiz perbendaharaan kata yang tidak optimum (32K berbanding optimum ramalan 216K), menonjolkan jurang kecekapan yang ketara dalam amalan semasa.

Julat Model

33M - 3B

Parameter Dilatih

Data Latihan

500B

Aksara Diproses

Jurang Perbendaharaan Kata

7x

Penganggaran Rendah Llama2-70B

2. Metodologi

2.1 Formulasi Kerugian Dinormalisasi

Untuk memastikan perbandingan yang adil merentas model dengan saiz perbendaharaan kata yang berbeza, penulis memperkenalkan fungsi kerugian ternormalisasi yang mengambil kira perbezaan kecekapan tokenisasi. Penormalan ini menghalang model dengan perbendaharaan kata yang lebih besar daripada mempunyai kelebihan tiruan dalam metrik kerugian.

2.2 Tiga Pendekatan Ramalan

Kertas kerja ini mencadangkan tiga kaedah pelengkap untuk meramalkan saiz perbendaharaan kata optimum:

2.2.1 Analisis IsoFLOPs

Melatih model dengan belanjawan pengiraan yang sama tetapi saiz perbendaharaan kata yang berbeza untuk mengenal pasti titik kerugian minimum bagi setiap tahap belanjawan.

2.2.2 Anggaran Terbitan

Menggunakan kaedah berasaskan kecerunan untuk mencari di mana terbitan fungsi kerugian berkenaan saiz perbendaharaan kata bersamaan sifar, menunjukkan titik optimum.

2.2.3 Padanan Berparameter

Memadankan hubungan kuasa antara parameter model, saiz perbendaharaan kata, dan kerugian untuk mendapatkan formula ramalan.

3. Keputusan Eksperimen

3.1 Persediaan Latihan Model

Model dari 33M hingga 3B parameter dilatih pada sehingga 500B aksara dengan pelbagai konfigurasi perbendaharaan kata. Latihan merangkumi belanjawan FLOPs yang berbeza untuk mewujudkan hubungan penskalaran yang komprehensif.

3.2 Penemuan Perbendaharaan Kata Optimum

Penyelidikan mendedahkan hubungan kuasa: $N_v^{opt} \propto N_{nv}^\gamma$ di mana $\gamma < 1$, menunjukkan bahawa parameter perbendaharaan kata optimum harus berskala lebih perlahan daripada parameter bukan perbendaharaan kata. Ini bercanggah dengan amalan biasa menggunakan saiz perbendaharaan kata tetap merentas skala model.

Rajah 1: Hubungan Penskalaran Perbendaharaan Kata

Visualisasi menunjukkan keputusan empirikal selari dengan ramalan teori, dengan bulatan lebih besar menunjukkan nilai kerugian yang lebih tinggi. Plot menunjukkan saiz perbendaharaan kata optimum yang jelas untuk skala model yang berbeza, membentuk lengkung kuasa yang berbeza.

3.3 Pengesahan Prestasi Hiliran

Pengesahan empirikal dengan model 3B parameter menunjukkan peningkatan konsisten apabila menggunakan saiz perbendaharaan kata optimum yang diramal. Pada ARC-Challenge, meningkatkan perbendaharaan kata dari 32K kepada 43K meningkatkan prestasi dari 29.1 kepada 32.0 dengan belanjawan FLOPs 2.3e21 yang sama.

Inti Pati Utama

  • Saiz perbendaharaan kata memberi kesan ketara kepada kecekapan penskalaran LLM
  • Perbendaharaan kata optimum berskala dengan belanjawan pengiraan dan saiz model
  • LLM semasa umumnya menggunakan saiz perbendaharaan kata yang tidak optimum
  • Pertimbangan bersama tokenisasi dan penskalaran model adalah penting

4. Analisis Teknikal & Kerangka Kerja

4.1 Formulasi Matematik

Hubungan matematik teras yang ditemui dinyatakan sebagai:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

Di mana $L$ ialah kerugian ternormalisasi, $N_{nv}$ ialah parameter bukan perbendaharaan kata, $N_v$ ialah parameter perbendaharaan kata, $D$ ialah saiz data latihan, dan $E, A, B, C, \alpha, \beta, \gamma$ ialah pemalar yang dipadankan.

Saiz perbendaharaan kata optimum memenuhi: $\frac{\partial L}{\partial N_v} = 0$

4.2 Contoh Kerangka Kerja Analisis

Kajian Kes: Menentukan Perbendaharaan Kata Optimum untuk Model 10B Parameter

Diberi: Belanjawan latihan = 1e23 FLOPs, Domain sasaran = kefahaman bahasa umum

Aplikasi Kerangka Kerja:

  1. Anggar parameter bukan perbendaharaan kata: $N_{nv} = 9.5\text{B}$ (95% daripada jumlah)
  2. Gunakan hukum kuasa: $N_v^{opt} \propto N_{nv}^{0.7}$ (daripada padanan empirikal)
  3. Kira: $N_v^{opt} \approx 150\text{K}$ token
  4. Sahkan dengan analisis IsoFLOPs untuk belanjawan yang diberikan
  5. Laraskan untuk taburan token khusus domain

Kerangka kerja ini menyediakan pendekatan sistematik untuk menentukan saiz perbendaharaan kata yang sering diabaikan oleh pembangun model semasa.

5. Perspektif Penganalisis Industri

5.1 Inti Pati Utama

Industri pada asasnya telah tersilap dengan menganggap saiz perbendaharaan kata sebagai hiperparameter statik. Kertas kerja ini mendedahkan titik buta kritikal: kami telah mengoptimumkan LLM dengan sebelah tangan diikat di belakang. Penemuan bahawa perbendaharaan kata Llama2-70B sepatutnya 7x lebih besar bukan sekadar rasa ingin tahu akademik—ia mewakili berbilion dolar dalam pengiraan yang terbuang dan prestasi model yang tidak optimum merentas seluruh ekosistem AI. Ketinggalan ini mengingatkan penyelidikan rangkaian neural awal yang memandang rendah kepentingan fungsi pengaktifan, seperti yang didokumenkan dalam kerja penting oleh Glorot dan Bengio (2010) mengenai memahami kesukaran melatih rangkaian neural suapan ke hadapan yang dalam.

5.2 Aliran Logik

Hujah kertas kerja ini berkembang dengan ketepatan pembedahan: Pertama, mereka menetapkan bahawa perbendaharaan kata penting (berbeza dengan andaian hukum penskalaran yang lazim). Kedua, mereka menunjukkan ia penting secara sistematik melalui hukum kuasa. Ketiga, mereka menyediakan alat praktikal untuk pengoptimuman. Rantai logik ini kukuh—dari pengenalpastian masalah melalui inovasi metodologi hingga pengesahan empirikal. Inilah cara penyelidikan yang teliti harus dijalankan, berbeza dengan trend menerbitkan peningkatan tambahan tanpa pandangan asas.

5.3 Kekuatan & Kelemahan

Kekuatan: Pendekatan tiga metodologi (IsoFLOPs, terbitan, padanan berparameter) menyediakan pengesahan yang kukuh. Skala eksperimen (33M hingga 3B parameter) mengagumkan dan meyakinkan. Implikasi praktikal boleh ditindak segera oleh mana-mana organisasi yang melatih LLM.

Kelemahan: Kajian memberi tumpuan terutamanya pada teks Bahasa Inggeris—implikasi pelbagai bahasa masih belum diterokai. Kos pengiraan metodologi mereka mungkin terlalu tinggi untuk kumpulan penyelidikan yang lebih kecil. Mereka tidak membincangkan bagaimana pengoptimuman perbendaharaan kata berinteraksi dengan pilihan seni bina lain seperti mekanisme perhatian, satu bidang di mana kertas kerja seni bina Transformer (Vaswani et al., 2017) menetapkan prinsip asas yang masih mendominasi bidang ini.

5.4 Pandangan Boleh Tindak

Setiap makmal AI yang melatih LLM harus segera: 1) Menilai semula strategi penentuan saiz perbendaharaan kata mereka, 2) Melaksanakan analisis IsoFLOPs untuk projek semasa, 3) Menganggap saiz perbendaharaan kata sebagai dimensi penskalaran utama bersama parameter dan data. Bagi syarikat perkakasan seperti NVIDIA dan AMD, penyelidikan ini mencadangkan peluang pengoptimuman baharu dalam seni bina memori untuk jadual penyematan yang lebih besar. Jurang perbendaharaan kata 7x untuk Llama2-70B membayangkan bahawa perkakasan semasa pada asasnya tidak sepadan dengan konfigurasi model optimum.

6. Aplikasi & Hala Tuju Masa Depan

Aplikasi Segera:

  • Reka bentuk semula strategi perbendaharaan kata untuk LLM generasi seterusnya (GPT-5, Gemini 2.0, dsb.)
  • Pengoptimuman perkakasan untuk jadual penyematan yang lebih besar
  • Peningkatan kecekapan dalam penyajian dan inferens model

Hala Tuju Penyelidikan:

  • Pengoptimuman perbendaharaan kata pelbagai bahasa merentas pelbagai bahasa
  • Penentuan saiz perbendaharaan kata dinamik semasa latihan
  • Integrasi dengan seni bina campuran pakar
  • Pengoptimuman perbendaharaan kata untuk model khusus domain
  • Pertimbangan perbendaharaan kata merentas modal untuk model multimodal

Prinsip yang ditetapkan dalam kerja ini boleh melangkaui model bahasa kepada model jujukan lain dalam bioinformatik, penjanaan kod, dan analisis siri masa, serupa dengan bagaimana prinsip rangkaian neural konvolusi dari penglihatan komputer (seperti dalam kertas kerja AlexNet oleh Krizhevsky et al., 2012) dipindahkan ke domain lain.

7. Rujukan

  1. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
  2. Brown, T., et al. (2020). Language Models are Few-Shot Learners.
  3. Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
  4. Vaswani, A., et al. (2017). Attention Is All You Need.
  5. Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
  6. Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
  7. Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
  8. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.