Kelime Dağarcığı ile Ölçekleme Yasaları: Neden Daha Büyük Modeller Daha Büyük Kelime Dağarcıkları Gerektirir

1. Giriş

Büyük Dil Modelleri (LLM'ler) için Ölçekleme Yasaları geleneksel olarak model parametreleri ve eğitim verisi boyutuna odaklanmış, kelime dağarcığı boyutunu kritik bir ölçekleme boyutu olarak büyük ölçüde göz ardı etmiştir. Bu makale, kelime dağarcığı boyutunun LLM performansı üzerindeki etkisini araştırmakta ve belirli eğitim bütçeleri için hesaplama-açısından optimal kelime dağarcığı boyutunu belirleme yöntemleri önermektedir.

Araştırma, Llama2-70B gibi mevcut LLM'lerin optimal olmayan kelime dağarcığı boyutları kullandığını (32K'ya karşılık tahmini optimal 216K) göstermekte ve mevcut uygulamalardaki önemli verimlilik açıklarını vurgulamaktadır.

Model Aralığı

33M - 3B

Eğitilen Parametreler

Eğitim Verisi

500B

İşlenen Karakter

Kelime Dağarcığı Açığı

Llama2-70B Alt Tahmini

2. Metodoloji

2.1 Normalleştirilmiş Kayıp Formülasyonu

Farklı kelime dağarcığı boyutlarına sahip modeller arasında adil bir karşılaştırma sağlamak için yazarlar, tokenleştirme verimliliği farklılıklarını hesaba katan normalleştirilmiş bir kayıp fonksiyonu sunmaktadır. Normalleştirme, daha büyük kelime dağarcıklarına sahip modellerin kayıp metriklerinde yapay avantajlara sahip olmasını engeller.

2.2 Üç Tahmin Yaklaşımı

Makale, optimal kelime dağarcığı boyutunu tahmin etmek için üç tamamlayıcı yöntem önermektedir:

2.2.1 IsoFLOPs Analizi

Aynı hesaplama bütçelerine ancak farklı kelime dağarcığı boyutlarına sahip modelleri eğiterek her bütçe seviyesi için minimum kayıp noktasını belirlemek.

2.2.2 Türev Tahmini

Kayıp fonksiyonunun kelime dağarcığı boyutuna göre türevinin sıfıra eşit olduğu, optimal noktaları gösteren yeri bulmak için gradyan tabanlı yöntemler kullanmak.

2.2.3 Parametrik Uyum

Model parametreleri, kelime dağarcığı boyutu ve kayıp arasındaki kuvvet yasası ilişkilerini uydurarak tahmin formülleri türetmek.

3. Deneysel Sonuçlar

3.1 Model Eğitim Kurulumu

33M ila 3B parametre aralığındaki modeller, çeşitli kelime dağarcığı konfigürasyonlarıyla en fazla 500B karakter üzerinde eğitilmiştir. Eğitim, kapsamlı ölçekleme ilişkilerini kurmak için farklı FLOPs bütçelerini kapsamıştır.

3.2 Optimal Kelime Dağarcığı Bulguları

Araştırma bir kuvvet yasası ilişkisini ortaya koymaktadır: $N_v^{opt} \propto N_{nv}^\gamma$ burada $\gamma < 1$, optimal kelime dağarcığı parametrelerinin kelime dağarcığı dışı parametrelerden daha yavaş ölçeklenmesi gerektiğini göstermektedir. Bu, model ölçekleri arasında sabit kelime dağarcığı boyutları kullanma yaygın uygulamasıyla çelişmektedir.

Şekil 1: Kelime Dağarcığı Ölçekleme İlişkisi

Görselleştirme, teorik tahminlerle uyumlu ampirik sonuçları göstermekte, daha büyük daireler daha yüksek kayıp değerlerini göstermektedir. Grafik, farklı model ölçekleri için net optimal kelime dağarcığı boyutlarını göstermekte ve belirgin bir kuvvet yasası eğrisi oluşturmaktadır.

3.3 Aşağı Akış Performans Doğrulaması

3B parametreli modellerle yapılan ampirik doğrulama, tahmini optimal kelime dağarcığı boyutları kullanıldığında tutarlı iyileşmeler göstermektedir. ARC-Challenge üzerinde, kelime dağarcığını 32K'dan 43K'ya çıkarmak, aynı 2.3e21 FLOPs bütçesiyle performansı 29.1'den 32.0'a yükseltmiştir.

Temel İçgörüler

Kelime dağarcığı boyutu, LLM ölçekleme verimliliğini önemli ölçüde etkiler
Optimal kelime dağarcığı, hesaplama bütçesi ve model boyutuyla ölçeklenir
Mevcut LLM'ler genellikle optimal olmayan kelime dağarcığı boyutları kullanır
Tokenleştirme ve model ölçeklemesinin birlikte dikkate alınması esastır

4. Teknik Analiz ve Çerçeve

4.1 Matematiksel Formülasyon

Keşfedilen temel matematiksel ilişki şu şekilde ifade edilir:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

Burada $L$ normalleştirilmiş kayıp, $N_{nv}$ kelime dağarcığı dışı parametreler, $N_v$ kelime dağarcığı parametreleri, $D$ eğitim verisi boyutu ve $E, A, B, C, \alpha, \beta, \gamma$ uydurulmuş sabitlerdir.

Optimal kelime dağarcığı boyutu şunu sağlar: $\frac{\partial L}{\partial N_v} = 0$

4.2 Analiz Çerçevesi Örneği

Vaka Çalışması: 10B Parametreli Bir Model için Optimal Kelime Dağarcığının Belirlenmesi

Verilen: Eğitim bütçesi = 1e23 FLOPs, Hedef alan = genel dil anlama

Çerçeve Uygulaması:

Kelime dağarcığı dışı parametreleri tahmin et: $N_{nv} = 9.5\text{B}$ (toplamın %95'i)
Kuvvet yasasını uygula: $N_v^{opt} \propto N_{nv}^{0.7}$ (ampirik uyumdan)
Hesapla: $N_v^{opt} \approx 150\text{K}$ token
Verilen bütçe için IsoFLOPs analizi ile doğrula
Alana özgü token dağılımı için ayarla

Bu çerçeve, mevcut model geliştiricilerin sıklıkla gözden kaçırdığı kelime dağarcığı boyutlandırmasına sistematik bir yaklaşım sağlar.

5. Sektör Analisti Perspektifi

5.1 Temel İçgörü

Sektör, kelime dağarcığı boyutunu statik bir hiperparametre olarak ele almakta temelden yanılgıya düşmüştür. Bu makale kritik bir kör noktayı ortaya çıkarmaktadır: LLM'leri bir elimiz arkamızda bağlıyken optimize ediyorduk. Llama2-70B'nin kelime dağarcığının 7 kat daha büyük olması gerektiği bulgusu sadece akademik bir merak değil—tüm AI ekosisteminde milyarlarca dolarlık boşa harcanan hesaplama ve optimal olmayan model performansını temsil etmektedir. Bu gözden kaçırma, aktivasyon fonksiyonlarının önemini hafife alan erken sinir ağı araştırmalarını hatırlatmaktadır; bu durum, Glorot ve Bengio'nun (2010) derin ileri beslemeli sinir ağlarını eğitmenin zorluğunu anlama üzerine öncü çalışmasında belgelendiği gibi.

5.2 Mantıksal Akış

Makalenin argümanı cerrahi bir hassasiyetle ilerlemektedir: İlk olarak, kelime dağarcığının önemli olduğunu (yaygın ölçekleme yasası varsayımlarının aksine) tespit ederler. İkinci olarak, kuvvet yasaları aracılığıyla bunun sistematik olarak önemli olduğunu gösterirler. Üçüncü olarak, optimizasyon için pratik araçlar sağlarlar. Mantıksal zincir sıkıdır—sorun tanımlamasından metodolojik yeniliğe ve ampirik doğrulamaya kadar. Temel içgörüler olmadan artımsal iyileştirmeler yayınlama eğiliminin aksine, titiz araştırma bu şekilde yürütülmelidir.

5.3 Güçlü ve Zayıf Yönler

Güçlü Yönler: Üçlü metodoloji yaklaşımı (IsoFLOPs, türevler, parametrik uyumlar) sağlam bir doğrulama sağlar. Deney ölçeği (33M ila 3B parametre) etkileyici ve ikna edicidir. Pratik çıkarımlar, LLM eğiten herhangi bir kuruluş için hemen uygulanabilirdir.

Zayıf Yönler: Çalışma öncelikle İngilizce metne odaklanmıştır—çok dilli etkiler keşfedilmemiş kalmıştır. Metodolojilerinin hesaplama maliyeti, daha küçük araştırma grupları için engelleyici olabilir. Kelime dağarcığı optimizasyonunun, dikkat mekanizmaları gibi diğer mimari seçimlerle nasıl etkileşime girdiğini ele almamaktadır; bu alanda Transformer mimarisi makalesi (Vaswani ve diğerleri, 2017) hala alana hakim olan temel ilkeleri belirlemiştir.

5.4 Uygulanabilir İçgörüler

LLM eğiten her AI laboratuvarı hemen şunları yapmalıdır: 1) Kelime dağarcığı boyutlandırma stratejilerini yeniden değerlendirmeli, 2) Mevcut projeler için IsoFLOPs analizini uygulamalı, 3) Kelime dağarcığı boyutunu parametreler ve veri yanında birinci sınıf bir ölçekleme boyutu olarak düşünmelidir. NVIDIA ve AMD gibi donanım şirketleri için bu araştırma, daha büyük gömme tabloları için bellek mimarisinde yeni optimizasyon fırsatları önermektedir. Llama2-70B için 7 katlık kelime dağarcığı açığı, mevcut donanımın optimal model konfigürasyonlarıyla temelde uyumsuz olduğu anlamına gelir.

6. Gelecekteki Uygulamalar ve Yönler

Anlık Uygulamalar:

Yeni nesil LLM'ler (GPT-5, Gemini 2.0, vb.) için kelime dağarcığı stratejilerinin yeniden tasarımı
Daha büyük gömme tabloları için donanım optimizasyonu
Model servis etme ve çıkarımda gelişmiş verimlilik

Araştırma Yönleri:

Çeşitli diller arasında çok dilli kelime dağarcığı optimizasyonu
Eğitim sırasında dinamik kelime dağarcığı boyutlandırma
Uzman karışımı mimarileriyle entegrasyon
Alana özgü modeller için kelime dağarcığı optimizasyonu
Çok modlu modeller için çapraz modlu kelime dağarcığı değerlendirmeleri

Bu çalışmada belirlenen ilkeler, bilgisayarlı görüdeki evrişimli sinir ağı ilkelerinin (Krizhevsky ve diğerlerinin AlexNet makalesinde olduğu gibi, 2012) diğer alanlara aktarıldığına benzer şekilde, dil modellerinin ötesine geçerek biyoinformatik, kod üretimi ve zaman serisi analizindeki diğer dizi modellerine genişletilebilir.

7. Referanslar

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.