VocAgnoLM: Öğretmen-Öğrenci Dil Modeli Eğitiminde Sözlük Uyumsuzluğunun Üstesinden Gelmek

Giriş ve Problem İfadesi

Mevcut verimli küçük dil modellerinin (öğrenci modelleri) eğitimi için baskın paradigma, daha büyük ve daha yetenekli modellerin (öğretmen modelleri) rehberliğine dayanır. Ancak, bu yaklaşım temel bir engelle karşılaşmaktadır:Sözlük eşleşmiyorÖğretmen modeli ve öğrenci modeli farklı tokenizer'lar kullandığında—bu, çeşitli açık kaynaklı veya özel modellerden yararlanırken yaygındır—token dizileri ve çıktı olasılık dağılımları farklılık gösterir, bu da etkili bilgi aktarımını ciddi şekilde engeller. Makalede gösterildiği gibi, Qwen2.5-Math gibi gelişmiş modellerin sözlükleri ile TinyLlama gibi bir öğrenci modelinin sözlükleri yalnızca6.32%Bu durum, en iyi mevcut modelin öğretmen olarak kullanılması için önemli bir engel oluşturmaktadır.

VocAgnoLM Çerçevesi

Sözlükten Bağımsız Öğretmen Yönlendirmeli Dil Modellemesi (VocAgnoLM), bu boşluğu kapatmak ve böylece sözlükten bağımsız bilgi damıtımını mümkün kılmak için iki yönlü bir çözüm önermektedir.

2.1 Temel Kavrayış ve Mantıksal Akış

Temel Kavrayış:Temel engel model mimarisinde değil,Temsil Yanlış HizalanmasıElmaları (Qwen'in token'ları) ve portakalları (TinyLlama'nın token'ları) doğrudan karşılaştıramazsınız. VocAgnoLM'in ustalığı, sorunu "çıktı eşleştirme"den "anlamsal uzayları ve öğrenme sinyallerini hizalama"ya yeniden tanımlamasında yatar. Öğretmenin bilgisini kendine özgü tokenizasyon şemasından ayırır.

Mantıksal Akış:Süreç zarif bir sıralı akıştır: 1) Verilen bir girdi metni için, öğretmen ve öğrenci modelleri için ayrı ayrı token dizileri oluşturun. 2)Token düzeyinde kelime hizalamaeşleşmeyen diziler arasında bir eşleme kurun. 3) Bu eşlemeyi kullanarakTeacher guided loss uygulayın., öğrenci modelinin eğitim sinyali olarak öğretmen modelinin içsel kaybını kullanarak doğrudan token olasılık eşleştirmesini atlar.

2.2 Token Düzeyinde Sözcük Hizalama

Bu bileşen dizi yanlış hizalanma sorununu çözer. Her öğrenci token'ını karşılık gelen öğretmen token'larının bir alt dizisineBire çok eşlemeÖrneğin, öğrenci belirteci "Pro", öğretmen belirteçleri "Prob" ve "ability" ile eşlenebilir. Bu kavramsal olarak, makine çevirisinde kullanılan hizalama tekniklerine (istatistiksel makine çevirisi veya erken sinirsel modellerde olduğu gibi) benzer, ancak farklı tokenizasyon şemaları arasında alt kelime düzeyinde uygulanır. Amacı, sözcük dağarcığı bağlantısı olmadığında bile bilginin akmasına izin veren bir köprü oluşturmaktır.

2.3 Öğretmen Yönlendirmeli Kayıp

VocAgnoLM, öğrencileri öğretmenin bir sonraki token olasılık dağılımını taklit etmeye zorlamaz - bu, farklı kelime dağarcıkları durumunda mümkün değildir - bunun yerineÖğretmenin kendi dil modelleme kaybınırehber olarak kullanır. Öğrenci modeli, standart dil modelleme kaybınıveÖğretmen modelin hizalanmış diziler üzerinde düşük kayıp değerleri elde etmesini sağlayan iç temsillerini veya tahminlerini teşvik eden bir kayıp. Bu, daha soyut ancak daha güçlü bir rehberlik biçimidir.

3. Avantajlar ve Temel Eksiklikler

Avantajlar:

Model Çeşitliliğinin Kilidini Açmak:Bu, oyunun kurallarını değiştiren bir özelliktir. Tedarikçi/ekosistem kilidini kırar ve ekiplerin, kaynağı ne olursa olsun (örneğin, TinyLlama) herhangi bir öğrenci modelini eğitmek için mevcut en iyi modeli (örneğin, matematik için özel olarak tasarlanmış Qwen) kullanmasına olanak tanır.
Pratik ve hafif:Öğretmenin tokenizer'ını veya öğrencinin embedding katmanını yeniden eğitmeye gerek duymaz, büyük mühendislik yükünden kaçınır.
Güçlü deneysel sonuçlar:Ciddi bir sözlük uyumsuzluğu durumunda performans, saf ön eğitime kıyasla %46 artış gösterdi ki bu önemsiz bir oran değildir. Bu, yöntemin pratikte etkili olduğunu kanıtlamaktadır.

Temel Eksiklikler ve Açık Sorular:

Hizalama sezgisel yöntemi bir kara kutudur:Makale, "token düzeyinde kelime hizalaması"nın kesin algoritmasını yüzeysel olarak geçiştiriyor. Dinamik programlama mı? Yoksa öğrenilmiş bir model mi? Bu hizalama adımının sağlamlığı ve hesaplama maliyeti, kritik önem taşıyan bilinmeyenlerdir. Kötü bir hizalama, bilgi yerine gürültü yayabilir.
İnce taneli sinyallerin kaybı:Öğretmenin skaler kaybını kullanmak, onun tam çıktı dağılımının sağladığı zengin, yüksek boyutlu sinyali feda eder. Bu, her cevabın ayrıntılı geri bildiriminden öğrenmek yerine, nihai nottan öğrenmeye benzer. Bu, ince dil becerilerine yönelik bilgi aktarımının doğruluğunu sınırlayabilir.
Aşırı Uyumsuzluk için ÖlçeklenebilirlikTest edilen uyumsuzluk (%6 örtüşme) zaten ciddi, ancak ya sıfıra yakın örtüşme durumunda? Yöntemin teorik limiti henüz test edilmedi.

4. Deneysel Sonuçlar ve Analiz

4.1 Deneysel Kurulum ve Performans Metrikleri

Bu çalışmada, 1 milyar parametreli bir öğrenci modeli (TinyLlama) ve 7 milyar parametreli birden fazla öğretmen modeli (Llemma, Mistral, DeepSeek-Math, Qwen2.5-Math) kullanılmıştır; kelime hazinesi boyutları 32K ile 150K arasında değişmektedir. Temel metrik, matematik değerlendirme setindeki performanstır ve VocAgnoLM, öğretmen rehberliği olmadan sürekli ön eğitim alan bir temel modelle karşılaştırılmıştır.

4.2 Temel Bulgular ve Grafik Yorumlaması

Anahtar sonuçlar makalenin Şekil 1'inde görselleştirilmiştir. İki önemli eğilimi göstermektedir:

Sözlük uyumsuzluğu sorunu: X ekseni, performansı artan öğretmen modellerini (Llemma'dan Qwen2.5-Math'a) göstermektedir. Çubuk grafik, bunların TinyLlama ile kelime dağarcığı örtüşme oranını göstermektedir. Belirgin birters orantı ilişkisi: En yüksek performanslı öğretmen (Qwen), en küçük örtüşme oranına (yaklaşık %6) sahiptir. Bu, VocAgnoLM'in çözmeyi hedeflediği sorunu açıkça ortaya koymaktadır.
VocAgnoLM'in Etkinliği:Metin, Qwen2.5-Math'ı öğretmen model olarak kullanarak VocAgnoLM'nin temel çizgiye kıyasla%46'lık bir performans artışısağladığını belirtmektedir. Bu, sözcük dağarcığı örtüşmesi son derece düşük olmasına rağmen, çerçevenin güçlü bir öğretmen modelinden başarıyla yararlandığını kanıtlamaktadır. Makale ayrıca, daha güçlü öğretmen modellerinin tutarlı kazançlar getirdiğini ve temel öncülü doğruladığını belirtmektedir.

Temel Deney Sonuçları

VocAgnoLM, Qwen2.5-Math'ı (kelime dağarcığı örtüşme oranı %6.32) TinyLlama'nın öğretmen modeli olarak kullanarak, standart sürekli ön eğitime kıyasla,%46'lık bir performans artışı。

5. Uygulanabilir İçgörüler ve Stratejik Önem

Yapay zeka alanındaki uygulayıcılar ve liderler için:

Anlık Strateji:Özel bir model oluşturuyorsanız (örneğin finans, hukuk, biyotıp için), öğretmen model arama kapsamınızı uyumlu tokenizer'lara sahip modellerle sınırlamayı bırakın. Tokenizer'ı ne olursa olsun, alanınızdaki en iyi performans gösteren modelleri aktif olarak değerlendirin. VocAgnoLM, bunları kullanmak için uygulanabilir bir yol sunar.
Stratejik Tedarik:Bu araştırma, "tokenizer kilidi" riskini azaltır. Bir kuruluş için temel model seçerken, kelime hazinesi uyumluluğu daha az kritik bir kısıt haline gelir ve size mimari, lisans ve performansa dayalı seçim yapma olanağı tanır.
Araştırma Yatırımı:Hizalama bileşenleri kritiktir. Sağlam, verimli ve muhtemelen öğrenilebilir hizalama yöntemlerine yatırım yapmak, bu yaklaşımın endüstriyel ölçekte uygulanmasının anahtarı olacaktır. Bunu model birlikte çalışabilirliğinin bir sonraki sınırı olarak düşünebilirsiniz.
Dikkat Edilmesi Gerekenler:Bu bir sihirli değnek değildir. Hassas üretim veya stil taklidi gerektiren görevlerde, ince taneli dağılım eşleştirmesinin kaybı önemli bir eksiklik olabilir. Öncelikle matematik, akıl yürütme gibi bilgi yoğun görevlerde pilot uygulama yapın.

6. Teknik Derinlemesine Analiz

6.1 Matematiksel Formülasyon

Sağlanan özet, tam kayıp fonksiyonunu açıkça detaylandırmasa da, temel fikir şu şekilde formüle edilebilir. $\mathcal{V}_s$ ve $\mathcal{V}_t$, sırasıyla öğrenci ve öğretmenin kelime dağarcıkları olsun. Giriş dizisi $x$ için, öğrenci $\mathbf{s} = [s_1, ..., s_n]$ belirteç dizisini, öğretmen ise $\mathbf{t} = [t_1, ..., t_m]$ dizisini üretir; genellikle $n \neq m$'dir.

Token düzeyinde kelime hizalama$\mathcal{A}$ fonksiyonu, her öğrenci belirteci $s_i$'yi, öğretmen belirteçlerinin sürekli bir alt dizisine eşler: $\mathcal{A}(s_i) = \mathbf{t}_{[j:k]}$.

Teacher guided loss uygulayın. $\mathcal{L}_{guide}$, öğrenciden ( $\mathcal{A}$ hizalama yoluyla) türetilen temsilleri veya tahminleri öğretmenin ileri yayılımına girdi olarak vermeyi ve öğretmenin bunlar üzerindeki dil modelleme kaybını hesaplamayı içerebilir. Öğrencinin toplam eğitim hedefi şu hale gelir:

$$\mathcal{L}_{total} = \mathcal{L}_{LM}(\theta_s; x) + \lambda \cdot \mathcal{L}_{guide}(\theta_s, \theta_t; x, \mathcal{A})$$

Burada $\theta_s$ ve $\theta_t$ sırasıyla öğrenci ve öğretmenin parametreleridir, $\mathcal{L}_{LM}$ standart öğrenci dil modelleme kaybıdır, $\lambda$ ise ağırlıklandırma hiperparametresidir. Önemli nokta, $\mathcal{L}_{guide}$'ın hizalanmış dizi üzerinde etki etmesi ve doğrudan kelime dağarcığı uyumsuzluğunu atlamasıdır.

6.2 Analitik Çerçeve: Vaka Çalışması

Senaryo: Bir şirket, yasal belge analizi için kompakt ve verimli bir büyük dil modeli oluşturmak istiyor. Mevcut en iyi özel öğretmen modeli, yasal metinler üzerinde eğitilmiş özel bir tokenizer kullanan `LexLaw-70B`'dir. Hedef öğrenci model ise bir `Llama-3-8B` modelidir.

Çerçeve Uygulaması:

Sorun Teşhisi: Sözlük örtüşme oranını analiz edin. Büyük olasılıkla %20'nin altındadır. Doğrudan bilgi damıtma mümkün değildir.
Hizalama Aşaması: İki modele hukuk metni örnekleri girilir. Yaygın hukuki terimler (örneğin, "mücbir sebep") için Llama-3 token'ları ile LexLaw token dizileri arasında bir eşleme $\mathcal{A}$ oluşturmak üzere VocAgnoLM'in hizalama modülü (örneğin, bayt çifti kodlamasına dayalı minimum düzenleme mesafesi algoritması) kullanılır.
Eğitim aşaması: Llama-3 öğrenci modeli hukuk derlemi üzerinde eğitilir. Her parti için standart kaybı hesaplanır. Aynı zamanda, her dizi için $\mathcal{A}$ kullanılarak öğrenci tahmin dizisinin "öğretmen görünümü" oluşturulur, bu dondurulmuş LexLaw öğretmenine iletilir ve onun kaybı hesaplanır. Birleşik kayıp, yalnızca öğrencinin parametrelerini güncellemek için geri yayılır.
Değerlendirme: LexLaw ile eğitilmemiş temel öğrenci modelinde, hukuki soru-cevap kıyaslamasının performansı izlenir. Beklenen sonuç, öğrenci tokenizer'ı değiştirilmeden hukuki muhakeme yeteneğinin artırılmasıdır.

7. Gelecekteki Uygulamalar ve Araştırma Yönleri

Çok Modlu ve Çok Dilli Aktarım: Farklı temsil alanlarını hizalamanın temel ilkeleri temeldir. Gelecekteki çalışmalar, bunu, hizalanmış görüntü-metin çiftleri aracılığıyla saf metin öğrencilerini yönlendirmek için görsel dil öğretmenlerini (ör. GPT-4V) kullanarak veya yüksek kaynaklı dil öğretmenlerini düşük kaynaklı dil öğrencilerini yönlendirmek için kullanarak genişletebilir.
Dinamik ve Öğrenilebilir Hizalama: Sezgisel hizalamadan, eğitim sırasında en uygun eşleştirmeyi öğrenen küçük, eğitilebilir hizalama modellerine geçiş, sağlamlığı ve verimliliği artırabilir.
Endüstriyel Model İş Hattı: Bu, kuruluşların dondurulmuş, özel öğretmen modellerini hizmet olarak sunabildiği bir "Öğretmen Modeli Pazarı" oluşturulmasını mümkün kılar. Aşağı akış kullanıcıları, bu modelleri kendi seçtikleri mimarilere damıtarak fikri mülkiyeti koruyabilir (öğretmen modeli dondurulmuştur) ve uyumluluğu sağlayabilir.
Heterojen İstemcilerle Federatif Öğrenme: Federated öğrenme senaryolarında, istemciler farklı temel modeller kullanabilir. VocAgnoLM, standardizasyon gerektirmeden bu heterojen modellerin bilgisini küresel bir modelde birleştirmek için bir yöntem sunabilir.

8. Kaynakça

Shin, H., Ji, L., Liu, X., & Gong, Y. (2025). Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling. arXiv preprint arXiv:2503.19123.
Zhang, P., et al. (2024). TinyLlama: Açık Kaynaklı Küçük Bir Dil Modeli. GitHub deposu.
Yang, A., et al. (2024). Qwen2.5-Math: Matematiksel Problem Çözme için Büyük Dil Modelleri Serisi. Teknik Rapor.
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531. (Bilgi damıtmanın öncü çalışması).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Farklı alanlar arasında dağılım hizalama üzerine etkili bir çalışma, bu makaledeki hizalama zorluğuna benzer).
Google AI. (2023). Gemma: Google Araştırma ve Teknolojisine Dayalı Açık Modeller. https://ai.google.dev/gemma.
Meta AI. (2024). Llama 3 Model Kartı. https://llama.meta.com/llama3/.