1. परिचय और समस्या कथन
वर्तमान में, कुशल छोटे भाषा मॉडल (छात्र मॉडल) के प्रशिक्षण की प्रमुख प्रणाली बड़े, अधिक सक्षम मॉडल (शिक्षक मॉडल) के मार्गदर्शन पर निर्भर करती है। हालाँकि, इस दृष्टिकोण को एक मूलभूत बाधा का सामना करना पड़ता है:शब्दावली मेल नहीं खातीजब शिक्षक मॉडल और छात्र मॉडल अलग-अलग टोकनाइज़र का उपयोग करते हैं—जो विविध ओपन-सोर्स या विशेष मॉडल का लाभ उठाते समय आम है—तो उनके टोकन अनुक्रम और आउटपुट संभाव्यता वितरण में विसंगति उत्पन्न होती है, जिससे प्रभावी ज्ञान हस्तांतरण गंभीर रूप से बाधित होता है। जैसा कि पेपर में दिखाया गया है, Qwen2.5-Math जैसे उन्नत मॉडल की शब्दावली और TinyLlama जैसे छात्र मॉडल की शब्दावली में केवल6.32%यह ओवरलैप बेहतरीन उपलब्ध मॉडल को शिक्षक के रूप में उपयोग करने में एक बड़ी बाधा उत्पन्न करता है।
2. VocAgnoLM फ्रेमवर्क
वोकैबुलरी-अज्ञेय शिक्षक-निर्देशित भाषा मॉडलिंग (VocAgnoLM) इस अंतर को पाटने और वोकैबुलरी-अज्ञेय ज्ञान आसवन को सक्षम करने के लिए एक द्वि-प्रहरी समाधान प्रस्तावित करता है।
2.1 मूल अंतर्दृष्टि और तार्किक प्रवाह
मूल अंतर्दृष्टि:मूल बाधा मॉडल आर्किटेक्चर में नहीं, बल्किRepresentation Mismatchआप सीधे सेब (Qwen के टोकन) और संतरे (TinyLlama के टोकन) की तुलना नहीं कर सकते। VocAgnoLM की चतुराई इस बात में है कि यह समस्या को "आउटपुट मिलान" से "सिमेंटिक स्पेस और लर्निंग सिग्नल को संरेखित करने" के रूप में पुनः परिभाषित करता है। यह शिक्षक के ज्ञान को उसकी विशिष्ट टोकनाइज़ेशन योजना से अलग कर देता है।
Logical Flow:यह प्रक्रिया एक सुव्यवस्थित अनुक्रमिक प्रवाह है: 1) दिए गए इनपुट टेक्स्ट के लिए, शिक्षक और छात्र मॉडल के लिए अलग-अलग टोकन अनुक्रम उत्पन्न करें। 2) उपयोग करेंटोकन-स्तरीय शब्दावली संरेखणबेमेल अनुक्रमों के बीच मैपिंग स्थापित करें। 3) इस मैपिंग का उपयोग करके लागू करेंटीचर गाइडेंस लॉस, using the internal loss of the teacher model as the training signal for the student model, thereby bypassing direct token probability matching.
2.2 टोकन-स्तरीय शब्दावली संरेखण
This component addresses the sequence misalignment issue. It establishes a mapping from each student token to a corresponding subsequence of teacher tokens.एक से अनेक मैपिंगउदाहरण के लिए, छात्र टोकन "Pro" शिक्षक टोकन "Prob" और "ability" से मैप हो सकता है। यह अवधारणात्मक रूप से मशीन अनुवाद में उपयोग की जाने वाली एलाइनमेंट तकनीकों (जैसे सांख्यिकीय मशीन अनुवाद या प्रारंभिक तंत्रिका मॉडल में) के समान है, लेकिन इसे विभिन्न टोकनाइज़ेशन योजनाओं के बीच उप-शब्द स्तर पर लागू किया जाता है। इसका लक्ष्य एक पुल बनाना है जो शब्दावली असंबद्धता की स्थिति में भी सूचना के प्रवाह की अनुमति दे।
2.3 शिक्षक-निर्देशित हानि
VocAgnoLM छात्रों को शिक्षक के अगले टोकन संभाव्यता वितरण की नकल करने के लिए मजबूर नहीं करता है - जो अलग-अलग शब्दावली के मामले में संभव नहीं है - बल्कि इसका उपयोग करता हैशिक्षक की स्वयं की भाषा मॉडलिंग हानिको मार्गदर्शन के रूप में। छात्र मॉडल को एक संयुक्त उद्देश्य को कम करने के लिए प्रशिक्षित किया जाता है: इसकी मानक भाषा मॉडलिंग हानिऔरएक ऐसा नुकसान जो अपने आंतरिक प्रतिनिधित्व या भविष्यवाणियों को प्रोत्साहित करता है कि वे संरेखित अनुक्रमों पर शिक्षक मॉडल के लिए कम नुकसान मूल्य लाएं। यह मार्गदर्शन का एक अधिक अमूर्त लेकिन अधिक शक्तिशाली रूप है।
3. लाभ और प्रमुख कमियाँ
लाभ:
- मॉडल विविधता अनलॉक करें:यह एक किलर फीचर है। यह विक्रेता/पारिस्थितिकी तंत्र लॉक-इन को तोड़ता है, जिससे टीमें किसी भी स्रोत (जैसे, TinyLlama) से आने वाले किसी भी छात्र मॉडल को शिक्षित करने के लिए सर्वोत्तम उपलब्ध मॉडल (जैसे, गणित-विशिष्ट Qwen) का उपयोग कर सकती हैं।
- व्यावहारिक और हल्का-फुल्का:इसे शिक्षक के टोकनाइज़र या छात्र के एम्बेडिंग लेयर को पुनः प्रशिक्षित करने की आवश्यकता नहीं है, जिससे भारी इंजीनियरिंग लागत से बचा जाता है।
- मजबूत अनुभवजन्य परिणाम:गंभीर शब्दावली बेमेल होने की स्थिति में, प्रदर्शन में 46% की वृद्धि हुई है जो साधारण पूर्व-प्रशिक्षण की तुलना में तुच्छ नहीं है। यह साबित करता है कि यह विधि व्यवहार में प्रभावी है।
मुख्य कमियाँ एवं खुले प्रश्न:
- संरेखण ह्यूरिस्टिक एक ब्लैक बॉक्स है:पेपर "टोकन-स्तरीय शब्दावली संरेखण" के सटीक एल्गोरिदम पर संक्षेप में ही चर्चा करता है। क्या यह डायनेमिक प्रोग्रामिंग है? या एक सीखा हुआ मॉडल? इस संरेखण चरण की मजबूती और कम्प्यूटेशनल लागत महत्वपूर्ण अज्ञात कारक हैं। खराब संरेखण ज्ञान के बजाय शोर का प्रसार कर सकता है।
- सूक्ष्म-स्तरीय संकेतों की हानि:शिक्षक के अदिश नुकसान का उपयोग करने से उसके पूर्ण आउटपुट वितरण द्वारा प्रदान किया गया समृद्ध, उच्च-आयामी संकेत त्याग दिया जाता है। यह प्रत्येक उत्तर के विस्तृत फीडबैक के बजाय अंतिम ग्रेड से सीखने के समान है। यह सूक्ष्म भाषाई क्षमताओं के ज्ञान हस्तांतरण की निष्ठा को सीमित कर सकता है।
- चरम असंगति के लिए विस्तारणशीलता:परीक्षण की असंगति (6% ओवरलैप) पहले से ही गंभीर है, लेकिन यदि ओवरलैप लगभग शून्य हो तो? इस पद्धति की सैद्धांतिक सीमा का अभी परीक्षण नहीं किया गया है।
4. प्रयोगात्मक परिणाम और विश्लेषण
4.1 प्रयोगात्मक सेटअप और प्रदर्शन मापदंड
इस अध्ययन ने एक 1 बिलियन पैरामीटर वाले छात्र मॉडल (TinyLlama) और कई 7 बिलियन पैरामीटर वाले शिक्षक मॉडल (Llemma, Mistral, DeepSeek-Math, Qwen2.5-Math) का उपयोग किया, जिनकी शब्दावली का आकार 32K से 150K तक भिन्न है। मुख्य मेट्रिक गणितीय मूल्यांकन सूट पर प्रदर्शन है, जो VocAgnoLM की तुलना बिना शिक्षक मार्गदर्शन के निरंतर पूर्व-प्रशिक्षण आधार रेखा से करता है।
4.2 प्रमुख निष्कर्ष और चार्ट व्याख्या
मुख्य परिणाम पेपर के चित्र 1 में दृश्यमान हैं। यह दो प्रमुख प्रवृत्तियों को दर्शाता है:
- शब्दावली असंगति समस्या: X-अक्ष प्रदर्शन में वृद्धि करने वाले शिक्षक मॉडल (Llemma से Qwen2.5-Math तक) दिखाता है। बार ग्राफ़ TinyLlama के साथ उनकी शब्दावली ओवरलैप दर्शाता है। एक स्पष्टव्युत्क्रमानुपाती संबंध: सर्वोत्तम प्रदर्शन करने वाले शिक्षक (Qwen) का सबसे कम ओवरलैप (लगभग 6%) है। यह स्पष्ट रूप से उस समस्या को रेखांकित करता है जिसे VocAgnoLM हल करना चाहता है।
- VocAgnoLM की प्रभावशीलता:पाठ बताता है कि Qwen2.5-Math को शिक्षक मॉडल के रूप में उपयोग करते हुए, VocAgnoLM ने बेसलाइन की तुलना में46% प्रदर्शन सुधार हासिल किया।यह साबित करता है कि यह फ्रेमवर्क शक्तिशाली शिक्षक मॉडल का सफलतापूर्वक उपयोग करता है, भले ही शब्दावली समानता बेहद कम हो। पेपर यह भी बताता है कि मजबूत शिक्षक मॉडल से लगातार लाभ मिलता है, जो मूल परिकल्पना की पुष्टि करता है।
प्रमुख प्रयोगात्मक परिणाम
VocAgnoLM ने Qwen2.5-Math (शब्दावली ओवरलैप 6.32%) को TinyLlama के शिक्षक के रूप में उपयोग किया, मानक निरंतर पूर्व-प्रशिक्षण की तुलना में, इसे प्राप्त किया46% प्रदर्शन सुधार हासिल किया।。
5. व्यावहारिक अंतर्दृष्टि और रणनीतिक महत्व
कृत्रिम बुद्धिमत्ता क्षेत्र के पेशेवरों और नेताओं के लिए:
- तात्कालिक रणनीति:यदि आप एक विशेष मॉडल (जैसे वित्त, कानून, जैव-चिकित्सा के लिए) का निर्माण कर रहे हैं, तो शिक्षक मॉडल की खोज को संगत टोकनाइज़र वाले मॉडल तक सीमित करना बंद कर दें। अपने क्षेत्र में सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडलों का सक्रिय रूप से मूल्यांकन करें, भले ही उनका टोकनाइज़र कुछ भी हो। VocAgnoLM उनका उपयोग करने के लिए एक व्यवहार्य मार्ग प्रदान करता है।
- रणनीतिक खरीद:इस शोध ने "टोकनाइज़र लॉक-इन" के जोखिम को कम कर दिया है। किसी संगठन के लिए बेस मॉडल चुनते समय, शब्दावली संगतता एक कम महत्वपूर्ण बाधा बन जाती है, जिससे आप विशुद्ध रूप से आर्किटेक्चर, लाइसेंस और प्रदर्शन के आधार पर चयन कर सकते हैं।
- अनुसंधान निवेश:संरेखण घटक महत्वपूर्ण है। मजबूत, कुशल और संभावित रूप से सीखने योग्य संरेखण विधियों में निवेश, इस दृष्टिकोण के औद्योगीकरण की कुंजी होगी। इसे मॉडल अंतरसंचालनीयता का अगला सीमांत क्षेत्र माना जा सकता है।
- विचारणीय बातें:यह रामबाण इलाज नहीं है। सटीक पीढ़ी या शैली अनुकरण की आवश्यकता वाले कार्यों के लिए, सूक्ष्म-स्तरीय वितरण मिलान का नुकसान एक महत्वपूर्ण खामी हो सकती है। पहले ज्ञान-गहन कार्यों (जैसे गणित, तर्क) पर पायलट करें।
6. तकनीकी गहन विश्लेषण
6.1 गणितीय सूत्रीकरण
हालांकि प्रदान किए गए सारांश में पूर्ण हानि फलन का स्पष्ट विस्तृत विवरण नहीं है, लेकिन इसका मूल विचार औपचारिक रूप से व्यक्त किया जा सकता है। मान लीजिए $\mathcal{V}_s$ और $\mathcal{V}_t$ क्रमशः छात्र और शिक्षक की शब्दावली हैं। इनपुट अनुक्रम $x$ के लिए, छात्र टोकन अनुक्रम $\mathbf{s} = [s_1, ..., s_n]$ उत्पन्न करता है, और शिक्षक $\mathbf{t} = [t_1, ..., t_m]$ उत्पन्न करता है, आमतौर पर $n \neq m$ होता है।
टोकन-स्तरीय शब्दावली संरेखणफ़ंक्शन $\mathcal{A}$ प्रत्येक छात्र टोकन $s_i$ को शिक्षक टोकन के एक निरंतर उप-अनुक्रम पर मैप करता है: $\mathcal{A}(s_i) = \mathbf{t}_{[j:k]}$।
टीचर गाइडेंस लॉस $\mathcal{L}_{guide}$ में छात्र ( $\mathcal{A}$ के माध्यम से संरेखित) से प्राप्त प्रतिनिधित्व या पूर्वानुमानों को शिक्षक के फॉरवर्ड प्रसार में इनपुट करना और उस पर शिक्षक के भाषा मॉडलिंग नुकसान की गणना करना शामिल हो सकता है। छात्र का कुल प्रशिक्षण लक्ष्य बन जाता है:
$$\mathcal{L}_{total} = \mathcal{L}_{LM}(\theta_s; x) + \lambda \cdot \mathcal{L}_{guide}(\theta_s, \theta_t; x, \mathcal{A})$$
जहाँ $\theta_s$ और $\theta_t$ छात्र और शिक्षक के पैरामीटर हैं, $\mathcal{L}_{LM}$ मानक छात्र भाषा मॉडलिंग हानि है, और $\lambda$ एक भारित हाइपरपैरामीटर है। महत्वपूर्ण बात यह है कि $\mathcal{L}_{guide}$ संरेखित अनुक्रम पर कार्य करता है, जो सीधी शब्दावली बेमेल को दरकिनार कर देता है।
6.2 विश्लेषणात्मक ढांचा: केस स्टडी
परिदृश्य: एक कंपनी कानूनी दस्तावेज़ विश्लेषण के लिए एक संक्षिप्त, कुशल बड़ा भाषा मॉडल बनाना चाहती है। सर्वोत्तम उपलब्ध समर्पित शिक्षक `LexLaw-70B` है, जो कानूनी पाठ पर प्रशिक्षित एक कस्टम टोकनाइज़र का उपयोग करता है। लक्ष्य छात्र एक `Llama-3-8B` मॉडल है।
फ्रेमवर्क अनुप्रयोग:
- समस्या निदान: शब्दावली ओवरलैप विश्लेषण करें। संभावना है कि यह 20% से कम होगा। सीधा knowledge distillation संभव नहीं है।
- संरेखण चरण: दो मॉडलों में कानूनी पाठ नमूने इनपुट करें। VocAgnoLM के संरेखण मॉड्यूल (जैसे, बाइट पेयर एन्कोडिंग पर आधारित न्यूनतम संपादन दूरी एल्गोरिदम) का उपयोग करके सामान्य कानूनी शब्दावली (जैसे, "फोर्स मेजर") के लिए Llama-3 टोकन और LexLaw टोकन अनुक्रमों के बीच मैपिंग $\mathcal{A}$ का निर्माण करें।
- प्रशिक्षण चरण: कानूनी कॉर्पस पर Llama-3 छात्र मॉडल को प्रशिक्षित करें। प्रत्येक बैच के लिए, इसके मानक नुकसान की गणना करें। साथ ही, प्रत्येक अनुक्रम के लिए, $\mathcal{A}$ का उपयोग करके छात्र पूर्वानुमान अनुक्रम का "शिक्षक दृश्य" बनाएं, इसे फ्रीज किए गए LexLaw शिक्षक को पास करें, और इसके नुकसान की गणना करें। संयुक्त नुकसान का उपयोग करके केवल छात्र के पैरामीटर्स को अपडेट करने के लिए बैकप्रोपेगेशन करें।
- मूल्यांकन: LexLaw मार्गदर्शन के बिना प्रशिक्षित बेसलाइन छात्र मॉडल पर, कानूनी प्रश्नोत्तर बेंचमार्क के प्रदर्शन की निगरानी करें। अपेक्षित परिणाम यह है कि छात्र टोकनाइज़र को बदले बिना कानूनी तर्क क्षमता में सुधार हो।
7. भविष्य के अनुप्रयोग एवं शोध दिशाएँ
- क्रॉस-मोडल और क्रॉस-लिंग्वल ट्रांसफर: विभिन्न प्रतिनिधित्व स्थानों को संरेखित करने के मूल सिद्धांत मौलिक हैं। भविष्य के कार्य इसे संरेखित छवि-पाठ जोड़े का उपयोग करके दृश्य-भाषा शिक्षकों (जैसे GPT-4V) के माध्यम से शुद्ध पाठ छात्रों का मार्गदर्शन करने, या उच्च-संसाधन भाषा शिक्षकों का उपयोग करके कम-संसाधन भाषा छात्रों का मार्गदर्शन करने तक विस्तारित कर सकते हैं।
- गतिशील और सीखने योग्य संरेखण: हेयुरिस्टिक संरेखण से प्रशिक्षण के दौरान इष्टतम मानचित्रण सीखने वाले छोटे, प्रशिक्षण योग्य संरेखण मॉडल की ओर बढ़ने से मजबूती और दक्षता में सुधार हो सकता है।
- औद्योगिक मॉडल पाइपलाइन: इससे "शिक्षक मॉडल बाज़ार" बनाना संभव हो जाता है, जहाँ संगठन जमे हुए, समर्पित शिक्षक मॉडल सेवा के रूप में प्रदान कर सकते हैं। डाउनस्ट्रीम उपयोगकर्ता इन मॉडलों को अपनी पसंद के आर्किटेक्चर में डिस्टिल कर सकते हैं, जिससे बौद्धिक संपदा की सुरक्षा (शिक्षक मॉडल जमे हुए हैं) और अनुकूलता सुनिश्चित होती है।
- विषम क्लाइंटों के लिए फ़ेडरेटेड लर्निंग: फ़ेडरेटेड लर्निंग परिदृश्यों में, क्लाइंट अलग-अलग बेस मॉडल का उपयोग कर सकते हैं। VocAgnoLM एक ऐसी विधि प्रदान कर सकता है जो मानकीकरण की आवश्यकता के बिना, इन विषम मॉडलों के ज्ञान को वैश्विक मॉडल में समाहित करती है।
8. संदर्भ सूची
- Shin, H., Ji, L., Liu, X., & Gong, Y. (2025). Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling. arXiv preprint arXiv:2503.19123.
- Zhang, P., et al. (2024). TinyLlama: An Open-Source Small Language Model. GitHub repository.
- Yang, A., et al. (2024). Qwen2.5-Math: A Series of Large Language Models for Mathematical Problem Solving. तकनीकी रिपोर्ट.
- Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531. (ज्ञान आसवन का अग्रणी कार्य).
- Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (विभिन्न डोमेन में वितरण संरेखण पर एक प्रभावशाली कार्य, जो इस पत्र की संरेखण चुनौती के समान है).
- Google AI. (2023). Gemma: Google Research and Technology पर आधारित ओपन मॉडल. https://ai.google.dev/gemma.
- Meta AI. (2024). Llama 3 Model Card. https://llama.meta.com/llama3/.