1. परिचय
बड़े भाषा मॉडल (एलएलएम) के लिए स्केलिंग नियम परंपरागत रूप से मॉडल पैरामीटर और प्रशिक्षण डेटा आकार पर केंद्रित रहे हैं, जिसमें शब्दावली आकार को एक महत्वपूर्ण स्केलिंग आयाम के रूप में काफी हद तक नजरअंदाज किया गया है। यह शोध पत्र शब्दावली आकार के एलएलएम प्रदर्शन पर प्रभाव की जांच करता है और दिए गए प्रशिक्षण बजट के लिए कम्प्यूट-इष्टतम शब्दावली आकार निर्धारित करने की विधियाँ प्रस्तावित करता है।
यह शोध दर्शाता है कि Llama2-70B जैसे वर्तमान एलएलएम उप-इष्टतम शब्दावली आकार (32K बनाम पूर्वानुमानित इष्टतम 216K) का उपयोग करते हैं, जो वर्तमान प्रथाओं में महत्वपूर्ण दक्षता अंतराल को उजागर करता है।
मॉडल सीमा
33M - 3B
प्रशिक्षित पैरामीटर
प्रशिक्षण डेटा
500B
प्रसंस्कृत अक्षर
शब्दावली अंतर
7x
Llama2-70B अवमूल्यन
2. पद्धति
2.1 सामान्यीकृत हानि सूत्रीकरण
विभिन्न शब्दावली आकार वाले मॉडलों के बीच निष्पक्ष तुलना सुनिश्चित करने के लिए, लेखक एक सामान्यीकृत हानि फ़ंक्शन प्रस्तुत करते हैं जो टोकनाइजेशन दक्षता के अंतरों को ध्यान में रखता है। यह सामान्यीकरण बड़ी शब्दावली वाले मॉडलों को हानि मेट्रिक्स में कृत्रिम लाभ प्राप्त करने से रोकता है।
2.2 तीन पूर्वानुमान दृष्टिकोण
शोध पत्र इष्टतम शब्दावली आकार का पूर्वानुमान लगाने के लिए तीन पूरक विधियाँ प्रस्तावित करता है:
2.2.1 आइसोफ्लॉप्स विश्लेषण
समान कम्प्यूटेशनल बजट लेकिन विभिन्न शब्दावली आकार के साथ मॉडल प्रशिक्षित करना ताकि प्रत्येक बजट स्तर के लिए न्यूनतम हानि बिंदु की पहचान की जा सके।
2.2.2 व्युत्पन्न अनुमान
शब्दावली आकार के संबंध में हानि फ़ंक्शन के व्युत्पन्न के शून्य के बराबर होने का पता लगाने के लिए ग्रेडिएंट-आधारित विधियों का उपयोग करना, जो इष्टतम बिंदुओं को इंगित करता है।
2.2.3 पैरामीट्रिक फिट
मॉडल पैरामीटर, शब्दावली आकार और हानि के बीच पावर-लॉ संबंधों को फिट करके पूर्वानुमानित सूत्र प्राप्त करना।
3. प्रायोगिक परिणाम
3.1 मॉडल प्रशिक्षण सेटअप
33M से 3B पैरामीटर तक के मॉडलों को 500B अक्षरों तक के साथ विभिन्न शब्दावली विन्यासों पर प्रशिक्षित किया गया। व्यापक स्केलिंग संबंध स्थापित करने के लिए प्रशिक्षण विभिन्न FLOPs बजटों में फैला हुआ था।
3.2 इष्टतम शब्दावली निष्कर्ष
शोध एक पावर-लॉ संबंध प्रकट करता है: $N_v^{opt} \propto N_{nv}^\gamma$ जहाँ $\gamma < 1$, यह इंगित करता है कि इष्टतम शब्दावली पैरामीटर गैर-शब्दावली पैरामीटर की तुलना में धीमी गति से स्केल होने चाहिए। यह मॉडल स्केलों में निश्चित शब्दावली आकार के उपयोग की सामान्य प्रथा का खंडन करता है।
चित्र 1: शब्दावली स्केलिंग संबंध
विज़ुअलाइज़ेशन सैद्धांतिक पूर्वानुमानों के साथ संरेखित अनुभवजन्य परिणाम दिखाता है, जिसमें बड़े वृत्त उच्च हानि मान दर्शाते हैं। प्लॉट विभिन्न मॉडल स्केलों के लिए स्पष्ट इष्टतम शब्दावली आकार प्रदर्शित करता है, जो एक विशिष्ट पावर-लॉ वक्र बनाता है।
3.3 डाउनस्ट्रीम प्रदर्शन सत्यापन
3B पैरामीटर मॉडलों के साथ अनुभवजन्य सत्यापन से पता चलता है कि पूर्वानुमानित इष्टतम शब्दावली आकार का उपयोग करने पर सुसंगत सुधार होते हैं। ARC-Challenge पर, शब्दावली को 32K से बढ़ाकर 43K करने से समान 2.3e21 FLOPs बजट के साथ प्रदर्शन 29.1 से 32.0 तक सुधर गया।
मुख्य अंतर्दृष्टि
- शब्दावली आकार एलएलएम स्केलिंग दक्षता को महत्वपूर्ण रूप से प्रभावित करता है
- इष्टतम शब्दावली कम्प्यूट बजट और मॉडल आकार के साथ स्केल होती है
- वर्तमान एलएलएम आम तौर पर उप-इष्टतम शब्दावली आकार का उपयोग करते हैं
- टोकनाइजेशन और मॉडल स्केलिंग का संयुक्त विचार आवश्यक है
4. तकनीकी विश्लेषण एवं ढांचा
4.1 गणितीय सूत्रीकरण
खोजा गया मूल गणितीय संबंध इस प्रकार व्यक्त किया गया है:
$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$
जहाँ $L$ सामान्यीकृत हानि है, $N_{nv}$ गैर-शब्दावली पैरामीटर हैं, $N_v$ शब्दावली पैरामीटर हैं, $D$ प्रशिक्षण डेटा आकार है, और $E, A, B, C, \alpha, \beta, \gamma$ फिट किए गए स्थिरांक हैं।
इष्टतम शब्दावली आकार संतुष्ट करता है: $\frac{\partial L}{\partial N_v} = 0$
4.2 विश्लेषण ढांचा उदाहरण
केस स्टडी: 10B पैरामीटर मॉडल के लिए इष्टतम शब्दावली निर्धारित करना
दिया गया: प्रशिक्षण बजट = 1e23 FLOPs, लक्ष्य डोमेन = सामान्य भाषा समझ
ढांचा अनुप्रयोग:
- गैर-शब्दावली पैरामीटर अनुमानित करें: $N_{nv} = 9.5\text{B}$ (कुल का 95%)
- पावर-लॉ लागू करें: $N_v^{opt} \propto N_{nv}^{0.7}$ (अनुभवजन्य फिट से)
- गणना करें: $N_v^{opt} \approx 150\text{K}$ टोकन
- दिए गए बजट के लिए आइसोफ्लॉप्स विश्लेषण के साथ सत्यापित करें
- डोमेन-विशिष्ट टोकन वितरण के लिए समायोजित करें
यह ढांचा शब्दावली आकार निर्धारण के लिए एक व्यवस्थित दृष्टिकोण प्रदान करता है जिसे वर्तमान मॉडल डेवलपर्स अक्सर नजरअंदाज करते हैं।
5. उद्योग विश्लेषक परिप्रेक्ष्य
5.1 मूल अंतर्दृष्टि
उद्योग मौलिक रूप से गलत दिशा में रहा है जब उसने शब्दावली आकार को एक स्थिर हाइपरपैरामीटर के रूप में माना। यह शोध पत्र एक महत्वपूर्ण अंधे धब्बे को उजागर करता है: हम एक हाथ पीछे बांधकर एलएलएम को अनुकूलित कर रहे हैं। यह खोज कि Llama2-70B की शब्दावली 7 गुना बड़ी होनी चाहिए, केवल एक शैक्षणिक जिज्ञासा नहीं है—यह पूरे एआई पारिस्थितिकी तंत्र में अरबों डॉलर के बर्बाद कम्प्यूट और उप-इष्टतम मॉडल प्रदर्शन का प्रतिनिधित्व करती है। यह चूक शुरुआती तंत्रिका नेटवर्क शोध की याद दिलाती है जिसने सक्रियण कार्यों के महत्व को कम करके आंका था, जैसा कि ग्लोरोट और बेंजियो (2010) के गहरे फीडफॉरवर्ड तंत्रिका नेटवर्क को प्रशिक्षित करने की कठिनाई को समझने पर अग्रणी कार्य में दर्ज है।
5.2 तार्किक प्रवाह
शोध पत्र का तर्क शल्य चिकित्सा सटीकता के साथ आगे बढ़ता है: पहले, वे स्थापित करते हैं कि शब्दावली मायने रखती है (प्रचलित स्केलिंग नियम धारणाओं के विपरीत)। दूसरा, वे दर्शाते हैं कि यह पावर लॉ के माध्यम से व्यवस्थित रूप से मायने रखती है। तीसरा, वे अनुकूलन के लिए व्यावहारिक उपकरण प्रदान करते हैं। तार्किक श्रृंखला हवाबंद है—समस्या पहचान से लेकर पद्धतिगत नवाचार और अनुभवजन्य सत्यापन तक। यह है कि कठोर शोध कैसे आयोजित किया जाना चाहिए, मौलिक अंतर्दृष्टि के बिना वृद्धिशील सुधार प्रकाशित करने के रुझान के विपरीत।
5.3 शक्तियाँ एवं दोष
शक्तियाँ: त्रि-पद्धति दृष्टिकोण (आइसोफ्लॉप्स, व्युत्पन्न, पैरामीट्रिक फिट) मजबूत सत्यापन प्रदान करता है। प्रयोग का पैमाना (33M से 3B पैरामीटर) प्रभावशाली और सम्मोहक है। व्यावहारिक निहितार्थ तुरंत क्रियान्वयन योग्य हैं एलएलएम प्रशिक्षित करने वाले किसी भी संगठन के लिए।
दोष: अध्ययन मुख्य रूप से अंग्रेजी पाठ पर केंद्रित है—बहुभाषी निहितार्थ अन्वेषित बने हुए हैं। उनकी पद्धति की कम्प्यूटेशनल लागत छोटे शोध समूहों के लिए निषेधात्मक हो सकती है। वे इस बात को संबोधित नहीं करते कि शब्दावली अनुकूलन ध्यान तंत्र जैसे अन्य वास्तुकला विकल्पों के साथ कैसे अंतःक्रिया करता है, एक ऐसा क्षेत्र जहां ट्रांसफॉर्मर आर्किटेक्चर पेपर (वासवानी एट अल., 2017) ने मूलभूत सिद्धांत स्थापित किए जो अभी भी इस क्षेत्र पर हावी हैं।
5.4 क्रियान्वयन योग्य अंतर्दृष्टि
प्रत्येक एआई लैब जो एलएलएम प्रशिक्षित कर रही है, उसे तुरंत करना चाहिए: 1) अपनी शब्दावली आकार निर्धारण रणनीति का पुनर्मूल्यांकन करें, 2) वर्तमान परियोजनाओं के लिए आइसोफ्लॉप्स विश्लेषण लागू करें, 3) शब्दावली आकार को पैरामीटर और डेटा के साथ-साथ एक प्रथम-श्रेणी स्केलिंग आयाम के रूप में मानें। NVIDIA और AMD जैसी हार्डवेयर कंपनियों के लिए, यह शोध बड़े एम्बेडिंग टेबल के लिए मेमोरी आर्किटेक्चर में नए अनुकूलन अवसरों का सुझाव देता है। Llama2-70B के लिए 7x शब्दावली अंतर का तात्पर्य है कि वर्तमान हार्डवेयर मौलिक रूप से इष्टतम मॉडल विन्यास से मेल नहीं खाता है।
6. भविष्य के अनुप्रयोग एवं दिशाएँ
तत्काल अनुप्रयोग:
- अगली पीढ़ी के एलएलएम (GPT-5, Gemini 2.0, आदि) के लिए शब्दावली रणनीतियों का पुनर्निर्माण
- बड़े एम्बेडिंग टेबल के लिए हार्डवेयर अनुकूलन
- मॉडल सर्विंग और अनुमान में सुधारित दक्षता
शोध दिशाएँ:
- विविध भाषाओं में बहुभाषी शब्दावली अनुकूलन
- प्रशिक्षण के दौरान गतिशील शब्दावली आकार निर्धारण
- मिश्रण-विशेषज्ञ वास्तुकला के साथ एकीकरण
- डोमेन-विशिष्ट मॉडल के लिए शब्दावली अनुकूलन
- बहुमॉडल मॉडल के लिए क्रॉस-मॉडल शब्दावली विचार
इस कार्य में स्थापित सिद्धांत भाषा मॉडल से परे बायोइनफॉरमैटिक्स, कोड जनरेशन और टाइम सीरीज विश्लेषण में अन्य अनुक्रम मॉडल तक विस्तारित हो सकते हैं, जैसे कि कंप्यूटर विज़न से कन्व्होल्यूशनल न्यूरल नेटवर्क सिद्धांत (जैसा कि क्रिज़ेव्स्की एट अल., 2012 के एलेक्सनेट पेपर में) अन्य डोमेन में स्थानांतरित हुए थे।
7. संदर्भ
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
- Brown, T., et al. (2020). Language Models are Few-Shot Learners.
- Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
- Vaswani, A., et al. (2017). Attention Is All You Need.
- Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
- Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
- Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.