1. परिचय
बच्चों में भाषा अर्जन एक उल्लेखनीय रूप से सुसंगत क्रम का अनुसरण करता है: स्वनिम वर्गीकरण से लेकर शब्दावली विकास तक, और अंत में जटिल वाक्यात्मक संरचनाओं में निपुणता प्राप्त करना। शैशवावस्था से लगभग छह वर्ष की आयु तक देखे गए इस विकासात्मक प्रक्षेपवक्र से अंतर्निहित कम्प्यूटेशनल सिद्धांतों के बारे में मौलिक प्रश्न उठते हैं। क्या यह चरणबद्ध सीखना मानव न्यूरोबायोलॉजी की एक विशिष्ट विशेषता है, या क्या यह कृत्रिम प्रणालियों में भी उभर सकता है? यह अध्ययन 54 बच्चों (18 माह से 6 वर्ष की आयु) और शुरुआत से प्रशिक्षित 48 जीपीटी-2 मॉडलों के सीखने के प्रक्षेपवक्रों की तुलना करके सीधे इसका समाधान करता है। केंद्रीय परिकल्पना यह है कि यदि दोनों में समान चरण उभरते हैं, तो यह साझा, डेटा-संचालित सीखने की बाधाओं की ओर इशारा कर सकता है।
2. पद्धति
यह शोध एक तुलनात्मक ढांचे का उपयोग करता है, जो मानव और कृत्रिम दोनों प्रकार के शिक्षार्थियों का उनके विकास के कई चरणों में जांच करता है।
2.1 प्रायोगिक व्यवस्था
बच्चे: 54 बच्चों में भाषाई उत्पादन का विश्लेषण किया गया। फ्रीडमैन एट अल. (2021) द्वारा स्थापित पद्धतियों का अनुसरण करते हुए, उनकी स्वतःस्फूर्त वाणी और विभिन्न वाक्यात्मक जटिलता वाले वाक्यों को दोहराने की क्षमता का मूल्यांकन किया गया।
जीपीटी-2 मॉडल: जीपीटी-2 मॉडल (124M पैरामीटर वेरिएंट) के 48 उदाहरणों को मानक भाषा मॉडलिंग उद्देश्यों (जैसे, वेबटेक्स्ट) पर यादृच्छिक आरंभीकरण से प्रशिक्षित किया गया। प्रशिक्षण के दौरान नियमित अंतराल पर उनकी आंतरिक अवस्थाओं की जांच की गई।
2.2 डेटा संग्रह एवं प्रोब
स्थापित बेंचमार्क से 96 नैदानिक प्रोबों का एक सेट तैयार किया गया:
- BLiMP: 67 वाक्यात्मक घटनाओं में व्याकरणिक ज्ञान का मूल्यांकन करने के लिए।
- Zorro: शब्दार्थ और सामान्य ज्ञान तर्क की जांच के लिए।
- BIG-Bench: व्यापक भाषाई और संज्ञानात्मक क्षमताओं का आकलन करने के लिए।
इन प्रोबों को प्रत्येक प्रशिक्षण चेकपॉइंट पर जीपीटी-2 मॉडलों पर लागू किया गया और बच्चों के उत्पादन कार्यों के समान माप के रूप में कार्य किया।
3. परिणाम एवं विश्लेषण
3.1 सीखने के प्रक्षेपवक्र की तुलना
विश्लेषण से पता चला कि जीपीटी-2 मॉडल, बच्चों की तरह, भाषाई कौशल एक व्यवस्थित क्रम में अर्जित करते हैं। सरल कार्य (जैसे, मूल व्याकरणिक सहमति) प्रशिक्षण में पहले ही महारत हासिल कर लिए जाते हैं, जबकि अधिक जटिल कार्य (जैसे, सापेक्ष उपवाक्य जैसी नेस्टेड वाक्यात्मक संरचनाएं) के लिए काफी अधिक प्रशिक्षण चरणों (विकासात्मक समय के अनुरूप) की आवश्यकता होती है।
3.2 समानांतर सीखने की योजना
एक प्रमुख निष्कर्ष सीखने की समानांतर प्रकृति है। यहां तक कि वे कार्य जो प्रशिक्षण के अंत में पूरी तरह से अर्जित किए जाते हैं, पहले ही चरणों से मापने योग्य सुधार दिखाते हैं। इससे पता चलता है कि मॉडल मूलभूत प्रतिनिधित्व बनाता है जो लगातार परिष्कृत होते रहते हैं, न कि कौशल को सख्त, अलग-थलग क्रम में सीखता है।
3.3 साझा बनाम भिन्न चरण
अध्ययन दोनों अतिव्यापन और महत्वपूर्ण भिन्नताओं की पहचान करता है:
- साझा: सरल से अधिक जटिल वाक्यात्मक रूपों तक की व्यापक प्रगति।
- भिन्न: कुछ उप-कौशलों का विशिष्ट क्रम भिन्न था। उदाहरण के लिए, मॉडल कुछ औपचारिक वाक्यात्मक नियमों को बच्चों की तुलना में अलग क्रम में अर्जित कर सकते हैं, संभवतः प्रशिक्षण डेटा वितरण बनाम मानवीय अवधारणात्मक और सामाजिक अनुभव में अंतर के कारण।
यह इस बात को उजागर करता है कि जबकि डेटा-संचालित दबाव चरणबद्धता बनाता है, चरण अनुक्रम के विशिष्ट विवरण शिक्षार्थी की वास्तुकला और इनपुट द्वारा नियंत्रित होते हैं।
मुख्य प्रायोगिक मेट्रिक्स
प्रशिक्षित मॉडल: 48 जीपीटी-2 उदाहरण
नैदानिक प्रोब: BLiMP, Zorro, BIG-Bench से 96 कार्य
बाल प्रतिभागी: 54 (18 माह - 6 वर्ष)
मुख्य निष्कर्ष: बच्चों और मॉडलों के बीच सीखने के चरण क्रम में महत्वपूर्ण सहसंबंध, लेकिन समान नहीं।
4. तकनीकी ढांचा
4.1 गणितीय सूत्रीकरण
जीपीटी-2 के लिए मुख्य सीखने का उद्देश्य अधिकतम संभावना अनुमान के माध्यम से अगले टोकन की भविष्यवाणी करना है। टोकन के अनुक्रम $x_1, x_2, ..., x_t$ को देखते हुए, पैरामीटर $ heta$ द्वारा पैरामीटराइज्ड मॉडल को नकारात्मक लॉग-संभावना को कम करने के लिए प्रशिक्षित किया जाता है:
$L(\theta) = -\sum_{t} \log P(x_t | x_{ प्रशिक्षण चरण $\tau$ पर एक विशिष्ट भाषाई प्रोब $p$ के लिए प्रोब सटीकता $A_p(\theta, \tau)$ उभरती क्षमता को मापती है। सीखने का प्रक्षेपवक्र फ़ंक्शन $\tau \rightarrow \{A_{p_1}(\theta, \tau), A_{p_2}(\theta, \tau), ...\}$ है। अध्ययन का विश्लेषण विभिन्न प्रोब $p$ के उस क्रम की तुलना करता है जिसमें वे प्रदर्शन सीमा (जैसे, 80% सटीकता) को पार करते हैं, मॉडलों के लिए $\tau$ के पार और बच्चों के लिए आयु के पार। केस: सापेक्ष उपवाक्य अर्जन का ट्रैकिंग प्रोब कार्य: व्याकरणिक ("The boy that I saw sang") और अव्याकरणिक ("The boy that I saw sing") वाक्यों में अंतर करना। विश्लेषण चरण: यह ढांचा मौलिक रूप से भिन्न सीखने की प्रणालियों में विकासात्मक अनुसूचियों की मात्रात्मक तुलना की अनुमति देता है। संकल्पनात्मक चार्ट: सीखने के प्रक्षेपवक्र की तुलना परिणामों को द्वि-अक्षीय चार्ट पर दृश्यमान बनाया जा सकता है: चार्ट दोनों प्रक्षेपवक्रों को प्रत्येक कौशल के लिए एस-आकार का सीखने वक्र प्रदर्शित करते हुए दिखाएगा, लेकिन रेखाओं के क्रम (कौशल पहले बढ़ता है) समान होने के बावजूद पूरी तरह से समान नहीं होंगे। एक दूसरी प्रमुख दृश्यीकरण एक हीटमैप होगा जो मॉडल एन्सेम्बल के लिए सभी 96 प्रोबों में अर्जन क्रम के सहसंबंध मैट्रिक्स को बच्चों में देखे गए क्रम के विरुद्ध दिखाएगा, जो उच्च और निम्न सहसंबंध के समूहों को उजागर करेगा। मूल अंतर्दृष्टि: यह पेपर एक महत्वपूर्ण, सूक्ष्म निष्कर्ष प्रस्तुत करता है: भाषा सीखने की चरणबद्धता एक मानव-विशिष्ट रहस्य नहीं है, बल्कि बाधाओं के तहत वृद्धिशील, डेटा-संचालित अनुकूलन का एक उभरता हुआ गुण है। हालांकि, उन चरणों का खाका शिक्षार्थी की जन्मजात वास्तुकला द्वारा सह-लेखन किया जाता है। जीपीटी-2 और बच्चे एक "सरल-से-जटिल" पाठ्यक्रम पर अभिसरण करते हैं क्योंकि डेटा में वह पाठ्यक्रम निहित होता है। वे विशिष्टताओं पर भिन्न होते हैं क्योंकि एक ट्रांसफॉर्मर के "प्रेरक पूर्वाग्रह" (वासवानी एट अल., 2017) एक मानव बच्चे के संज्ञानात्मक और अवधारणात्मक पूर्वानुमानों से भिन्न होते हैं। तार्किक प्रवाह: तर्क सुंदर ढंग से निर्मित है। यह एक सुस्थापित अनुभवजन्य तथ्य (बच्चों में क्रमबद्ध चरण) से शुरू होता है, एक कम्प्यूटेशनल प्रश्न पूछता है (क्या यह क्रम एआई में उभरता है?), और इसे परखने के लिए एक मजबूत, बहु-प्रोब पद्धति का उपयोग करता है। "क्रम मौजूद है" को प्रदर्शित करने से लेकर इसकी "समानांतर प्रकृति" का विश्लेषण करने और अंत में "साझा/भिन्न" तत्वों को विभाजित करने की ओर बढ़ना तार्किक रूप से शक्तिशाली है। यह साइकलजीएएन पेपर (झू एट अल., 2017) जैसे मौलिक कार्यों में विश्लेषणात्मक प्रगति को दर्पण करता है, जिसने न केवल एक नया मॉडल प्रस्तुत किया बल्कि अयुग्मित छवि अनुवाद की समस्या को चक्रीय स्थिरता बाधाओं में व्यवस्थित रूप से विघटित किया। शक्तियां एवं दोष: अध्ययन की शक्ति इसकी पद्धतिगत कठोरता और प्रत्यक्ष तुलनीयता है। एकाधिक मॉडल उदाहरणों और एक विशाल प्रोब सेट का उपयोग करने से शोर कम होता है। मुख्य दोष, जिसे अंतर्निहित रूप से स्वीकार किया गया है, माप में असममिति है: बच्चों में उत्पादन बनाम मॉडलों में आंतरिक प्रोब सटीकता। क्या एक प्रोब में वाक्यात्मक नियम "जानने" वाला मॉडल एक बच्चे के स्वतःस्फूर्त वाणी में इसका "उपयोग" करने के बराबर है? जरूरी नहीं। यह इमेजनेट जैसे बेंचमार्क की आलोचनाओं के समान है जहां मॉडल शॉर्टकट सीखते हैं (गेरहोस एट अल., 2020)। प्रोब सूट, हालांकि व्यापक है, मानव भाषा अर्जन के एकीकृत, संचारात्मक सार को कैप्चर नहीं कर सकता है। कार्रवाई योग्य अंतर्दृष्टि: एआई शोधकर्ताओं के लिए, यह पाठ्यक्रम सीखने और मॉडल निदान के लिए एक सोने की खान है। यदि हम चाहते हैं कि मॉडल मनुष्यों की तरह सीखें, तो हमें प्रशिक्षण डेटा अनुक्रम या हानि फ़ंक्शन को इंजीनियर करने की आवश्यकता है जो मानव विकासात्मक अनुसूची को बेहतर ढंग से दर्पण करे। संज्ञानात्मक वैज्ञानिकों के लिए, यह कार्य एक नया, हेरफेर योग्य टेस्टबेड प्रदान करता है: मॉडल की वास्तुकला बदलें (जैसे, एलएसटीएम में रिकरंट कनेक्शन शुरू करें) या प्रशिक्षण डेटा बदलें (जैसे, मल्टीमोडल इनपुट जोड़ें), और देखें कि विकासात्मक प्रक्षेपवक्र कैसे बदलता है। यह विशिष्ट मानवीय पूर्वाग्रहों के योगदान को अलग करने में मदद कर सकता है। अंतिम अंतर्दृष्टि यह है कि बेहतर एआई बनाना और मानव संज्ञान को समझना अब एक ही, परस्पर जुड़ा हुआ प्रयास है।4.2 विश्लेषण ढांचे का उदाहरण
5. परिणामों का दृश्यीकरण
6. मूल अंतर्दृष्टि एवं विश्लेषक का परिप्रेक्ष्य
7. भविष्य के अनुप्रयोग एवं दिशाएं
8. संदर्भ