भाषा चुनें

न्यूरल भाषा मॉडल का द्वितीय भाषा अधिग्रहण: एक भाषाई परिप्रेक्ष्य

न्यूरल भाषा मॉडल कैसे दूसरी भाषा सीखते हैं, इसका विश्लेषण: अनुभाषिक स्थानांतरण, प्रथम भाषा का प्रभाव और भाषाई सामान्यीकरण की जाँच।
learn-en.org | PDF Size: 0.5 MB
रेटिंग: 4.5/5
आपकी रेटिंग
आपने पहले ही इस दस्तावेज़ को रेट कर दिया है
PDF दस्तावेज़ कवर - न्यूरल भाषा मॉडल का द्वितीय भाषा अधिग्रहण: एक भाषाई परिप्रेक्ष्य

विषय-सूची

1. परिचय

यह कार्य न्यूरल भाषा मॉडल (एलएम) की अनुभाषिक स्थानांतरणीयता की द्वितीय भाषा (एल2) अधिग्रहण के परिप्रेक्ष्य से जाँच करता है। जहाँ पूर्व शोध प्रथम भाषा (एल1) अधिग्रहण पर केंद्रित रहा है, वहीं यह अध्ययन यह परखता है कि एल1 ज्ञान एल2 में व्याकरण अधिग्रहण की दक्षता को कैसे प्रभावित करता है। मुख्य शोध प्रश्न यह है: भाषा मॉडल का प्रथम भाषा (एल1) अधिग्रहण द्वितीय भाषा (एल2) में व्याकरण अधिग्रहण की दक्षता को कैसे प्रभावित करता है?

प्रेरणा इस अवलोकन से मिलती है कि बड़े अंग्रेजी एलएम न्यूनतम गैर-अंग्रेजी प्रशिक्षण डेटा के साथ अनुवाद क्षमताएँ प्रदर्शित करते हैं, जो कुशल अनुभाषिक स्थानांतरण का संकेत देता है। हालाँकि, अधिकांश मूल्यांकन समग्र मापों जैसे पेरप्लेक्सिटी या डाउनस्ट्रीम कार्य सटीकता पर निर्भर करते हैं। यह अध्ययन भाषाई परिप्रेक्ष्य से स्थानांतरण का विश्लेषण करके, व्याकरणिक ज्ञान अधिग्रहण और भाषा स्थानांतरण प्रवृत्तियों पर ध्यान केंद्रित करते हुए इस अंतर को भरने का लक्ष्य रखता है।

2. प्रायोगिक प्रक्रिया

प्रायोगिक डिज़ाइन एक मानव-समान एल2 अधिग्रहण परिदृश्य को दर्शाता है:

  1. एल1 प्रीट्रेनिंग (प्रथम भाषा अधिग्रहण): एक विशिष्ट एल1 (फ्रेंच, जर्मन, रूसी, या जापानी) पर एक एकलभाषी मास्क्ड भाषा मॉडल को प्रशिक्षित करें।
  2. एल2 प्रशिक्षण (द्वितीय भाषा अधिग्रहण): द्विभाषी सेटिंग्स में अंग्रेजी (एल2) पर मॉडल को आगे प्रशिक्षित करें।
  3. मूल्यांकन: बीएलआईएमपी बेंचमार्क का उपयोग करके अंग्रेजी में एक व्याकरणिक निर्णय परीक्षण के माध्यम से एल1 का एल2 पर प्रभाव का विश्लेषण करें।

मानव एल2 अधिग्रहण प्रवृत्तियों के साथ बेहतर तुलना करने के लिए प्रशिक्षण डेटा आकार को सीमित रखा गया है। चुनी गई एल1 भाषाएँ अंग्रेजी में स्थानांतरण की भाषाई प्रकारात्मक दूरी और अनुमानित कठिनाई के विभिन्न स्तरों का प्रतिनिधित्व करती हैं।

3. द्वितीय भाषा प्रशिक्षण विधियों के आगमनात्मक पूर्वाग्रह

प्रारंभिक प्रयोगों ने विभिन्न एल2 डेटा सेटिंग्स का पता लगाया:

  • केवल एल2 (अंग्रेजी) एकलभाषी पाठों पर प्रशिक्षण।
  • एल1-एल2 अनुवाद जोड़ियों पर प्रशिक्षण।

मुख्य निष्कर्ष: एल1-एल2 अनुवाद जोड़ियों को एलएम को खिलाने से, हर दो युगों में केवल एल2 एकलभाषी पाठ खिलाने की तुलना में, उनके एल2 व्याकरण अधिग्रहण में धीमापन आया। यह सुझाव देता है कि एल2 एक्सपोजर की विधि सीखने की दक्षता को महत्वपूर्ण रूप से प्रभावित करती है।

4. प्रथम भाषा प्रशिक्षण का द्वितीय भाषा व्याकरण अधिग्रहण पर प्रभाव

4.1 प्रथम भाषा ज्ञान द्वितीय भाषा सामान्यीकरण को बढ़ावा देता है

एल1 प्रीट्रेनिंग वाले मॉडलों ने शुरू से ही एल2 पर प्रशिक्षित मॉडलों की तुलना में एल2 में बेहतर भाषाई सामान्यीकरण प्रदर्शित किया। यह इंगित करता है कि पूर्व भाषाई ज्ञान (भले ही एक अलग भाषा में) नई भाषा संरचनाओं को अर्जित करने के लिए एक लाभकारी आगमनात्मक पूर्वाग्रह प्रदान करता है।

4.2 प्रथम भाषा का चयन द्वितीय भाषा प्रदर्शन को प्रभावित करता है

स्रोत एल1 भाषा ने एल2 (अंग्रेजी) सामान्यीकरण प्रदर्शन को पर्याप्त रूप से प्रभावित किया। फ्रेंच या जर्मन को एल1 के रूप में रखने वाले मॉडल, जापानी या रूसी को एल1 के रूप में रखने वाले मॉडलों की तुलना में काफी बेहतर प्रदर्शन करते हैं। यह पदानुक्रम मानव-परिभाषित भाषा स्थानांतरण कठिनाई (चिसविक और मिलर, 2004) के अनुरूप है, जहाँ प्रकारात्मक समानता (जैसे, अंग्रेजी के लिए जर्मनिक/रोमांस भाषाएँ) स्थानांतरण को सुगम बनाती है।

4.3 व्याकरण प्रकारों पर विभेदक प्रभाव

एल1 प्रीट्रेनिंग का एल2 में विभिन्न व्याकरणिक घटनाओं पर अलग-अलग प्रभाव था:

  • बड़ा लाभ: रूपात्मक और वाक्यात्मक आइटम (जैसे, कर्ता-क्रिया सहमति, शब्द क्रम)।
  • छोटा लाभ: अर्थगत और वाक्यविन्यास-अर्थ इंटरफ़ेस आइटम (जैसे, परिमाणक क्षेत्र, बाध्यता)।

यह सुझाव देता है कि अमूर्त वाक्यविन्यास ज्ञान, अर्थ-विशिष्ट या इंटरफ़ेस ज्ञान की तुलना में अधिक आसानी से स्थानांतरित हो सकता है।

5. द्वितीय भाषा अधिग्रहण की प्रक्रिया

5.1 प्रगति और डेटा अक्षमता

सीखने के प्रक्षेपवक्र के विश्लेषण से पता चला कि जब तक मॉडल ने पूरे एल2 डेटासेट को कई बार (जैसे, 50-100 युग) नहीं देख लिया, तब तक एल2 ज्ञान अधिग्रहण में पर्याप्त प्रगति नहीं हुई। यह इन एलएम की एल2 अधिग्रहण प्रक्रिया में डेटा अक्षमता की एक डिग्री को इंगित करता है। इसके अलावा, अध्ययन ने एल2 प्रशिक्षण के दौरान एल1 ज्ञान ह्रास का अवलोकन किया, जो एक ट्रेड-ऑफ और स्रोत एवं लक्ष्य भाषाई ज्ञान को संतुलित करने की आवश्यकता को रेखांकित करता है।

6. मूल अंतर्दृष्टि एवं विश्लेषक का परिप्रेक्ष्य

मूल अंतर्दृष्टि: यह पेपर एक महत्वपूर्ण, अक्सर अनदेखी की गई सच्चाई प्रस्तुत करता है: न्यूरल एलएम भाषा-निरपेक्ष सांख्यिकीय इंजन नहीं हैं। उनकी "एल1" एक गहन संरचनात्मक पूर्वाग्रह छापती है जो "एल2" सीखने की दक्षता और प्रक्षेपवक्र को निर्धारित करती है। यह निष्कर्ष कि अनुवाद जोड़े एल2 व्याकरण अधिग्रहण में बाधा डाल सकते हैं, विशेष रूप से प्रतिवादी है और मानक बहुभाषी प्रशिक्षण सिद्धांत को चुनौती देता है।

तार्किक प्रवाह: यह शोध कम्प्यूटेशनल भाषाविज्ञान और द्वितीय भाषा अधिग्रहण सिद्धांत को सुंदरता से जोड़ता है। यह एक स्पष्ट परिकल्पना (एल1 एल2 दक्षता को प्रभावित करता है) से शुरू होता है, एक नियंत्रित मानव-समान प्रतिमान (सीमित डेटा, विशिष्ट एल1) डिज़ाइन करता है, प्रशिक्षण विविधताओं का व्यवस्थित परीक्षण करता है, और सूक्ष्म भाषाई विश्लेषण में परिणत होता है। मैक्रो-स्थानांतरण (भाषा चयन) से माइक्रो-स्थानांतरण (व्याकरण प्रकार) तक का प्रवाह तार्किक रूप से ठोस है।

शक्तियाँ एवं कमियाँ: प्रमुख शक्ति इसकी भाषाई सूक्ष्मता है। सटीकता जैसे समग्र मेट्रिक्स से परे जाकर बीएलआईएमपी के वाक्यविन्यास घटनाओं पर प्रदर्शन का विश्लेषण करना एक महत्वपूर्ण योगदान है, जो "बीईआरटी क्या देखता है?" (क्लार्क एट अल., 2019) जैसे कार्यों द्वारा लोकप्रिय प्रोबिंग प्रतिमान की याद दिलाता है। मानव-एलएम तुलना रूपरेखा भी नवीन है। प्राथमिक कमी पैमाने की है। छोटे एलएम (सीमित डेटा द्वारा निहित) का उपयोग जीपीटी-4 या एलएलएएमए जैसे आधुनिक एलएलएम पर सीधी प्रयोज्यता को सीमित करता है, जिनकी फ्यू-शॉट अनुभाषिक क्षमताएँ चौंका देने वाली हैं। अध्ययन इसे स्वीकार करता है लेकिन यह एक अंतर बना रहता है। इसके अलावा, एल1 के "विनाशकारी विस्मरण" का उल्लेख किया गया है लेकिन गहराई से विश्लेषण नहीं किया गया है—एक चूक हुई अवसर।

कार्रवाई योग्य अंतर्दृष्टि: व्यवसायियों के लिए, यह शोध एक-आकार-सभी-फिट बहुभाषी रणनीति के विरुद्ध सलाह देता है। एक लक्ष्य भाषा के लिए मॉडल बनाते समय, प्रकारात्मक समानता के आधार पर रणनीतिक रूप से प्रीट्रेनिंग भाषा(ओं) का चयन करें। उदाहरण के लिए, थाई भाषा प्रदर्शन को बढ़ावा देने के लिए केवल अंग्रेजी के बजाय संबंधित ताई-कदाई भाषाओं पर प्रीट्रेनिंग से अधिक लाभ हो सकता है। डेटा अक्षमता का निष्कर्ष एल2 प्रशिक्षण के लिए अधिक पाठ्यक्रम-आधारित या मेटा-लर्निंग दृष्टिकोणों में शोध की मांग करता है, न कि ब्रूट-फोर्स निरंतर प्रशिक्षण के लिए। अंत में, क्षेत्र को एल2 अधिग्रहण के दौरान एल1 विस्मरण को कम करने के लिए बेहतर निरंतर सीखने की तकनीकों को विकसित करना चाहिए, यह एक चुनौती है जो बहु-मोडल लर्निंग में भी देखी जाती है जैसा कि फ्लेमिंगो (अलायराक एट अल., 2022) जैसे कार्यों में देखा गया है।

7. तकनीकी विवरण एवं गणितीय रूपरेखा

प्रीट्रेनिंग में उपयोग किए गए मास्क्ड भाषा मॉडलिंग उद्देश्य (डेवलिन एट अल., 2019) का मूल मास्क्ड टोकनों के पुनर्निर्माण की लॉग-संभावना को अधिकतम करना है:

$\mathcal{L}_{MLM} = -\sum_{i \in M} \log P(x_i | \mathbf{x}_{\backslash M}; \theta)$

जहाँ $M$ मास्क्ड टोकन सूचकांकों का समुच्चय है, $x_i$ मूल टोकन है, $\mathbf{x}_{\backslash M}$ $M$ में मास्क किए गए टोकनों वाला अनुक्रम है, और $\theta$ मॉडल पैरामीटर हैं।

एल2 अधिग्रहण चरण में, एल1 प्रीट्रेनिंग से आरंभ किए गए मॉडल पैरामीटर $\theta$ को एल1 और एल2 डेटा या केवल एल2 डेटा के मिश्रण पर आगे अनुकूलित किया जाता है। अध्ययन की मुख्य हेरफेर इस चरण के दौरान डेटा शेड्यूल और संरचना है, जो प्रभावी हानि फ़ंक्शन को बदल देता है जिसे मॉडल अनुकूलित करता है।

8. प्रायोगिक परिणाम एवं चार्ट विवरण

मुख्य परिणाम 1 (एल1 त्वरण): लाइन चार्ट (पाठ्य विवरण द्वारा निहित) y-अक्ष पर एल2 व्याकरणिक सटीकता (बीएलआईएमपी पर) और x-अक्ष पर एल2 प्रशिक्षण युगों को दिखाएगा। कई रेखाएँ विभिन्न एल1 (फ्र, डे, रू, जा) वाले मॉडल और बिना एल1 (शुरू से एल2) वाले बेसलाइन का प्रतिनिधित्व करेंगी। चार्ट दर्शाएगा कि सभी एल1-प्रीट्रेन्ड मॉडल बेसलाइन की तुलना में ऊँचे स्तर से शुरू होते हैं और तेजी से सीखते हैं, जिसमें फ्र और डे रेखाएँ सबसे तेज और सबसे ऊँची उठती हैं।

मुख्य परिणाम 2 (व्याकरण प्रकार विभेदक): एक समूहीकृत बार चार्ट बीएलआईएमपी पर अंतिम सटीकता प्रदर्शित करेगा। x-अक्ष में श्रेणियाँ होंगी: रूपविज्ञान, वाक्यविन्यास, अर्थविज्ञान, वाक्यविन्यास-अर्थविज्ञान। प्रत्येक श्रेणी के लिए, दो बार होंगे: एक "बिना एल1 प्रीट्रेनिंग" के लिए और एक "एल1 प्रीट्रेनिंग के साथ" के लिए। दोनों बारों के बीच की ऊँचाई का अंतर (एल1 से लाभ) रूपविज्ञान और वाक्यविन्यास के लिए स्पष्ट रूप से सबसे बड़ा, और अर्थविज्ञान के लिए सबसे छोटा दिखाई देगा।

9. विश्लेषण रूपरेखा: उदाहरण केस

केस: कर्ता-क्रिया सहमति के लिए एल1 जापानी (जा) से एल2 अंग्रेजी (एन) स्थानांतरण का विश्लेषण।

  1. भाषाई विशेषता: अंग्रेजी में संख्या में कर्ता-क्रिया सहमति आवश्यक है (जैसे, "The dog runs" बनाम "The dogs run")। जापानी कर्ता सहमति के लिए क्रियाओं को चिह्नित नहीं करता है।
  2. परिकल्पना: जापानी (एल1) पर प्रीट्रेन्ड एक एलएम की, फ्रेंच (जिसमें सहमति है) पर प्रीट्रेन्ड एलएम की तुलना में, अंग्रेजी में इस सहमति विशेषता को सीखने के लिए एक कमजोर प्रारंभिक पूर्वाग्रह हो सकता है।
  3. प्रोबिंग प्रयोग: एल2 प्रशिक्षण के बाद, मॉडल को बीएलआईएमपी से न्यूनतम जोड़े प्रस्तुत करें:
    • व्याकरणिक: "The key to the cabinets is on the table."
    • अव्याकरणिक: "The key to the cabinets are on the table."
  4. मेट्रिक: सही क्रिया रूप बनाम गलत क्रिया रूप को मॉडल की संभाव्यता असाइनमेंट की तुलना करें। फ्र-एल1 मॉडल की तुलना में जा-एल1 मॉडल के लिए संभाव्यता अंतर कम होना, गैर-सहमति वाले एल1 से नकारात्मक स्थानांतरण की परिकल्पना की पुष्टि करेगा।

यह रूपरेखा एल1-एल2 संरचनात्मक संरेखण के आधार पर विशिष्ट व्याकरणिक विशेषताओं के स्थानांतरण को अलग करने की अनुमति देती है।

10. भविष्य के अनुप्रयोग एवं दिशाएँ

  • कुशल कम-संसाधन भाषा मॉडलिंग: वास्तविक लक्ष्य कम-संसाधन भाषा पर फाइन-ट्यूनिंग से पहले, डेटा दक्षता को अनुकूलित करते हुए, रणनीतिक रूप से एक उच्च-संसाधन, प्रकारात्मक रूप से समान "मूल" भाषा का चयन प्रीट्रेनिंग के लिए करें।
  • व्यक्तिगत भाषा सीखने के उपकरण: एआई ट्यूटर विकसित करें जो एक शिक्षार्थी की मूल भाषा के आधार पर शिक्षण रणनीतियों को अनुकूलित करते हैं, एलएम स्थानांतरण पैटर्न से सूचित होकर कठिनाई के क्षेत्रों (जैसे, रूसी बोलने वालों के लिए आर्टिकल उपयोग) की भविष्यवाणी करते हैं।
  • व्याख्यात्मक बहुभाषी एलएलएम: एल1-एल2 स्थानांतरण प्रतिमान को एक नियंत्रित प्रायोगिक सेटअप के रूप में उपयोग करें ताकि मॉडल पैरामीटरों के भीतर कौन सा भाषाई ज्ञान संग्रहीत और स्थानांतरित होता है, उसे अलग करें और दृश्यमान बनाएं, जिससे मॉडल व्याख्यात्मकता आगे बढ़े।
  • न्यूरोलिंगुइस्टिक सत्यापन: संज्ञानात्मक वैज्ञानिकों के साथ सहयोग करके एलएम एल2 अधिग्रहण प्रक्षेपवक्र (जैसे, त्रुटि पैटर्न, सीखने के पठार) की मानव मस्तिष्क इमेजिंग या व्यवहारिक डेटा के साथ तुलना करें, भाषा अधिग्रहण के कम्प्यूटेशनल सिद्धांतों का परीक्षण करें।
  • गतिशील, गैर-विस्मरण बहुभाषी मॉडल: निरंतर सीखने के एल्गोरिदम में शोध करें जो एक एलएम को पूर्व भाषा प्रवीणता को कम किए बिना कई भाषाओं को क्रमिक रूप से अर्जित करने की अनुमति देते हैं, वास्तविक बहुभाषी एआई की ओर बढ़ते हुए।

11. संदर्भ

  1. ओबा, एम., कुरिबायाशी, टी., ओउची, एच., और वतनाबे, टी. (2023). Second Language Acquisition of Neural Language Models. arXiv preprint arXiv:2306.02920.
  2. डेवलिन, जे., चांग, एम. डब्ल्यू., ली, के., और टाउटानोवा, के. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
  3. चिसविक, बी. आर., और मिलर, पी. डब्ल्यू. (2004). Linguistic Distance: A Quantitative Measure of the Distance Between English and Other Languages. Journal of Multilingual and Multicultural Development.
  4. क्लार्क, के., खंडेलवाल, यू., लेवी, ओ., और मैनिंग, सी. डी. (2019). What Does BERT Look At? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP.
  5. अलायराक, जे., एट अल. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
  6. ब्राउन, टी. बी., एट अल. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems.
  7. पापादिमित्रिउ, आई., और जुराफ्स्की, डी. (2020). Pretraining on Non-English Data Improves Cross-lingual Generalization. Proceedings of the 1st Conference of the Asia-Pacific Chapter of the ACL.