भाषा चुनें

पूर्व-प्रशिक्षित तंत्रिका भाषा मॉडल के माध्यम से ESL वाक्य पूर्णता प्रश्नों का समाधान

एक शोध पत्र जो द्वितीय भाषा के रूप में अंग्रेजी (ESL) वाक्य पूर्णता प्रश्नों को स्वचालित रूप से हल करने के लिए पूर्व-प्रशिक्षित भाषा मॉडल का उपयोग करने वाले एक तंत्रिका ढांचे का प्रस्ताव करता है, जिसमें एक वास्तविक-विश्व K-12 डेटासेट पर प्रयोग शामिल हैं।
learn-en.org | PDF Size: 0.1 MB
रेटिंग: 4.5/5
आपकी रेटिंग
आपने पहले ही इस दस्तावेज़ को रेट कर दिया है
PDF दस्तावेज़ कवर - पूर्व-प्रशिक्षित तंत्रिका भाषा मॉडल के माध्यम से ESL वाक्य पूर्णता प्रश्नों का समाधान

विषय सूची

1. परिचय

वाक्य पूर्णता (एससी) प्रश्न, द्वितीय भाषा के रूप में अंग्रेजी (ईएसएल) प्रवीणता का आकलन करने का एक मौलिक उपकरण हैं। इनमें एक या अधिक रिक्त स्थानों वाला एक वाक्य और उम्मीदवार शब्दों या वाक्यांशों का एक समूह प्रस्तुत किया जाता है। इन प्रश्नों के समाधान को स्वचालित करने से भाषा सीखने वालों (तत्काल प्रतिक्रिया), शिक्षकों (प्रश्न गुणवत्ता मूल्यांकन) और बुद्धिमान शिक्षण प्रणालियों के विकास के लिए महत्वपूर्ण लाभ मिलते हैं।

पिछले कम्प्यूटेशनल दृष्टिकोण, जैसे एन-ग्राम भाषा मॉडल या विशेष रिक्त एलएम, वास्तविक-विश्व शैक्षिक सेटिंग्स में चुनौतियों का सामना करते हैं: पेशेवरों द्वारा तैयार किए गए अत्यधिक भ्रमित करने वाले विकल्प, गहन भाषाई ज्ञान (व्याकरण, वाक्यविन्यास, शब्दार्थ) की आवश्यकता, और प्रति रिक्त स्थान पर रिक्त स्थानों और टोकनों की परिवर्तनशील संख्या।

यह कार्य इन चुनौतियों का समाधान करने के लिए बड़े पैमाने पर पूर्व-प्रशिक्षित भाषा मॉडल का लाभ उठाने वाले एक तंत्रिका ढांचे का प्रस्ताव करता है, जो एक वास्तविक-विश्व K-12 ईएसएल डेटासेट पर श्रेष्ठ प्रदर्शन प्रदर्शित करता है।

2. हमारा दृष्टिकोण

2.1 समस्या सूत्रीकरण

एक एससी प्रश्न को एक टपल $(q, O)$ के रूप में परिभाषित किया जाता है, जहाँ $q$ `[MASK]` टोकन द्वारा निरूपित $m$ रिक्त स्थानों वाला वाक्य है, और $O = \{o_1, o_2, ..., o_n\}$ $n$ उम्मीदवार विकल्पों (आमतौर पर 3-5) का समुच्चय है। प्रत्येक विकल्प $o_i$ टोकनों का एक अनुक्रम है जिसका उद्देश्य सभी रिक्त स्थानों को सामूहिक रूप से भरना है। लक्ष्य उस विकल्प $o^* \in O$ का चयन करना है जो पूर्ण वाक्य को सबसे अधिक संभाव्य बनाता है।

2.2 मॉडल आर्किटेक्चर

दृष्टिकोण का मूल ट्रांसफॉर्मर आर्किटेक्चर पर आधारित एक अनुक्रम-से-अनुक्रम मॉडल है, जिसे एक डीनोइज़िंग ऑटोएनकोडर उद्देश्य (जैसे, बीएआरटी या टी5) का उपयोग करके पूर्व-प्रशिक्षित किया गया है। मॉडल को एससी कार्य के लिए फाइन-ट्यून किया गया है। किसी दिए गए प्रश्न $q$ और एक विकल्प $o_i$ के लिए, मॉडल का कार्य मूल, पूर्ण रूप से बने वाक्य को पुनर्निर्मित करना है।

एनकोडर का इनपुट दूषित अनुक्रम (रिक्त स्थानों वाला प्रश्न) है। डिकोडर इस पर आधारित है और मूल वाक्य उत्पन्न करना चाहिए। विकल्प $o_i$ को $q$ के रिक्त स्थानों में डाला जाता है ताकि डिकोडर के लिए लक्ष्य अनुक्रम बनाया जा सके। मॉडल के प्रदर्शन को इनपुट दिए जाने पर लक्ष्य अनुक्रम उत्पन्न करने की नकारात्मक लॉग-संभावना द्वारा स्कोर किया जाता है।

2.3 प्रशिक्षण और अनुमान

प्रशिक्षण के दौरान, मॉडल उनके मास्क किए गए संस्करणों से वाक्यों को पुनर्निर्मित करना सीखता है। अनुमान के लिए, किसी प्रश्न $q$ और उसके विकल्पों $O$ को देखते हुए, मॉडल प्रत्येक विकल्प $o_i$ के लिए एक स्कोर $s_i$ की गणना करता है: $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. प्रयोग और परिणाम

3.1 डेटासेट

एक ऑनलाइन K-12 शिक्षा प्लेटफॉर्म से एकत्र किए गए वास्तविक-विश्व डेटासेट का उपयोग किया गया था। इसमें चीनी ईएसएल शिक्षार्थियों के लिए अंग्रेजी शिक्षण पेशेवरों द्वारा बनाए गए हजारों एससी प्रश्न शामिल हैं। डेटासेट में 1-3 रिक्त स्थानों वाले प्रश्न और उच्च-गुणवत्ता, शब्दार्थ रूप से समान विकल्प शामिल हैं।

डेटासेट आँकड़े

स्रोत: वास्तविक-विश्व K-12 ऑनलाइन प्लेटफॉर्म

प्रश्न: कई हज़ार

प्रति प्रश्न रिक्त स्थान: 1 से 3

प्रति प्रश्न विकल्प: 3 से 5

3.2 आधार रेखाएँ

प्रस्तावित मॉडल की तुलना कई मजबूत आधार रेखाओं से की गई:

  1. एन-ग्राम भाषा मॉडल (एलएम): एक बड़े कोर्पस पर प्रशिक्षित एक पारंपरिक सांख्यिकीय मॉडल।
  2. रिक्त एलएम [शेन एट अल.]: रिक्त स्थान भरने के लिए एक विशेष पुनरावृत्ति भाषा मॉडल।
  3. मास्क्ड एलएम (जैसे, बर्ट): रिक्त स्थानों में विकल्प टोकन की संभावना को स्कोर करने के लिए एक पूर्व-प्रशिक्षित मास्क्ड भाषा मॉडल का उपयोग करना।
  4. अनुक्रम-से-अनुक्रम एलएम (गैर-पूर्व-प्रशिक्षित): एससी कार्य पर शुरू से प्रशिक्षित एक मानक ट्रांसफॉर्मर मॉडल।

3.3 मुख्य परिणाम

प्रस्तावित पूर्व-प्रशिक्षित अनुक्रम-से-अनुक्रम मॉडल ने आरक्षित परीक्षण सेट पर भविष्यवाणी सटीकता के मामले में सभी आधार रेखा मॉडलों को काफी पीछे छोड़ दिया। मुख्य लाभ बड़े पैमाने पर पाठ कोर्पोरा पर इसके पूर्व-प्रशिक्षण से आता है, जो इसे गहन भाषाई ज्ञान और विश्व ज्ञान से समृद्ध करता है, जो सूक्ष्म विकल्पों को स्पष्ट करने के लिए महत्वपूर्ण है। अनुक्रम-से-अनुक्रम सूत्रीकरण स्वाभाविक रूप से कई रिक्त स्थानों और बहु-टोकन विकल्पों को भी संभालता है।

3.4 परिशुद्धता-स्मरण विश्लेषण

पेपर ने व्यावहारिक तैनाती पर चर्चा करने के लिए एक परिशुद्धता-स्मरण व्यापार-विश्लेषण किया। किसी उत्तर को स्वीकार करने के लिए स्कोर सीमा को समायोजित करके, सिस्टम को उच्च परिशुद्धता (केवल तब प्रतिक्रिया देना जब बहुत आश्वस्त हों, त्रुटियों को कम करना) या उच्च स्मरण (अधिक प्रश्नों का उत्तर देने का प्रयास, संभावित रूप से अधिक गलतियों के साथ) के लिए ट्यून किया जा सकता है। यह वास्तविक जीवन के शैक्षिक अनुप्रयोगों के लिए महत्वपूर्ण है जहाँ गलत प्रतिक्रिया की लागत अधिक है।

4. प्रमुख अंतर्दृष्टि और विश्लेषण

मूल अंतर्दृष्टि: पेपर की मौलिक सफलता केवल एक नए कार्य पर पूर्व-प्रशिक्षित मॉडल को लागू करना नहीं है; यह पहचानना है कि अनुक्रम-से-अनुक्रम डीनोइज़िंग उद्देश्य एससी प्रश्नों को हल करने के पीछे की संज्ञानात्मक प्रक्रिया का लगभग सही प्रॉक्सी है। मॉडल केवल एक शब्द नहीं चुन रहा है; यह मानसिक रूप से वाक्य को "पूरा" कर रहा है और सुसंगतता की जाँच कर रहा है—एक ऐसी प्रक्रिया जो मास्क किए गए संस्करण से पूर्ण वाक्य को पुनर्निर्मित करके प्रतिबिंबित होती है। यह केवल व्यक्तिगत टोकन को स्कोर करने के लिए मास्क्ड एलएम का उपयोग करने की तुलना में एक अधिक सुरुचिपूर्ण और शक्तिशाली दृष्टिकोण है, जो कई रिक्त स्थानों के बीच अंतर्निर्भरता को पकड़ने में विफल रहता है।

तार्किक प्रवाह: तर्क आकर्षक रूप से सरल है: 1) विशेषज्ञों द्वारा तैयार किए गए विकल्पों और जटिल भाषाई बाधाओं के कारण वास्तविक-विश्व ईएसएल प्रश्न कठिन हैं। 2) पारंपरिक और यहाँ तक कि प्रारंभिक तंत्रिका विधियों में इसे संभालने के लिए सूक्ष्म समझ की कमी है। 3) बड़े पैमाने पर पूर्व-प्रशिक्षित एलएम, विशेष रूप से वे जो एक डीनोइज़िंग उद्देश्य (जैसे बीएआरटी या टी5) के साथ प्रशिक्षित हैं, में यह सूक्ष्म समझ है। 4) इसलिए, इन मॉडलों का उपयोग करके एससी को एक अनुक्रम पुनर्निर्माण कार्य के रूप में प्रस्तुत करने से अत्याधुनिक परिणाम मिलने चाहिए। प्रयोग इस प्रवाह को मजबूती से मान्य करते हैं।

शक्तियाँ और कमियाँ: प्रमुख शक्ति विधि की वैचारिक सुरुचि और अनुभवजन्य सफलता है। एक वास्तविक-विश्व K-12 डेटासेट का उपयोग, न कि एक साफ़ किए गए शैक्षणिक कोर्पस, व्यावहारिक विश्वसनीयता में भारी वृद्धि करता है। परिशुद्धता-स्मरण विश्लेषण तैनाती के लिए विचारशील विचार दिखाता है। प्राथमिक कमी, शिक्षा में एआई के कई पेपरों में आम, समाधान की ब्लैक बॉक्स प्रकृति है। यह स्पष्टीकरण योग्य प्रतिक्रिया प्रदान नहीं करता है—एक छात्र को "D सही है" मिलता है लेकिन "क्योंकि 'must' पहले उपवाक्य में तार्किक निश्चितता दर्शाता है, और 'can't' दूसरे उपवाक्य में साक्ष्य 'hates black color' के आधार पर सही निषेध है" नहीं मिलता है। जैसा कि 2022 की समीक्षा "शिक्षा के लिए स्पष्टीकरण योग्य एआई" (XAIED) में उल्लेख किया गया है, यह व्याख्यात्मकता की कमी सीधे शैक्षणिक उपयोगिता को सीमित करती है। इसके अलावा, मॉडल का प्रदर्शन स्वाभाविक रूप से इसके पूर्व-प्रशिक्षण डेटा से जुड़ा हुआ है, जिसमें पूर्वाग्रह हो सकते हैं या कुछ ईएसएल त्रुटि पैटर्न का कवरेज नहीं हो सकता है।

कार्रवाई योग्य अंतर्दृष्टि: एडटेक कंपनियों के लिए, यह शोध एक तैयार ब्लूप्रिंट है। पहला कदम स्वामित्व वाले प्रश्न बैंकों पर टी5 या बीएआरटी जैसे मॉडल को फाइन-ट्यून करना है। हालाँकि, वास्तविक प्रतिस्पर्धात्मक लाभ केवल सटीकता से नहीं बल्कि व्याख्यात्मकता से आएगा। अगले पुनरावृत्ति में व्याख्यात्मक एआई से तकनीकों को एकीकृत करना चाहिए—शायद चुने गए उत्तर से सबसे अधिक प्रासंगिक वाक्य के भागों को उजागर करने के लिए ध्यान भार का उपयोग करना या प्राकृतिक भाषा औचित्य उत्पन्न करना। दूसरा, इस तकनीक का प्रमुख अनुप्रयोग उच्च-दांव परीक्षण में नहीं बल्कि अभ्यास और रचनात्मक मूल्यांकन में है। इसे अनुकूली शिक्षण प्लेटफार्मों में एकीकृत करके अनंत, व्यक्तिगत अभ्यास प्रश्न उत्पन्न करना (प्रामाणिक ग्रंथों में शब्दों को मास्क करके) एक तार्किक और उच्च-मूल्य वाली दिशा है, जो परिचय में संकेत दिए गए अनुसार, एक सॉल्वर से जनरेटर की ओर बढ़ रही है।

5. तकनीकी विवरण

मॉडल ट्रांसफॉर्मर आर्किटेक्चर के एनकोडर-डिकोडर ढांचे का लाभ उठाता है। पूर्व-प्रशिक्षण उद्देश्य महत्वपूर्ण है। बीएआरटी जैसे मॉडल के लिए, इसे एक मनमाना नॉइज़िंग फ़ंक्शन (जैसे, टोकन मास्किंग, वाक्य क्रमपरिवर्तन, दस्तावेज़ रोटेशन) के साथ पाठ को दूषित करके प्रशिक्षित किया जाता है और फिर मूल पाठ को पुनर्निर्मित करना सीखता है। यह इसे एससी कार्य के लिए आदर्श बनाता है, जो पाठ दूषितीकरण और पुनर्निर्माण का एक नियंत्रित रूप है।

फाइन-ट्यूनिंग उद्देश्य डिकोडर के आउटपुट वितरण और लक्ष्य अनुक्रम (सही विकल्प के साथ पूर्ण वाक्य) के बीच क्रॉस-एन्ट्रॉपी हानि को कम करना है। डेटा के एक बैच के लिए, हानि फ़ंक्शन है: $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. विश्लेषण ढांचा उदाहरण

परिदृश्य: एक एससी कार्य के लिए एक उम्मीदवार मॉडल का मूल्यांकन करना।

ढांचा अनुप्रयोग:

  1. कार्य विघटन: एससी प्रश्न को तोड़ें: रिक्त स्थानों की संख्या, प्रत्येक के लिए आवश्यक शब्द-भेद या वाक्यविन्यास भूमिका, और वाक्य संकेतों और सही उत्तर के बीच शब्दार्थ संबंध की पहचान करें।
  2. मॉडल स्कोरिंग: प्रत्येक विकल्प के लिए, अनुक्रम स्कोर $s_i$ की गणना करने के लिए मॉडल का उपयोग करें। उदाहरण के लिए, प्रश्न "He _ to the store yesterday," के लिए, विकल्प {go, went, goes} के साथ, मॉडल सही भूतकाल समझौते के कारण अनुक्रम "He went to the store yesterday" को उच्चतम स्कोर देगा।
  3. त्रुटि विश्लेषण: यदि मॉडल विफल हो जाता है, तो विफलता मोड का विश्लेषण करें। क्या इसने "go" चुना? यह व्याकरणिक काल समझ में कमजोरी का सुझाव देता है। क्या इसने "goes" चुना? यह कर्ता-क्रिया समझौते में कमजोरी का सुझाव देता है। यह विश्लेषण आगे के डेटा संग्रह या मॉडल समायोजन का मार्गदर्शन करता है।
  4. विकल्प शक्ति मूल्यांकन: विकल्पों में मॉडल के स्कोर वितरण का उपयोग करें। सही उत्तर के लिए उच्च स्कोर और विकल्पों के लिए बहुत कम स्कोर एक आसान प्रश्न का संकेत देता है। यदि दो विकल्पों के समान, उच्च स्कोर हैं, तो यह एक उच्च-गुणवत्ता, भ्रमित करने वाले विकल्प का संकेत देता है, जो नैदानिक मूल्यांकन के लिए मूल्यवान है।
यह ढांचा सरल सटीकता से आगे बढ़कर छात्र और मॉडल क्षमताओं दोनों की नैदानिक समझ की ओर ले जाता है।

7. भविष्य के अनुप्रयोग और दिशाएँ

  1. स्पष्टीकरण योग्य एआई (XAI) एकीकरण: सबसे महत्वपूर्ण दिशा एक "ब्लैक-बॉक्स" सॉल्वर से एक "स्पष्टीकरण योग्य ट्यूटर" में विकसित होना है। भविष्य के मॉडलों को तर्क उत्पन्न करना चाहिए, प्रमुख वाक्य साक्ष्य को उजागर करना चाहिए, या यहाँ तक कि परीक्षण किए जा रहे विशिष्ट व्याकरण नियम की पहचान करनी चाहिए।
  2. व्यक्तिगत विकल्प जनरेशन: मॉडल का उपयोग एक छात्र के सामान्य त्रुटि पैटर्न के अनुरूप संभावित लेकिन गलत विकल्प उत्पन्न करने के लिए किया जा सकता है, जिससे अति-व्यक्तिगत अभ्यास बनाया जा सकता है।
  3. स्वचालित प्रश्न जनरेशन (AQG): प्रक्रिया को उल्टा करें। किसी पाठ को देखते हुए, मॉडल मास्क करने के लिए प्रमुख शब्दों की पहचान कर सकता है और संभावित विकल्प उत्पन्न कर सकता है, जिससे अभ्यास बैंकों के लिए नए एससी प्रश्न स्वचालित रूप से बनाए जा सकते हैं, सामग्री निर्माण को बड़े पैमाने पर बढ़ाया जा सकता है।
  4. बहुमोडल विस्तार: छोटे शिक्षार्थियों या विशिष्ट संदर्भों के लिए, एससी प्रश्नों में छवियाँ शामिल हो सकती हैं। भविष्य के कार्य में बहुमोडल पूर्व-प्रशिक्षित मॉडल (जैसे VL-T5) शामिल हो सकते हैं ताकि पाठ और दृश्य संकेतों को जोड़ने वाले प्रश्नों को हल किया जा सके या उत्पन्न किया जा सके।
  5. अंतर-भाषाई स्थानांतरण: बहुभाषी पूर्व-प्रशिक्षित मॉडल (जैसे mT5) का लाभ उठाकर ढांचे को अन्य भाषाओं में लागू करना, उन ईएसएल शिक्षार्थियों की सहायता करना जिनकी पहली भाषा चीनी नहीं है।

8. संदर्भ

  1. Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
  2. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
  3. Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
  4. Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
  5. Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
  6. Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
  7. Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.