विषय सूची
- 1. परिचय
- 2. संबंधित कार्य
- 3. पद्धति
- 4. परिणाम
- 5. चर्चा
- 6. निष्कर्ष
- 7. मूल विश्लेषण
- 8. तकनीकी विवरण और गणितीय सूत्रीकरण
- 9. प्रायोगिक परिणाम और चार्ट विवरण
- 10. विश्लेषणात्मक ढांचा उदाहरण
- 11. भविष्य के अनुप्रयोग और दिशाएं
- 12. संदर्भ
1. परिचय
कृत्रिम बुद्धिमत्ता (एआई) ने सीखने और शिक्षण विधियों को बदलकर शिक्षा में क्रांति ला दी है। OpenAI ChatGPT, Microsoft Bing Chat (BingChat) और Google Bard जैसे बड़े भाषा मॉडल (एलएलएम) इस क्षेत्र में महत्वपूर्ण प्रगति का प्रतिनिधित्व करते हैं। यह पेपर वियतनामी हाई स्कूल स्नातक परीक्षा (VNHSGE) अंग्रेजी डेटासेट पर उनके प्रदर्शन का मूल्यांकन करता है, तीन शोध प्रश्नों को संबोधित करते हुए: (1) VNHSGE अंग्रेजी डेटासेट पर ChatGPT, BingChat और Bard का प्रदर्शन क्या है? (2) ये एलएलएम अंग्रेजी दक्षता में वियतनामी छात्रों से कैसे तुलना करते हैं? (3) वियतनाम में अंग्रेजी भाषा शिक्षण और सीखने के लिए एलएलएम में क्या क्षमता है?
2. संबंधित कार्य
2.1 बड़े भाषा मॉडल
एलएलएम में हालिया प्रगति, विशेष रूप से BERT और GPT आर्किटेक्चर ने मानव-समान संचार को सक्षम किया है। ये मॉडल विशाल कोर्पोरा पर प्रशिक्षित होते हैं और विशिष्ट कार्यों के लिए फाइन-ट्यून किए जाते हैं, जो शिक्षा, सामग्री निर्माण और अनुवाद में क्षमताओं का प्रदर्शन करते हैं।
2.2 एलएलएम के शैक्षिक अनुप्रयोग
एलएलएम को आभासी सहायकों, चैटबॉट्स और ऑनलाइन शिक्षण प्रणालियों में लागू किया गया है। Kasneci et al. (2023) और Kung et al. (2023) द्वारा किए गए अध्ययन व्यक्तिगत शिक्षण के लिए उनकी क्षमता पर प्रकाश डालते हैं, हालांकि विभिन्न शैक्षिक संदर्भों के लिए सावधानीपूर्वक मूल्यांकन की आवश्यकता है।
3. पद्धति
3.1 डेटासेट
VNHSGE अंग्रेजी डेटासेट में व्याकरण, शब्दावली, पढ़ने की समझ और लेखन कौशल को कवर करने वाले बहुविकल्पीय प्रश्न शामिल हैं, जो वियतनाम में हाई स्कूल स्तर के मूल्यांकन के लिए डिज़ाइन किए गए हैं।
3.2 मूल्यांकन मीट्रिक्स
प्रदर्शन को सटीकता (सही उत्तरों का प्रतिशत) का उपयोग करके मापा जाता है। निष्पक्ष तुलना सुनिश्चित करने के लिए मॉडलों का मूल्यांकन प्रश्नों के एक ही सेट पर किया जाता है।
3.3 प्रायोगिक सेटअप
प्रत्येक मॉडल (ChatGPT GPT-3.5, BingChat और Google Bard) का नियंत्रित परिस्थितियों में डेटासेट पर परीक्षण किया गया। प्रतिक्रियाएं रिकॉर्ड की गईं और आधिकारिक उत्तर कुंजी के विरुद्ध स्कोर की गईं।
4. परिणाम
4.1 समग्र प्रदर्शन
BingChat ने 92.4% पर उच्चतम सटीकता प्राप्त की, उसके बाद Bard 86% और ChatGPT 79.2% पर रहा। ये परिणाम एक ही कार्य पर एलएलएम प्रदर्शन में महत्वपूर्ण भिन्नता प्रदर्शित करते हैं।
4.2 मानव प्रदर्शन से तुलना
तीनों एलएलएम ने अंग्रेजी दक्षता में औसत वियतनामी हाई स्कूल छात्र से बेहतर प्रदर्शन किया, जो पूरक शैक्षिक उपकरणों के रूप में उनकी क्षमता को इंगित करता है।
5. चर्चा
5.1 अंग्रेजी शिक्षा के लिए निहितार्थ
BingChat और Bard का बेहतर प्रदर्शन बताता है कि वे ChatGPT के प्रभावी विकल्प के रूप में काम कर सकते हैं, विशेष रूप से उन क्षेत्रों में जहां ChatGPT आधिकारिक रूप से उपलब्ध नहीं है। ये मॉडल स्व-अध्ययन का समर्थन कर सकते हैं, तत्काल प्रतिक्रिया प्रदान कर सकते हैं और सीखने के परिणामों को बढ़ा सकते हैं।
5.2 सीमाएं और भविष्य का कार्य
सीमाओं में एक एकल डेटासेट पर ध्यान केंद्रित करना और मॉडल तर्क का गुणात्मक विश्लेषण का अभाव शामिल है। भविष्य के कार्य में व्यापक डेटासेट, बहुभाषी क्षमताओं और कक्षा सेटिंग्स में एकीकरण का पता लगाना चाहिए।
6. निष्कर्ष
यह अध्ययन प्रदर्शित करता है कि BingChat, Bard और ChatGPT, VNHSGE अंग्रेजी परीक्षा में वियतनामी छात्रों से बेहतर प्रदर्शन करते हैं, जिसमें BingChat अग्रणी है। ये निष्कर्ष अंग्रेजी भाषा शिक्षा में एलएलएम के एकीकरण का समर्थन करते हैं, जो स्केलेबल और सुलभ शिक्षण समाधान प्रदान करते हैं।
7. मूल विश्लेषण
यह पेपर एक मानकीकृत अंग्रेजी परीक्षण पर तीन अग्रणी एलएलएम की एक समयबद्ध और व्यावहारिक तुलना प्रदान करता है, जो गैर-अंग्रेजी शैक्षिक संदर्भों में एलएलएम प्रदर्शन के संबंध में साहित्य में एक महत्वपूर्ण अंतर को संबोधित करता है। यह निष्कर्ष कि BingChat, ChatGPT और Bard दोनों से बेहतर प्रदर्शन करता है, विशेष रूप से उल्लेखनीय है, क्योंकि यह इस धारणा को चुनौती देता है कि सबसे लोकप्रिय मॉडल (ChatGPT) आवश्यक रूप से सबसे अच्छा है। यह व्यापक शोध के अनुरूप है जो दर्शाता है कि मॉडल प्रदर्शन भाषाओं और डोमेन में काफी भिन्न हो सकता है (Brown et al., 2020; Devlin et al., 2019)। अध्ययन का योगदान वियतनामी शिक्षकों और नीति निर्माताओं के लिए इसकी प्रत्यक्ष प्रासंगिकता में निहित है, जो पाठ्यक्रम में एलएलएम को एकीकृत करने के लिए कार्रवाई योग्य अंतर्दृष्टि प्रदान करता है। हालांकि, प्रत्येक मॉडल द्वारा की गई त्रुटियों के प्रकारों की जांच करके विश्लेषण को मजबूत किया जा सकता है, क्योंकि यह गहरी शैक्षणिक अंतर्दृष्टि प्रदान करेगा। उदाहरण के लिए, क्या त्रुटियां व्याकरण, शब्दावली या पढ़ने की समझ में केंद्रित हैं? ऐसी सूक्ष्मता एलएलएम-आधारित हस्तक्षेपों को तैयार करने में मदद करेगी। इसके अलावा, अध्ययन डेटासेट या मॉडलों के प्रशिक्षण डेटा में संभावित पूर्वाग्रहों को संबोधित नहीं करता है, जो सामान्यीकरण को प्रभावित कर सकता है। इन सीमाओं के बावजूद, पेपर सम्मोहक रूप से प्रदर्शित करता है कि एलएलएम अंग्रेजी भाषा सीखने के लिए प्रभावी उपकरण के रूप में काम कर सकते हैं, विशेष रूप से संसाधन-सीमित सेटिंग्स में। भविष्य के शोध को समय के साथ छात्र परिणामों पर एलएलएम-सहायता प्राप्त शिक्षण के प्रभाव का आकलन करने के लिए अनुदैर्ध्य अध्ययनों का पता लगाना चाहिए।
8. तकनीकी विवरण और गणितीय सूत्रीकरण
प्रत्येक एलएलएम के प्रदर्शन का मूल्यांकन सटीकता का उपयोग करके किया जाता है, जिसे इस प्रकार परिभाषित किया गया है:
$सटीकता = \frac{सही\ प्रतिक्रियाओं\ की\ संख्या}{प्रश्नों\ की\ कुल\ संख्या} \times 100\%$
$N$ प्रश्नों वाले डेटासेट के लिए, मॉडल $M$ के लिए सटीकता $A$ है:
$A_M = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}(\hat{y}_i = y_i)$
जहां $\hat{y}_i$ मॉडल का पूर्वानुमान है और $y_i$ प्रश्न $i$ के लिए ग्राउंड ट्रुथ है।
9. प्रायोगिक परिणाम और चार्ट विवरण
परिणाम तीन मॉडलों की सटीकता की तुलना करने वाले एक बार चार्ट में संक्षेपित हैं। x-अक्ष मॉडलों (ChatGPT, Bard, BingChat) का प्रतिनिधित्व करता है, और y-अक्ष सटीकता प्रतिशत का प्रतिनिधित्व करता है। BingChat का बार 92.4%, Bard का 86% और ChatGPT का 79.2% तक पहुंचता है। एक क्षैतिज रेखा औसत मानव प्रदर्शन (लगभग 70%) को इंगित करती है, जो दर्शाती है कि सभी मॉडल इस बेंचमार्क से अधिक हैं।
10. विश्लेषणात्मक ढांचा उदाहरण
VNHSGE अंग्रेजी डेटासेट से एक नमूना प्रश्न पर विचार करें: "वाक्य को पूरा करने के लिए सही शब्द चुनें: She ___ to school every day." विकल्प: A) go, B) goes, C) going, D) gone. सही उत्तर B) goes है। प्रत्येक मॉडल की प्रतिक्रिया दर्ज और स्कोर की जाती है। यह सरल उदाहरण डेटासेट के सभी प्रश्नों के लिए उपयोग की जाने वाली मूल्यांकन प्रक्रिया को दर्शाता है।
11. भविष्य के अनुप्रयोग और दिशाएं
एलएलएम को वियतनामी हाई स्कूल अंग्रेजी शिक्षा में एकीकृत किया जा सकता है: (1) एआई-संचालित ट्यूशन सिस्टम जो व्यक्तिगत प्रतिक्रिया प्रदान करते हैं; (2) स्वचालित निबंध स्कोरिंग और व्याकरण सुधार; (3) बोलने के अभ्यास के लिए संवादी एजेंट; (4) अनुकूली शिक्षण प्लेटफॉर्म जो छात्र प्रदर्शन के आधार पर कठिनाई को समायोजित करते हैं। भविष्य की दिशाओं में वियतनामी संदर्भों के अनुरूप बहुभाषी एलएलएम विकसित करना, सांस्कृतिक बारीकियों को शामिल करना और प्रौद्योगिकी तक समान पहुंच सुनिश्चित करना शामिल है।
12. संदर्भ
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
- Dao, X.-Q., et al. (2023a). ChatGPT on the Vietnamese High School Graduation Examination. arXiv preprint.
- Dao, X.-Q., et al. (2023b). ChatGPT on an English Test Case. arXiv preprint.
- Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT, 4171-4186.
- Kasneci, E., et al. (2023). ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education. Learning and Individual Differences, 103, 102274.
- Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education. PLOS Digital Health, 2(2), e0000198.
- OpenAI. (2023). GPT-4 Technical Report. arXiv preprint.
- Thorp, H. H. (2023). ChatGPT is Fun, But Not an Author. Science, 379(6630), 313-313.
मुख्य अंतर्दृष्टि, तार्किक प्रवाह, शक्तियां और कमजोरियां, कार्रवाई योग्य अंतर्दृष्टि
मुख्य अंतर्दृष्टि: यह पेपर एक व्यावहारिक, डेटा-संचालित तुलना है जो प्रचार को काटती है, यह दिखाते हुए कि 'सर्वश्रेष्ठ' संदर्भ-निर्भर है। एक वियतनामी परीक्षा पर BingChat का प्रभुत्व उन लोगों के लिए एक जागृति कॉल है जो मानते हैं कि ChatGPT सार्वभौमिक रूप से बेहतर है।
तार्किक प्रवाह: पेपर एक स्पष्ट, रैखिक पथ का अनुसरण करता है: समस्या कथन (वियतनाम में एलएलएम मूल्यांकन की आवश्यकता), पद्धति (मानकीकृत परीक्षण), परिणाम (BingChat > Bard > ChatGPT), और निहितार्थ (एलएलएम व्यवहार्य शैक्षिक उपकरण के रूप में)। तर्क ध्वनि है लेकिन त्रुटि विश्लेषण में गहराई का अभाव है।
शक्तियां और कमजोरियां: शक्तियों में एक केंद्रित, प्रतिलिपि प्रस्तुत करने योग्य प्रायोगिक डिजाइन और वियतनामी शिक्षा नीति के लिए प्रत्यक्ष प्रासंगिकता शामिल है। कमजोरियों में एक संकीर्ण डेटासेट (एकल परीक्षा), गुणात्मक विश्लेषण का अभाव (BingChat क्यों जीतता है?), और मॉडल पूर्वाग्रहों या डेटासेट प्रतिनिधित्व की कोई चर्चा नहीं शामिल है। अध्ययन एक उपयोगी स्नैपशॉट है लेकिन एक व्यापक मूल्यांकन नहीं है।
कार्रवाई योग्य अंतर्दृष्टि: वियतनामी शिक्षकों के लिए: तुरंत कक्षाओं में BingChat और Bard का पायलट परीक्षण करें, व्याकरण और शब्दावली अभ्यास पर ध्यान केंद्रित करें। शोधकर्ताओं के लिए: मॉडल-विशिष्ट कमजोरियों की पहचान करने के लिए त्रुटि विश्लेषण करें। नीति निर्माताओं के लिए: वियतनामी पाठ्यक्रम के अनुरूप स्थानीय एलएलएम विकास में निवेश करें। मुख्य निष्कर्ष: सभी अंडे एक एलएलएम टोकरी में न रखें—विविधता लाएं और स्थानीय रूप से परीक्षण करें।