वियतनामी हाई स्कूल ग्रेजुएशन परीक्षा (VNHSGE) अंग्रेजी डेटासेट पर ChatGPT, Bing Chat, और Bard का प्रदर्शन तुलना

1. परिचय

यह शोध पत्र तीन प्रमुख बड़ी भाषा मॉडल (LLMs)—OpenAI का ChatGPT (GPT-3.5), Microsoft का Bing Chat, और Google का Bard—का वियतनामी हाई स्कूल ग्रेजुएशन परीक्षा (VNHSGE) अंग्रेजी डेटासेट पर प्रदर्शन तुलना प्रस्तुत करता है। यह अध्ययन वियतनामी हाई स्कूल अंग्रेजी शिक्षा के विशिष्ट संदर्भ में उनकी क्षमताओं का मूल्यांकन करना चाहता है, खासकर जबकि ChatGPT वियतनाम में आधिकारिक रूप से उपलब्ध नहीं है। यह शोध मॉडल प्रदर्शन, मानव छात्रों से तुलना, और इस शैक्षिक परिवेश में LLMs के संभावित अनुप्रयोगों से संबंधित तीन प्रमुख प्रश्नों को संबोधित करता है।

2. संबंधित कार्य

यह पत्र स्वयं को शिक्षा में AI एकीकरण के व्यापक संदर्भ में स्थापित करता है, और BERT और GPT आर्किटेक्चर जैसे LLMs के परिवर्तनकारी संभावित को उजागर करता है।

2.1 बड़ी भाषा मॉडल

ट्रांसफॉर्मर आर्किटेक्चर द्वारा संचालित LLMs ने शैक्षिक अनुप्रयोगों, जिसमें व्यक्तिगत शिक्षण, सामग्री विकास और भाषा अनुवाद शामिल हैं, में महत्वपूर्ण संभावना प्रदर्शित की है। उनकी मानव-जैसी संवादात्मक क्षमताएं उन्हें वर्चुअल असिस्टेंट और ऑनलाइन शिक्षण सहायता प्रणालियों के लिए उपयुक्त बनाती हैं।

3. कार्यप्रणाली

मूल कार्यप्रणाली में तीनों LLMs को VNHSGE अंग्रेजी डेटासेट प्रशासित करना शामिल है। डेटासेट में संभवतः हाई स्कूल स्तर पर अंग्रेजी भाषा प्रवीणता का आकलन करने वाले मानकीकृत परीक्षा प्रश्न शामिल हैं। प्रदर्शन को आधिकारिक उत्तर कुंजी की तुलना में मॉडलों की प्रतिक्रियाओं की शुद्धता द्वारा मापा जाता है।

4. प्रायोगिक परिणाम

Bing Chat प्रदर्शन

92.4%

VNHSGE अंग्रेजी डेटासेट पर शुद्धता

Google Bard प्रदर्शन

86.0%

VNHSGE अंग्रेजी डेटासेट पर शुद्धता

ChatGPT (GPT-3.5) प्रदर्शन

79.2%

VNHSGE अंग्रेजी डेटासेट पर शुद्धता

मुख्य निष्कर्ष:

प्रदर्शन रैंकिंग: Microsoft Bing Chat (92.4%) ने Google Bard (86%) और OpenAI ChatGPT (79.2%) दोनों से बेहतर प्रदर्शन किया।
व्यावहारिक निहितार्थ: Bing Chat और Bard को वियतनाम में अंग्रेजी शिक्षा के लिए ChatGPT के व्यवहार्य विकल्प के रूप में प्रस्तुत किया गया है, जहां ChatGPT की पहुंच प्रतिबंधित है।
मानव तुलना: तीनों LLMs ने समान अंग्रेजी प्रवीणता परीक्षा पर वियतनामी हाई स्कूल छात्रों के औसत प्रदर्शन को पार कर लिया, जो उनकी श्रेष्ठ ज्ञान संसाधन या ट्यूटरिंग सहायता के रूप में संभावना को इंगित करता है।

चार्ट विवरण: एक बार चार्ट इस प्रदर्शन पदानुक्रम को प्रभावी ढंग से दृश्यात्मक बना सकता है, जहां y-अक्ष शुद्धता (%) का प्रतिनिधित्व करता है और x-अक्ष तीनों LLMs को सूचीबद्ध करता है। Bing Chat का बार सबसे लंबा होगा, उसके बाद Bard, और फिर ChatGPT का होगा। प्रत्यक्ष तुलना के लिए एक अलग बेंचमार्क रेखा औसत वियतनामी छात्र स्कोर को दर्शा सकती है।

5. चर्चा

परिणाम अंग्रेजी भाषा शिक्षा के लिए उपकरणों के रूप में व्यावसायिक रूप से उपलब्ध LLMs की महत्वपूर्ण संभावना प्रदर्शित करते हैं। Bing Chat के श्रेष्ठ प्रदर्शन का श्रेय संभवतः एक सर्च इंजन के साथ इसके एकीकरण को दिया जा सकता है, जो अधिक वर्तमान या संदर्भ-विशिष्ट जानकारी तक पहुंच प्रदान करता है। यह तथ्य कि सभी मॉडलों ने मानव छात्रों से बेहतर प्रदर्शन किया, एक प्रतिमान बदलाव को उजागर करता है, जहां AI न केवल एक सहायक के रूप में, बल्कि एक उच्च-क्षमता संदर्भ बिंदु के रूप में कार्य कर सकता है, संभवतः निर्देश को व्यक्तिगत बनाकर तत्काल, सटीक प्रतिक्रिया प्रदान कर सकता है।

6. मूल विश्लेषण एवं विशेषज्ञ टिप्पणी

मूल अंतर्दृष्टि: यह पत्र केवल एक बेंचमार्क नहीं है; यह एक बाजार संकेत है। एक ऐसे क्षेत्र (वियतनाम) में जहां प्रमुख मॉडल (ChatGPT) प्रतिबंधित है, यह शोध सक्रिय रूप से कार्यात्मक विकल्पों (Bing Chat, Bard) की पहचान करता है और उन्हें मान्य करता है, जो शिक्षा में AI अपनाने के लिए एक व्यावहारिक, अनुप्रयोग-प्रथम दृष्टिकोण को प्रकट करता है। यह निष्कर्ष कि सभी LLMs औसत छात्र प्रदर्शन से आगे निकल गए, केवल एक शैक्षणिक बिंदु नहीं है—यह एक विघटनकारी शक्ति है, जो सुझाव देती है कि AI की भूमिका एक पूरक उपकरण से विकसित होकर एक प्राथमिक शिक्षण एजेंट या बेंचमार्क बन सकती है।

तार्किक प्रवाह एवं शक्तियां: कार्यप्रणाली सीधी और प्रभावशाली है: मूल्यांकन मीट्रिक के रूप में एक राष्ट्रीय स्तर पर मान्यता प्राप्त, उच्च-दांव परीक्षा का उपयोग करें। यह शिक्षकों और नीति निर्माताओं के लिए तत्काल, संबंधित विश्वसनीयता प्रदान करता है। सैद्धांतिक श्रेष्ठता के बजाय पहुंच पर ध्यान केंद्रित करना (“वास्तव में क्या उपलब्ध है”) एक प्रमुख शक्ति है, जो शोध को तुरंत क्रियान्वयन योग्य बनाता है। यह स्टैनफोर्ड इंस्टीट्यूट फॉर ह्यूमन-सेंटर्ड AI जैसे संस्थानों द्वारा उल्लिखित रुझानों के साथ संरेखित होता है, जो वास्तविक दुनिया, सीमित संदर्भों में AI का मूल्यांकन करने पर जोर देते हैं।

दोष एवं गंभीर अंतराल: विश्लेषण सतही स्तर का है। यह स्कोर रिपोर्ट करता है लेकिन त्रुटियों की प्रकृति पर बहुत कम प्रकाश डालता है। क्या मॉडल व्याकरण, पठन समझ, या सांस्कृतिक बारीकियों पर विफल रहे? यह ब्लैक-बॉक्स मूल्यांकन क्षेत्र की स्वयं की एक सीमा को दर्शाता है। इसके अलावा, “औसत” छात्र स्कोर से तुलना करना सांख्यिकीय रूप से उथला है। मनोमिति में उपयोग की जाने वाली आइटम-प्रतिक्रिया सिद्धांत के समान एक अधिक मजबूत विश्लेषण, मॉडल प्रवीणता को परीक्षा पर विशिष्ट कौशल स्तरों से मैप कर सकता है। पत्र कैसे इन उपकरणों को एकीकृत करना है, इस महत्वपूर्ण मुद्दे को पूरी तरह से दरकिनार कर देता है। केवल एक उच्च-स्कोरिंग AI होने का मतलब प्रभावी शिक्षाशास्त्र में अनुवाद नहीं होता है, यह एक चुनौती है जिसका International Journal of Artificial Intelligence in Education में व्यापक रूप से दस्तावेजीकरण किया गया है।

कार्रवाई योग्य अंतर्दृष्टि: समान प्रतिबंधित-पहुंच बाजारों में शिक्षकों के लिए, यह पत्र एक रणनीति पुस्तिका है: 1) स्थानीय स्तर पर बेंचमार्क करें: वैश्विक प्रचार पर निर्भर न रहें; अपने विशिष्ट पाठ्यक्रम के विरुद्ध उपलब्ध उपकरणों का परीक्षण करें। 2) अग्रणी से आगे देखें: प्रतिस्पर्धी मॉडल पर्याप्त या संदर्भगत रूप से बेहतर प्रदर्शन प्रदान कर सकते हैं। 3) “कैसे” पर ध्यान केंद्रित करें: अगला तत्काल शोध चरण क्या LLMs काम करते हैं, से कैसे उन्हें जिम्मेदारी से तैनात करना है, की ओर स्थानांतरित होना चाहिए—ऐसे प्रॉम्प्ट डिजाइन करना जो उत्तर पुनर्प्राप्ति पर महत्वपूर्ण सोच को प्रोत्साहित करते हैं, AI-संवर्धित मूल्यांकन के लिए ढांचे बनाना, और पहुंच में समानता को संबोधित करना। वास्तविक जीत एक उच्च AI परीक्षा स्कोर नहीं, बल्कि बेहतर मानव शिक्षण परिणाम होगी।

7. तकनीकी विवरण एवं गणितीय ढांचा

हालांकि पत्र मॉडल आर्किटेक्चर में गहराई से नहीं उतरता है, प्रदर्शन को संभाव्यता और कार्य शुद्धता के लेंस के माध्यम से अवधारणा बनाया जा सकता है। मूल मूल्यांकन मीट्रिक शुद्धता ($Acc$) है, जिसे सही ढंग से उत्तर दिए गए आइटमों की संख्या का कुल आइटमों की संख्या ($N$) से अनुपात के रूप में परिभाषित किया गया है।

$Acc = \frac{\text{सही प्रतिक्रियाओं की संख्या}}{N} \times 100\%$

एक अधिक सूक्ष्म समझ के लिए, किसी बहुविकल्पीय परीक्षा आइटम पर LLM के प्रदर्शन को संभावित उत्तरों पर संभाव्यता वितरण के रूप में मॉडल किया जा सकता है। मान लें कि विकल्पों के समुच्चय $O$ से सही उत्तर $c$ का चयन करने की मॉडल की संभावना $P_M(c | q, \theta)$ है, जहां $q$ प्रश्न है और $\theta$ मॉडल के पैरामीटर और किसी भी पुनर्प्राप्त संदर्भ का प्रतिनिधित्व करता है (विशेष रूप से Bing Chat की खोज संवर्धन के लिए प्रासंगिक)। अंतिम स्कोर इन सभी संभावनाओं का सभी आइटमों में एकत्रीकरण है। मॉडलों के बीच प्रदर्शन अंतर उनके आंतरिक प्रतिनिधित्व $\theta$ या $P_M$ उत्पन्न करने के लिए उनकी पुनर्प्राप्ति-संवर्धन तंत्र $R(q)$ में महत्वपूर्ण अंतर का सुझाव देता है।

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. विश्लेषण ढांचा: एक गैर-कोड केस स्टडी

परिदृश्य: हनोई में एक अंग्रेजी विभाग प्रमुख ग्रेड 12 के छात्रों का समर्थन करने के लिए AI उपकरणों का मूल्यांकन करना चाहता है।

ढांचा अनुप्रयोग:

स्थानीय उद्देश्य परिभाषित करें: VNHSGE के व्याकरण और पठन समझ अनुभागों पर छात्र प्रदर्शन में सुधार करना।
उपकरण पहचान एवं पहुंच जांच: उपलब्ध उपकरणों की सूची बनाएं: Bing Chat (पहुंच योग्य), Google Bard (पहुंच योग्य), ChatGPT (VPN की आवश्यकता है, आधिकारिक रूप से समर्थित नहीं)। इस पत्र के निष्कर्षों के आधार पर पहले दो को प्राथमिकता दें।
सूक्ष्म बेंचमार्किंग: केवल पूर्ण पिछले पेपर का उपयोग न करें। एक केंद्रित नैदानिक परीक्षण बनाएं:
- उपसमुच्चय A: 20 व्याकरण प्रश्न (काल, पूर्वसर्ग)।
- उपसमुच्चय B: 20 पठन समझ प्रश्न।
- उपसमुच्चय A और B को Bing Chat और Bard को प्रशासित करें। केवल शुद्धता ही नहीं, बल्कि उनके उत्तरों में प्रदान किए गए तर्क को भी रिकॉर्ड करें।
त्रुटि विश्लेषण एवं मैपिंग: प्रत्येक AI द्वारा की गई त्रुटियों को वर्गीकृत करें। उदाहरण के लिए: “Bing Chat 3/5 संभावनार्थक मूड प्रश्नों पर विफल रहा; Bard ने अनुमान प्रश्नों के लिए संक्षिप्त लेकिन कभी-कभी अपूर्ण तर्क दिया।”
एकीकरण डिजाइन: विश्लेषण के आधार पर: उच्च शुद्धता के कारण व्याकरण अभ्यास स्पष्टीकरण के लिए Bing Chat का उपयोग करें। पठन समझ के लिए Bard की प्रतिक्रियाओं को “नमूना उत्तर” के रूप में उपयोग करें, लेकिन एक छात्र वर्कशीट डिजाइन करें जो पूछे: “Bard के सारांश की अपने स्वयं के साथ तुलना करें। इसने क्या छोड़ा?” यह निष्क्रिय स्वीकृति के बजाय महत्वपूर्ण मूल्यांकन को बढ़ावा देता है।

यह ढांचा “कौन सा AI बेहतर है” से आगे बढ़कर “हम अपनी शैक्षणिक बाधाओं के भीतर प्रत्येक AI की शक्तियों का रणनीतिक रूप से उपयोग कैसे कर सकते हैं” की ओर जाता है।

9. भविष्य के अनुप्रयोग एवं शोध दिशाएं

तत्काल अनुप्रयोग:

व्यक्तिगत ट्यूटरिंग प्रणालियां: Bing Chat या Bard को AI ट्यूटर्स की रीढ़ के रूप में तैनात करना जो VNHSGE पाठ्यक्रम के अनुरूप, मांग पर अभ्यास और स्पष्टीकरण प्रदान करते हैं।
स्वचालित सामग्री निर्माण: इन LLMs का उपयोग राष्ट्रीय पाठ्यक्रम के साथ संरेखित अभ्यास प्रश्न, नमूना निबंध और जटिल पाठों के सरलीकृत स्पष्टीकरण बनाने के लिए करना।
शिक्षक समर्थन उपकरण: शिक्षकों को ग्रेडिंग में सहायता करना, छात्र लेखन पर प्रतिक्रिया प्रदान करना और पाठ योजना विचार उत्पन्न करने में सहायता करना।

महत्वपूर्ण शोध दिशाएं:

शिक्षाशास्त्र के लिए प्रॉम्प्ट इंजीनियरिंग: ऐसे प्रॉम्प्ट डिजाइन करने में व्यवस्थित शोध जो LLMs को तर्क समझाने, छात्रों की गलत धारणाओं की पहचान करने, या केवल उत्तर देने के बजाय सीखने को मचान करने के लिए मजबूर करते हैं।
अनुदैर्ध्य प्रभाव अध्ययन: क्या LLM ट्यूटर का उपयोग वास्तव में एक सेमेस्टर या वर्ष में छात्र शिक्षण परिणामों और परीक्षा स्कोर में सुधार करता है? नियंत्रित अध्ययनों की आवश्यकता है।
बहुमॉडल मूल्यांकन: भविष्य की उच्च-दांव परीक्षाओं में मौखिक घटक शामिल हो सकते हैं। शैक्षिक संदर्भ में LLMs की भाषण पहचान और उत्पादन क्षमताओं का मूल्यांकन अगली सीमा है।
समानता और पहुंच: डिजिटल विभाजन को चौड़ा करने के जोखिम को कम करने के लिए शोध—यह सुनिश्चित करना कि लाभ कम संसाधन वाले स्कूलों के छात्रों तक पहुंचे जिनके पास विश्वसनीय इंटरनेट या उपकरण नहीं हैं।
सांस्कृतिक एवं संदर्भगत अनुकूलन: ऐसे वैश्विक LLMs को फाइन-ट्यून या विकसित करना जो स्थानीय वियतनामी शैक्षिक सामग्री, इतिहास और संस्कृति को बेहतर ढंग से समझने और संदर्भित करने की अनुमति देते हैं।

10. संदर्भ

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.