DREsS: EFL शिक्षा में रूब्रिक-आधारित स्वचालित निबंध स्कोरिंग के लिए एक व्यापक डेटासेट

1. परिचय एवं अवलोकन

स्वचालित निबंध स्कोरिंग (AES) एक विदेशी भाषा के रूप में अंग्रेजी (EFL) शिक्षा में एक महत्वपूर्ण उपकरण बन गया है, जो वास्तविक समय प्रतिक्रिया और मापनीय मूल्यांकन प्रदान करने की संभावना रखता है। हालाँकि, इसके व्यावहारिक अनुप्रयोग में एक महत्वपूर्ण बाधा रही है: उच्च गुणवत्ता वाले, शिक्षण-संबंधित प्रशिक्षण डेटा की कमी। अधिकांश मौजूदा डेटासेट, जैसे कि व्यापक रूप से उपयोग किया जाने वाला ASAP डेटासेट, केवल समग्र स्कोर प्रदान करते हैं या गैर-विशेषज्ञों द्वारा एनोटेट किए गए हैं, जो वास्तविक कक्षा वातावरण में आवश्यक सूक्ष्म, बहुआयामी मूल्यांकन को प्रतिबिंबित करने में विफल रहते हैं। अनुसंधान बेंचमार्क और शैक्षिक अभ्यास के बीच की यह खाई वास्तव में प्रभावी AES प्रणालियों के विकास को सीमित करती है।

यह पत्र प्रस्तुत करता हैDREsS (EFL लेखन रूब्रिक-आधारित निबंध स्कोरिंग डेटासेट), जो इस खाई को पाटने के लिए डिज़ाइन किया गया एक व्यापक संसाधन है। DREsS पिछले कार्यों की मुख्य सीमाओं का समाधान करता है, जो विशेष रूप से EFL संदर्भ के लिए तैयार किए गए एक बड़े पैमाने पर, विशेषज्ञ-एनोटेट और रूब्रिक-संरेखित डेटासेट को प्रदान करके है।

कुल नमूना संख्या

48.9K

वास्तविक कक्षा निबंध

2,279

प्रदर्शन में सुधार

+45.44%

CASE augmentation के बाद

2. DREsS डेटासेट

DREsS को एक तीन-भाग वाले डेटासेट के रूप में निर्मित किया गया है, जहाँ प्रत्येक भाग मजबूत AES मॉडल बनाने में एक अलग उद्देश्य की पूर्ति करता है।

2.1 DREsS New: वास्तविक कक्षा डेटा

DREsS का आधार हैDREsS New, जिसमें EFL स्नातक छात्रों द्वारा लिखे गए 2,279 निबंध शामिल हैं। इन निबंधों को अंग्रेजी शिक्षा विशेषज्ञों द्वारा एक सुसंगत त्रि-आयामी स्कोरिंग मानदंड का उपयोग करके अंकित किया गया है:

सामग्री: विचारों की प्रासंगिकता, विस्तार और गहराई।
संरचना: तार्किक संरचना, सुसंगतता और अनुच्छेद विभाजन।
भाषा: व्याकरण, शब्दावली और भाषा मानक।

यह डेटासेट मॉडल प्रशिक्षण और मूल्यांकन के लिए एक स्वर्ण मानक प्रदान करता है, जो वास्तविक शिक्षार्थी त्रुटियों और विशेषज्ञ स्कोरिंग प्रथाओं को दर्शाता है।

2.2 DREsS Std.: मानकीकृत बेंचमार्क

तुलनीयता सुनिश्चित करने और डेटा पूल का विस्तार करने के लिए, लेखकों ने कई मौजूदा सार्वजनिक AES डेटासेट (ASAP P7, P8; ASAP++ P1, P2; ICNALE EE) को एकीकृत और मानकीकृत करके बनायाDREsS Std.इसमें इसके मूल, अक्सर असंगत स्कोरिंग मानदंडों को एक एकीकृत सामग्री, संरचना और भाषा ढांचे पर मैप करना शामिल है। DREsS Std. ने 6,515 मानकीकृत नमूनों को जोड़ा है, जो पिछले शोध और नए स्कोरिंग-आधारित प्रतिमान के बीच एक मूल्यवान सेतु का कार्य करता है।

2.3 DREsS CASE: Synthetic Data Augmentation

एक महत्वपूर्ण नवाचार हैDREsS CASE(Damage-based Essay Enhancement Strategy), यह 40,185 नमूनों वाला एक संश्लेषित रूप से उत्पन्न डेटासेट है। CASE मौजूदा डेटा से विशिष्ट स्कोरिंग मानदंडों को लक्षित करने वाली क्षति रणनीतियों का उपयोग करके तर्कसंगत "निम्न-गुणवत्ता" निबंध वेरिएंट बनाता है, जिससे प्रशिक्षण सेट की विविधता और कठिनाई सीमा का प्रभावी ढंग से विस्तार होता है। उदाहरण के लिए, यह तार्किक भ्रांतियाँ (क्षतिसामग्री) या संक्रमण वाक्यांशों को क्षतिग्रस्त कर सकता है (क्षतिसंरचना). इस विधि ने आधार मॉडल के प्रदर्शन में45.44% की उल्लेखनीय वृद्धि हासिल की, जिसने लक्षित डेटा संवर्धन के शक्तिशाली प्रभाव को प्रदर्शित किया।

3. Technical Framework and Methodology

3.1 स्कोरिंग मानकों का मानकीकरण

DREsS की व्यावहारिकता का मूल इसके सुसंगत तीन-मानदंड स्कोरिंग ढांचे में निहित है। विभिन्न डेटासेट का मानकीकरण एक सूक्ष्म विशेषज्ञ परामर्श प्रक्रिया शामिल करता है, जो मूल स्कोर (जैसे, एकल "शैली" स्कोर) को सामग्री, संरचना और भाषा आयामों पर मैप करता है। यह AES मॉडल के लिए एक साझा मूल्यांकन भाषा बनाता है, जो मूल ASAP डेटासेट (प्रॉम्प्ट 1-6) में समग्र स्कोर से परे है।

3.2 CASE वृद्धि रणनीति

CASE पद्धति एक नियम-आधारित विकृति इंजन है। प्रत्येक स्कोरिंग मानदंड आयाम के लिए, मूल निबंध पर विशिष्ट रूपांतरण नियम लागू किए जाते हैं ताकि कम स्कोर वाले संस्करण उत्पन्न किए जा सकें। गणितीय रूप से, यदि एक मूल निबंध $E$ का सामग्री, संरचना और भाषा पर एक स्कोर वेक्टर $S = (s_c, s_o, s_l)$ है, तो CASE एक विकृत निबंध $E'$ उत्पन्न करता है जिसका लक्ष्य कम स्कोर वेक्टर $S' = (s'_c, s'_o, s'_l)$ है, जहां $s'_i \leq s_i$। विकृति फ़ंक्शन $f_i$ विशिष्ट आयाम के लिए है:

सामग्री: $f_c(E)$ मुख्य तर्कों को असंबंधित या विरोधाभासी कथनों से बदल सकता है।
संरचना: $f_o(E)$ अनुच्छेदों के क्रम को यादृच्छिक कर सकता है या सुसंगति साधनों को हटा सकता है।
भाषा: $f_l(E)$ व्याकरणिक त्रुटियाँ या अनुपयुक्त शब्दावली चयन प्रस्तुत कर सकता है।

यह नियंत्रित अवनयन निबंध गुणवत्ता की एक समृद्ध स्पेक्ट्रम बनाता है, जिससे मॉडल स्कोरिंग के लिए अधिक मजबूत फ़ीचर प्रतिनिधित्व सीखने में सक्षम होता है।

4. प्रयोगात्मक परिणाम और प्रदर्शन

इस पत्र ने DREsS के विभिन्न घटकों पर प्रशिक्षित प्रतिगमन मॉडल (जैसे, सपोर्ट वेक्टर रिग्रेशन) और तंत्रिका आर्किटेक्चर (जैसे, LSTM, BERT-आधारित मॉडल) का उपयोग करके मजबूत बेसलाइन स्थापित की। मुख्य निष्कर्षों में शामिल हैं:

केवलDREsS New(वास्तविक डेटा) पर प्रशिक्षित मॉडल इस परीक्षण सेट पर उच्च सटीकता दिखाता है, लेकिन अन्य लेखन संकेतों के लिए इसकी सामान्यीकरण क्षमता सीमित है, जो विविध डेटा की आवश्यकता को रेखांकित करता है।
शामिल करनाDREsS Std. मॉडल को व्यापक लेखन शैलियों और विषयों से अवगत कराकर, प्रॉम्प्ट-क्रॉस रोबस्टनेस में सुधार किया गया।
शामिल करनाDREsS CASE सबसे महत्वपूर्ण सुधार लाया, जिसने केवल वास्तविक डेटा पर प्रशिक्षित बेसलाइन की तुलना में माध्य वर्ग त्रुटि (MSE) में 45.44% की कमी की। यह सूक्ष्म गुणवत्ता अंतरों को पहचानने के लिए मॉडल को सिखाने में सिंथेटिक डेटा के मूल्य पर प्रकाश डालता है, विशेष रूप से कम स्कोर रेंज के लिए जो मानव-लिखित कॉर्पोरा में अपर्याप्त रूप से प्रतिनिधित्व कर सकते हैं।

चार्ट व्याख्या: प्रदान किए गए आंकड़ों की सांख्यिकीय तालिका (PDF में तालिका 1) DREsS की संरचना और पैमाने को स्पष्ट रूप से दर्शाती है। बार ग्राफ (चित्र 1) ने तीन-भाग निर्माण प्रक्रिया का प्रभावी ढंग से दृश्यीकरण किया है, यह रेखांकित करते हुए कि CASE ने सबसे अधिक मात्रा में डेटा उत्पन्न किया और रणनीतिक रूप से ध्यान केंद्रित कियासंरचनास्कोरिंग मानदंडों पर (31,086 नमूने), संभवतः इसलिए क्योंकि संरचनात्मक दोष EFL लेखन में आम हैं और नियम-आधारित अनुकरण के लिए उपयुक्त हैं।

5. विश्लेषणात्मक ढांचा और केस अध्ययन

AES डेटासेट का मूल्यांकन करने के लिए ढांचा: DREsS जैसे नए AES डेटासेट का मूल्यांकन करते समय, शोधकर्ताओं और व्यवसायियों को चार स्तंभों की जांच करनी चाहिए:शैक्षणिक प्रभावशीलता(विशेषज्ञ एनोटेशन, प्रासंगिक रूब्रिक),तकनीकी व्यावहारिकता(पैमाना, संगति, कार्य परिभाषा),नैतिक एवं व्यावहारिक विचार(डेटा स्रोत, पूर्वाग्रह, अनुमति) औरनवीनता(जैसे CASE जैसी नवीन विधियाँ)।

केस स्टडी: DREsS पर फ्रेमवर्क का अनुप्रयोग

शिक्षण प्रभावशीलता: उच्च। DREsS New वास्तविक EFL कक्षाओं से लिया गया है और विशेषज्ञों द्वारा मानक तीन-भाग स्कोरिंग मानदंड का उपयोग करके स्कोर किया गया है, जो सीधे शिक्षण उद्देश्यों के साथ संरेखित है।
तकनीकी व्यावहारिकता: उच्च। लगभग 49K कुल नमूनों और मानकीकृत स्कोरिंग मानदंडों के साथ, इसका पैमाना आधुनिक NLP मॉडल को प्रशिक्षित करने के लिए पर्याप्त बड़ा और सुसंगत है। तीन स्कोरिंग कार्यों में स्पष्ट विभाजन अधिक सूक्ष्म मॉडल विकास को संभव बनाता है।
नैतिक और व्यावहारिक विचार: मध्यम से उच्च। वास्तविक छात्र डेटा के स्रोत नैतिक हैं और डेटासेट सार्वजनिक रूप से उपलब्ध है, जिससे पुनरुत्पादनशीलता को बढ़ावा मिलता है। एक संभावित सीमा विशिष्ट शिक्षार्थी समूह (दक्षिण कोरियाई स्नातक) पर ध्यान केंद्रित करना है, जो सामान्यीकरण क्षमता को प्रभावित कर सकता है।
नवीनता: उच्च। CASE वृद्धि रणनीति शैक्षिक डेटा वृद्धि के क्षेत्र में एक नवीन और प्रमाणित प्रभावी योगदान है।

यह ढांचा पुष्टि करता है कि DREsS एक उच्च-गुणवत्ता, नवीन संसाधन है जो इस क्षेत्र के विकास को महत्वपूर्ण रूप से आगे बढ़ाता है।

6. आलोचनात्मक विश्लेषण और उद्योग परिप्रेक्ष्य

मुख्य अंतर्दृष्टि: DREsS केवल एक और डेटासेट नहीं है; यह एक रणनीतिक हस्तक्षेप है जो AES शोध का केंद्र बिंदुबेसलाइन प्रदर्शनपुनः अभिमुखीकरणशैक्षणिक व्यावहारिकताविशेषज्ञ एनोटेटर्स द्वारा रूब्रिक-आधारित स्कोरिंग को प्राथमिकता देकर, लेखक एनएलपी समुदाय को ऐसे मॉडल बनाने के लिए प्रेरित कर रहे हैं जिन पर शिक्षक वास्तव में भरोसा करेंगे। यह बदलाव एआई क्षेत्र की व्यापक प्रवृत्ति को दर्शाता है, जो मानव-संरेखित और डोमेन-विशिष्ट प्रणालियों की ओर अग्रसर है, जैसा कि मॉडलों को अधिक व्याख्यात्मक और निष्पक्ष बनाने के प्रयासों में देखा गया है।

तार्किक प्रवाह और रणनीतिक स्थिति: इस पत्र का तर्क अकाट्य है। यह पहले क्षेत्र की मूल समस्या (व्यावहारिक, रूब्रिक-आधारित डेटा की कमी) का निदान करता है, तीन-भागीय समाधान (New, Std., CASE) प्रस्तावित करता है, और इसकी प्रभावशीलता के लिए मजबूत साक्ष्य (45.44% सुधार) प्रदान करता है। DREsS Std. को शामिल करना विशेष रूप से चतुराई भरा कदम है - यह पिछले कार्य को त्यागता नहीं है बल्कि उसे एकीकृत और मानकीकृत करता है, तत्काल प्रासंगिकता सुनिश्चित करता है और ASAP से परिचित शोधकर्ताओं के लिए अपनाना आसान बनाता है। इससे संपूर्ण शोध पारिस्थितिकी तंत्र के लिए एक सहज उन्नयन पथ तैयार होता है।

शक्तियाँ और सीमाएँ: इसका प्रमुख लाभ इसका समग्र समाधान है: वास्तविक डेटा, मानकीकृत विरासत डेटा और अभिनव सिंथेटिक डेटा। CASE पद्धति सरल होते हुए भी अत्यंत प्रभावी और व्याख्यायोग्य है - यह "ब्लैक बॉक्स" जनरेटिव AI संवर्धन की तुलना में एक लाभ है। हालाँकि, मुख्य सीमा दायरे की है। मॉडल का प्रदर्शन और CASE संवर्धन चुने गए तीन-रूब्रिक फ्रेमवर्क के साथ सख्ती से जुड़ा हुआ है। तो रचनात्मकता, तर्क की ताकत या विशिष्ट विषय लेखन (उदाहरण के लिए, वैज्ञानिक रिपोर्ट) का क्या? जैसा कि नेशनल काउंसिल ऑफ टीचर्स ऑफ इंग्लिश ने जोर दिया है, लेखन मूल्यांकन बहुआयामी है। DREsS एक महत्वपूर्ण पहलू को संबोधित करता है, लेकिन यदि बिना आलोचनात्मक विचार के अपनाया जाता है, तो यह अनजाने में लेखन गुणवत्ता की संकीर्ण धारणा को सुदृढ़ कर सकता है।

क्रियान्वयन योग्य अंतर्दृष्टि: एडटेक कंपनियों के लिए, यह एक खाका है। अन्य भाषाओं या विषयों (उदाहरण के लिए, प्रोग्रामिंग असाइनमेंट, कानूनी लेखन) के लिए समान विशेषज्ञ-लेबल, रूब्रिक-विशिष्ट डेटासेट बनाने में निवेश एक मजबूत प्रतिस्पर्धात्मक लाभ बन सकता है। शोधकर्ताओं के लिए, निर्देश स्पष्ट है: समग्र ASAP स्कोर पर फाइन-ट्यूनिंग बंद करें। DREsS को नए आधार रेखा के रूप में लें। इसके अलावा, CASE प्रतिमान के विस्तार का अन्वेषण करें - क्या विरोधात्मक तकनीकों (जैसा कि मशीन लर्निंग के अन्य क्षेत्रों में खोजा गया है) के माध्यम से समान विघटन मॉडल स्वचालित रूप से सीखे जा सकते हैं? 45.44% का सुधार एक शुरुआती बिंदु है, एक सीमा नहीं।

7. भविष्य के अनुप्रयोग एवं शोध संभावनाएँ

DREsS ने भविष्य के कार्य के लिए कई आशाजनक दिशाएँ खोली हैं:

व्यक्तिगत प्रतिक्रिया निर्माण: DREsS पर प्रशिक्षित मॉडल को स्कोरिंग से परे विस्तारित किया जा सकता है, जो विशिष्ट, रूब्रिक-संरेखित प्रतिक्रिया उत्पन्न करता है (उदाहरण के लिए,सामग्री: "आपके दूसरे पैराग्राफ के तर्क में सहायक साक्ष्य की कमी है")।
क्रॉस-भाषाई स्थानांतरण: Investigate whether models trained on DREsS can adapt to scoring essays from learners with different native languages, potentially leveraging multilingual NLP techniques.
Integration with Intelligent Tutoring Systems (ITS): Embed AES models trained on DREsS into ITS to provide real-time formative assessment during the writing process, not just a final score.
उन्नत संवर्धन तकनीकों का अन्वेषण करें: नियम-आधारित विकृति (CASE) से आगे बढ़ते हुए, बड़ी भाषा मॉडल (LLM) का उपयोग करके अधिक सूक्ष्म, संदर्भ-जागरूक और विभिन्न गुणवत्ता स्तरों की निबंध विविधताएँ उत्पन्न करना, साथ ही पूर्वाग्रह पर सावधानीपूर्वक नियंत्रण रखना।
स्कोरिंग मानदंडों के सेट का विस्तार करें: मूल्यांकन विशेषज्ञों के साथ सहयोग करके, अतिरिक्त स्कोरिंग मानदंडों (जैसेपाठक जागरूकता或अलंकारिक प्रभावडेटा एकत्र करें, अधिक व्यापक डेटासेट बनाएं।

8. संदर्भ सूची

Yoo, H., Han, J., Ahn, S., & Oh, A. (2025). DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing. arXiv preprint arXiv:2402.16733v3.
Shermis, M. D., & Burstein, J. (Eds.). (2013). स्वचालित निबंध मूल्यांकन की पुस्तिका: वर्तमान अनुप्रयोग और नई दिशाएँ. रूटलेज. (AES क्षेत्र का एक मौलिक अवलोकन).
National Council of Teachers of English (NCTE). (2022). Position Statement on Machine Scoring and Assessment of Student Writing. (छात्र लेखन के मशीनी स्कोरिंग और मूल्यांकन में नैतिक और शैक्षणिक मुद्दों पर जोर देता है).
Taghipour, K., & Ng, H. T. (2016). A Neural Approach to Automated Essay Scoring. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP). (समग्र AES तंत्रिका आधार रेखा का उदाहरण).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (अयुग्मित डेटा अनुवाद पर एक प्रभावशाली पेपर, जो संकल्पनात्मक रूप से AES में डेटा संवर्धन चुनौती के समान है).
Kaggle. (2012). The Hewlett Foundation: Automated Essay Scoring. ASAP Dataset. (व्यापक रूप से उपयोग किए जाने वाले ASAP बेंचमार्क का स्रोत).