DREsS: रेटिंग रूब्रिक-आधारित स्वचालित निबंध स्कोरिंग के लिए ईएफएल शिक्षा में एक व्यापक डेटासेट

1. परिचय एवं अवलोकन

स्वचालित निबंध स्कोरिंग (AES) विदेशी भाषा के रूप में अंग्रेजी शिक्षा में एक महत्वपूर्ण उपकरण बन गया है, जो मापनीय, वास्तविक समय प्रतिक्रिया प्रदान कर सकता है। हालाँकि, उच्च गुणवत्ता वाले, शिक्षण-संबंधित डेटासेट की कमी इसके व्यावहारिक अनुप्रयोग में बाधा बनती है। अधिकांश मौजूदा डेटासेट केवल समग्र स्कोर प्रदान करते हैं या विशेषज्ञ एनोटेशन से रहित हैं, और वास्तविक कक्षा वातावरण में रचनात्मक मूल्यांकन के लिए आवश्यक, रूब्रिक-आधारित सूक्ष्म मूल्यांकन को प्रतिबिंबित करने में विफल रहते हैं। शोध बेंचमार्क और शैक्षिक अभ्यास के बीच यह अंतर वास्तव में प्रभावी AES प्रणालियों के विकास को सीमित करता है।

Yoo et al. द्वारा प्रस्तावित DREsS डेटासेट इस महत्वपूर्ण बाधा को सीधे संबोधित करता है। यह एक बड़े पैमाने पर, बहु-घटक संसाधन है जिसे अगली पीढ़ी के रूब्रिक-आधारित AES मॉडल के विकास को आगे बढ़ाने के लिए डिज़ाइन किया गया है। DREsS का महत्व इसके संयोजन में निहित हैवास्तविक कक्षा डेटा、मानकीकृत मौजूदा बेंचमार्कऔर एक नवीनडेटा संवर्धन रणनीति, जिसने अनुसंधान और अनुप्रयोग के लिए एक व्यापक आधार स्थापित किया।

2. DREsS डेटासेट

DREsS को एक तीन-भाग वाले डेटासेट के रूप में निर्मित किया गया है, जहाँ प्रत्येक भाग स्कोरिंग रूब्रिक-आधारित AES को आगे बढ़ाने में अपनी विशिष्ट भूमिका निभाता है।

कुल नमूना संख्या

48.9K

वास्तविक कक्षा निबंध

2,279

सिंथेटिक नमूने

40.1K

प्रदर्शन में सुधार

+45.44%

2.1 DREsS_New: वास्तविक कक्षा डेटा

यह DREsS की आधारशिला है, जिसमें शामिल हैं2,279essays written by EFL undergraduates in authentic classroom settings. Each essay was scored by English education experts according to three key scoring rubrics:

Content: Relevance, development, and depth of ideas.
Organization: तार्किक संरचना, सुसंगतता और अनुच्छेद विभाजन।
भाषा: व्याकरण, शब्दावली और भाषा मानक।

विशेषज्ञों द्वारा अंकित, विशिष्ट रूब्रिक के लिए यह डेटा, ऐसे मॉडल प्रशिक्षित करने के लिए एक स्वर्ण मानक प्रदान करता है जो शिक्षण मूल्यांकन मानकों को समझ सकें (न कि केवल पाठ सुविधाओं की सरल पैटर्न पहचान करें)।

2.2 DREsS_Std.: मानकीकृत बेंचमार्क

तुलनीयता सुनिश्चित करने और उपयोगिता बढ़ाने के लिए, लेखकों ने एकीकृत स्कोरिंग रूब्रिक ढांचे के तहत कई मौजूदा AES डेटासेट का मानकीकरण किया। इस प्रक्रिया में पेशेवर परामर्श के माध्यम से स्कोर का पुन: समायोजन और मूल्यांकन मानदंडों को तीन मुख्य रूब्रिक्स के साथ संरेखित करना शामिल था। DREsS_Std. प्रदान करता है6,515 मानकीकृत नमूने, जिससे मॉडल प्रशिक्षण और मूल्यांकन के लिए एक सुसंगत और विस्तारित बेंचमार्क बनाया गया है।

2.3 DREsS_CASE: सिंथेटिक डेटा संवर्धन

To address the long-standing issue of limited training data in specialized domains, the authors proposeCASE. CASE intelligently generates synthetic essay samples by applying rubric-specific "damage" operations to existing essays. For example:

Content: Introducing irrelevant sentences or weakening arguments.
Organization: Disrupting paragraph order or logical flow.
भाषा: Injecting grammatical errors or inappropriate vocabulary.

This strategy generated40,185 synthetic samples, जिसने डेटासेट के आकार और विविधता में भारी वृद्धि की। महत्वपूर्ण रूप से, प्रयोगों से पता चला कि DREsS_CASE का उपयोग करके प्रशिक्षण देने से बेसलाइन मॉडल के प्रदर्शन में सुधार हुआ।45.44%, जो इस लक्षित, शिक्षण-सिद्धांत-आधारित डेटा संवर्धन रणनीति की प्रभावशीलता को प्रमाणित करता है।

3. तकनीकी ढांचा एवं पद्धतिशास्त्र

3.1 स्कोरिंग रूब्रिक मानकीकरण

विभिन्न डेटासेट को एकीकृत करने के लिए एक सूक्ष्म मानचित्रण और सामान्यीकरण प्रक्रिया की आवश्यकता होती है। मूल डेटासेट के स्कोर को सामग्री, संगठनात्मक संरचना और भाषा के लिए परिभाषित स्कोरिंग पैमानों के साथ संरेखित करने के लिए परिवर्तित किया गया। इससे यह सुनिश्चित हुआ कि सभी DREsS_Std. नमूनों में, "संगठनात्मक संरचना" के लिए "4 अंक" का एक ही अर्थ है, जिससे मजबूत क्रॉस-डेटासेट मॉडल प्रशिक्षण संभव हुआ।

3.2 CASE डेटा संवर्धन रणनीति

CASE एक नियम-आधारित या मॉडल-निर्देशित "विध्वंस" इंजन के रूप में कार्य करता है। यह एक अच्छी तरह से लिखित निबंध प्राप्त करता है और लक्ष्य स्कोरिंग रूब्रिक के लिए नियंत्रित अवनति संचालन लागू करता है। इसकी मुख्य नवीनता यह है कि ये "विध्वंस" यादृच्छिक शोर नहीं हैं, बल्कि EFL शिक्षार्थियों द्वारा अक्सर की जाने वाली त्रुटियों का अनुकरण करने के लिए डिज़ाइन किए गए हैं, जिससे संवर्धित डेटा शैक्षणिक रूप से अधिक प्रामाणिक और मॉडल सीखने के लिए अधिक मूल्यवान बन जाता है।

4. प्रयोगात्मक परिणाम एवं विश्लेषण

पेपर रिपोर्ट करता है कि संवर्धित DREsS डेटासेट (विशेष रूप से DREsS_CASE का उपयोग करके) पर प्रशिक्षित मॉडल ने केवल मूल गैर-संवर्धित डेटा पर प्रशिक्षित बेसलाइन मॉडल की तुलना में प्रदर्शन में सुधार दिखाया।45.44%। इस परिणाम ने दो प्रमुख बिंदुओं पर प्रकाश डाला:

डेटा गुणवत्ता और प्रासंगिकता: विशेषज्ञ-अंकित और स्कोरिंग रूब्रिक के साथ संरेखित DREsS_New का डेटा, सामान्य निबंध-स्कोर जोड़ियों की तुलना में एक बेहतर सीखने का संकेत प्रदान करता है।
संवर्धन रणनीति की प्रभावशीलता: CASE रणनीति अत्यधिक प्रभावी है। सामान्य पाठ संवर्धन तकनीकों के विपरीत, CASE द्वारा विशिष्ट स्कोरिंग रूब्रिक के लिए किए गए "विध्वंस" संचालन सीधे मॉडल की प्रत्येक स्कोरिंग मानदंड के तहत विभिन्न स्कोर स्तरों के बीच की सीमाओं को सीखने की आवश्यकता को पूरा करते हैं। यह उस सिद्धांत के समान है जहां प्रतिकूल प्रशिक्षण मॉडल की मजबूती को बढ़ा सकता है।

प्रदर्शन में सुधार ने मूल परिकल्पना की पुष्टि की: शिक्षण सिद्धांतों पर आधारित दृष्टिकोण के माध्यम से प्रशिक्षण डेटा की मात्रा और विशिष्टता बढ़ाना, AES मॉडल की सटीकता बढ़ाने का एक शक्तिशाली लीवर है।

5. मुख्य अंतर्दृष्टि एवं निहितार्थ

अनुसंधान और व्यवहार के बीच की खाई को पाटना: DREsS समग्र स्कोरिंग बेंचमार्क से ध्यान हटाकर रूब्रिक-आधारित मूल्यांकन पर केंद्रित करता है, जो वास्तविक EFL कक्षाओं में मानक प्रथा है।
विशेषज्ञ एनोटेशन अपरिहार्य है: DREsS_New की गुणवत्ता दर्शाती है कि शिक्षा क्षेत्र के NLP कार्यों के लिए, विश्वसनीय और शैक्षणिक सिद्धांतों के अनुरूप मॉडल बनाने में डोमेन विशेषज्ञों का एनोटेशन महत्वपूर्ण है।
बुद्धिमान वृद्धि डेटा के ढेर से बेहतर: CASE की सफलता साबित करती है कि जनरेटिवशिक्षण से संबंधितसिंथेटिक डेटा केवल वेब से निबंधों को स्क्रैप करने की तुलना में अधिक मूल्यवान है।
एक व्याख्यात्मक AES की नींव रखना: विशिष्ट स्कोरिंग रूब्रिक्स पर स्कोर की भविष्यवाणी करने के लिए मॉडल को प्रशिक्षित करके, DREsS उन AES प्रणालियों के विकास को बढ़ावा देता है जो केवल अंतिम स्कोर देने के बजाय विस्तृत, क्रियान्वयन योग्य प्रतिक्रिया प्रदान कर सकती हैं।

6. मूल विश्लेषण: मुख्य अंतर्दृष्टि, तार्किक संरचना, शक्तियाँ और कमियाँ, क्रियान्वयन योग्य सुझाव

मुख्य अंतर्दृष्टि: DREsS पेयर केवल एक डेटासेट रिलीज़ नहीं है; यह पूरे AES शोध प्रक्षेपवक्र को पुनः कैलिब्रेट करने के उद्देश्य से एक प्रयास हैशैक्षणिक व्यावहारिकताबल्किबेंचमार्क प्रदर्शनका रणनीतिक हस्तक्षेप। लेखक सही ढंग से बताते हैं कि इस क्षेत्र में ठहराव मॉडल प्रशिक्षण डेटा और वास्तविक दुनिया के अनुप्रयोग आवश्यकताओं के बीच बेमेलता के कारण है। उनका समाधान चतुराई से तीन भागों में विभाजित है: स्वर्ण मानक वास्तविक डेटा प्रदान करना, मौजूदा अव्यवस्था को एकीकृत करना, और डेटा की कमी को दूर करने के लिए एक स्केलेबल विधि का आविष्कार करना। यह मूलभूत कंप्यूटर विज़न डेटासेट द्वारा अपनाए गए दृष्टिकोण को दर्शाता है, लेकिन डोमेन-विशिष्ट डेटा संवर्धन के महत्वपूर्ण मोड़ को जोड़ता है।

तार्किक संरचना: तर्क विश्वसनीय और सुसंरचित है। यह समस्या के निदान से शुरू होता है: खराब डेटा गुणवत्ता के कारण, AES मॉडल वास्तविक EFL कक्षाओं में व्यावहारिक नहीं हैं। फिर एक त्रिस्तरीय समाधान प्रस्तावित किया गया है और इसकी प्रभावशीलता के प्रमाण प्रदान किए गए हैं। समस्या की पहचान से लेकर समाधान वास्तुकला और फिर सत्यापन तक की प्रक्रिया निर्बाध है। संबंधित कार्यों का समावेश DREsS को भविष्य के कार्य के लिए एक आवश्यक आधार के रूप में प्रभावी ढंग से स्थापित करता है।

शक्तियाँ और सीमाएँ: मुख्य शक्ति हैसमग्र डिजाइन दर्शन। DREsS केवल डेटा प्रस्तुत नहीं करता; यह एक संपूर्ण पारिस्थितिकी तंत्र प्रदान करता है। CASE वृद्धि रणनीति विशेष रूप से चतुराई से बनाई गई है। एक संभावित कमी यह है किमॉडल मूल्यांकन की गहराई सीमित है। इसके अलावा, शोध पत्र संकेत देता है, लेकिन पर्याप्त रूप से पता नहीं लगाता, कि स्कोरिंग रूब्रिक-आधारित अंकों कीव्याख्यात्मकता के संदर्भ में क्षमता。

क्रियान्वयन योग्य सुझाव: शोधकर्ताओं के लिए, निर्देश स्पष्ट है: केवल समग्र स्कोर का उपयोग करके प्रशिक्षण देना बंद करें। DREsS को नया मानक बेंचमार्क बनना चाहिए। एडटेक कंपनियों के लिए, निहितार्थ यह है किविशेषज्ञ एनोटेशन प्रक्रियाओं में निवेश करेंशिक्षकों के लिए, यह कार्य उपयोगी, विस्तृत स्वचालित प्रतिक्रिया के आगमन की ओर इशारा करता है। उन्हें शोध समुदाय के साथ सहयोग करना चाहिए ताकि यह सुनिश्चित हो सके कि इन उपकरणों का विकास ऐसे तरीके से हो जो वास्तव में शिक्षण का समर्थन करे, न कि उसे प्रतिस्थापित करे।

7. तकनीकी विवरण और गणितीय सूत्र

हालांकि PDF में कोई स्पष्ट न्यूरल नेटवर्क आर्किटेक्चर प्रस्तुत नहीं किया गया है, लेकिन इसका मूल तकनीकी योगदान डेटा निर्माण और वृद्धि विधियों में निहित है। CASE रणनीति को एक फ़ंक्शन के रूप में समझा जा सकता है जो मूल निबंध $E$ पर लागू होकर लक्ष्य स्कोरिंग रूब्रिक $R \in \{सामग्री, संरचना, भाषा\}$ के लिए एक "दूषित" संस्करण $E'$ उत्पन्न करता है।

$E' = C_R(E, \theta_R)$

यहाँ $C_R$, स्कोरिंग रूब्रिक $R$ के लिए "दूषित" करने वाला फ़ंक्शन है, और $\theta_R$ उन पैरामीटर्स को दर्शाता है जो "दूषित" करने के प्रकार और गंभीरता को नियंत्रित करते हैं। लक्ष्य एक जोड़ी $(E', s_R')$ उत्पन्न करना है, जहाँ स्कोरिंग रूब्रिक $R$ का नया स्कोर $s_R'$ मूल स्कोर $s_R$ से कम है, जबकि अन्य रूब्रिक्स के स्कोर अपरिवर्तित रह सकते हैं। यह मॉडल के लिए एक समृद्ध प्रशिक्षण सिग्नल बनाता है, जो दर्शाता है कि विशिष्ट अवनति किसी विशिष्ट स्कोर को कैसे प्रभावित करती है।

DREsS_Std. का मानकीकरण प्रक्रिया एक रैखिक स्केलिंग या मैपिंग फ़ंक्शन से जुड़ी है, जो किसी स्कोर $x$ को मूल डेटासेट की सीमा $[a, b]$ से DREsS स्कोरिंग रूब्रिक की सीमा $[c, d]$ में परिवर्तित करती है:

$x' = c + \frac{(x - a)(d - c)}{b - a}$

इसके बाद यह सुनिश्चित करने के लिए विशेषज्ञ समीक्षा की जाती है कि मैप किए गए स्कोर एक समान पैमाने पर शैक्षिक अर्थ बनाए रखें।

8. विश्लेषणात्मक रूपरेखा: उदाहरण केस अध्ययन

परिदृश्य: एक एडटेक स्टार्टअप एक AES सिस्टम बनाना चाहता है जो छात्रों की आईईएलटीएस लेखन टास्क 2 अभ्यास निबंधों के लिए विस्तृत प्रतिक्रिया प्रदान करे।

DREsS सिद्धांतों को लागू करने का ढांचा:

डेटा अधिग्रहण: भाषा स्कूलों के साथ साझेदारी करके, 5000+ छात्र-लिखित आईईएलटीएस निबंध एकत्र किए गए। महत्वपूर्ण बात यह है किकईप्रमाणित आईईएलटीएस परीक्षकों ने प्रत्येक निबंध का आधिकारिक आईईएलटीएस मूल्यांकन मानदंडों के अनुसार मूल्यांकन किया। इससे एक उच्च-गुणवत्ता, निर्णयित डेटासेट बनाया गया।
बेंचमार्क एकीकरण: तर्कपूर्ण लेखन या मानकीकृत परीक्षाओं से संबंधित किसी भी सार्वजनिक रूप से उपलब्ध निबंध डेटा की पहचान करना और उसे मानकीकृत करना। आईईएलटीएस बैंड विवरणकर्ताओं के साथ संरेखित करने के लिए स्कोर का पुन: अंशांकन।
डेटा संवर्धन: एक "CASE-for-IELTS" मॉड्यूल विकसित किया गया। "कार्य प्रतिक्रिया" के लिए, भ्रष्टाचार संचालन में निबंध की स्थिति को आंशिक रूप से विषय से भटकाना शामिल हो सकता है। "सामंजस्य और संसक्ति" के लिए, संक्रमण वाक्यांशों को भ्रष्ट करना। इससे लाखों अतिरिक्त प्रशिक्षण उदाहरण उत्पन्न हुए, जिसने मॉडल को विभिन्न स्कोर बैंड के निबंधों के बीच सूक्ष्म अंतरों को अलग करना सिखाया।
मॉडल प्रशिक्षण और मूल्यांकन: एक मॉडल को चार स्वतंत्र स्कोरिंग रूब्रिक स्कोर की भविष्यवाणी करने के लिए प्रशिक्षित करें। मूल्यांकन न केवल स्कोर सटीकता पर आधारित हो, बल्कि मॉडल की उस विशिष्ट प्रतिक्रिया को उत्पन्न करने की क्षमता पर भी आधारित हो जो परीक्षक द्वारा दी जाएगी और जो स्कोरिंग रूब्रिक के साथ संरेखित हो।

यह केस स्टडी दर्शाती है कि कैसे DREsS फ्रेमवर्क व्यावहारिक, उच्च-जोखिम मूल्यांकन उपकरणों के निर्माण के लिए एक रूपरेखा प्रदान करता है।

9. भविष्य के अनुप्रयोग और शोध दिशाएँ

DREsS का प्रकाशन कई आशाजनक दिशाओं का मार्ग प्रशस्त करता है:

व्यक्तिगत प्रतिक्रिया निर्माण: तार्किक अगला कदम रूब्रिक-आधारित स्कोर भविष्यवाणी का उपयोग करके स्वचालित, व्यक्तिगत लेखन प्रतिक्रिया को संचालित करना है।
क्रॉस-लिंग्वल एवं मल्टीमॉडल AES: क्या रूब्रिक-आधारित फ्रेमवर्क अन्य भाषाओं में स्वचालित स्कोरिंग के लिए लागू किया जा सकता है? इसके अलावा, मल्टीमॉडल बड़े भाषा मॉडल के उदय के साथ, भविष्य की प्रणालियाँ चार्ट शामिल करने वाले या ऑडियो/वीडियो सामग्री का हवाला देने वाले निबंधों का मूल्यांकन कर सकती हैं।
इंटेलिजेंट ट्यूटरिंग सिस्टम के साथ एकीकरण: DREsS-आधारित AES मॉडल लेखन ITS का एक मुख्य घटक बन सकता है।
पूर्वाग्रह पहचान और निष्पक्षता: रूब्रिक-आधारित दृष्टिकोण AES प्रणालियों के पूर्वाग्रह का ऑडिट करना आसान बनाता है।
शिक्षा में व्याख्यायोग्य कृत्रिम बुद्धिमत्ता: DREsS ऐसे मॉडल विकसित करने को प्रोत्साहित करता है जिनके स्कोरिंग निर्णय व्याख्यायोग्य हों। भविष्य के कार्य में उन विशिष्ट वाक्यों या वाक्यांशों को उजागर करना शामिल हो सकता है जिनका कम स्कोर पर सबसे अधिक प्रभाव पड़ता है।

10. संदर्भ सूची

Yoo, H., Han, J., Ahn, S., & Oh, A. (2025). DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing. arXiv preprint arXiv:2402.16733v3.
Goodfellow, I. J., Shlens, J., & Szegedy, C. (2015). Explaining and Harnessing Adversarial Examples. International Conference on Learning Representations (ICLR).
Deng, J., Dong, W., Socher, R., Li, L., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Attali, Y., & Burstein, J. (2006). Automated essay scoring with e-rater® V.2. The Journal of Technology, Learning and Assessment, 4(3).
Page, E. B. (1966). The imminence of grading essays by computer. The Phi Delta Kappan, 47(5), 238-243.
Buolamwini, J., & Gebru, T. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. Proceedings of the 1st Conference on Fairness, Accountability and Transparency (FAT*).
Educational Testing Service (ETS). (2023). Research on Automated Scoring. Retrieved from https://www.ets.org/ai-research.