DREsS: Comprehensive Dataset for Automated Essay Scoring Based on Scoring Rubrics in EFL Education

1. Utangulizi na Muhtasari

Automated Essay Scoring has become a key tool in English as a Foreign Language education, capable of providing scalable, real-time feedback. However, the scarcity of high-quality, pedagogically relevant datasets hinders its practical application. Most existing datasets only provide holistic scores or lack expert annotations, failing to capture the rubric-based, detailed evaluation necessary for formative assessment in real classroom settings. This gap between research benchmarks and educational practice limits the development of truly effective AES systems.

The DREsS dataset proposed by Yoo et al. directly addresses this critical bottleneck. It is a large-scale, multi-component resource designed to advance the development of next-generation, rubric-based AES models. The significance of DREsS lies in its combination ofauthentic classroom data、Standardized existing benchmarksas well as a noveldata augmentation strategy, laying a comprehensive foundation for research and application.

2. Seti ya Data ya DREsS

DREsS is constructed as a three-part dataset, with each part playing a unique role in advancing rubric-based AES.

Total number of samples

48.9K

Insha halisi ya darasani

2,279

Sampuli za sintetiki

40.1K

Uboreshaji wa utendaji

+45.44%

2.1 DREsS_New: Data Halisi ya Darasani

This is the cornerstone of DREsS, containing2,279 essayscomposed by EFL undergraduates in authentic classroom settings. Each essay has been scored by English education experts according to three key scoring rubrics:

Content: Relevance, development, and depth of ideas.
Organization: Muundo wa Kimantiki, Uunganishaji na Mgawanyiko wa Aya.
Lugha: Sarufi, Msamiati na Viwango vya Lugha.

Data hii iliyotiwa alama na wataalamu, iliyokusudiwa kipimo maalum, inatoa kiwango cha dhahabu cha kufundisha mifano iliyoweza kuelewa viwango vya tathmini ya kufundisha (badala ya kutambua tu muundo rahisi wa sifa za maandishi).

2.2 DREsS_Std.: Kigezo cha Kawaida

Ili kuhakikisha kulinganishwa na kupanua matumizi, waandishi walichakata viwango vya data kadhaa zilizopo za AES chini ya mfumo wa kipimo cha tathmini ulio umoja. Mchakato huu ulihusisha kurekebisha alama kupia ushauri wa kitaalamu, na kulinganisha viwango vya tathmini na vipimo vitatu vya msingi. DREsS_Std. inatoaSampuli 6,515 zilizosanifishwa, na kuunda kigezo thabiti na kilichopanuliwa cha mafunzo na tathmini ya mifano.

2.3 DREsS_CASE: Uimarishaji wa Data ya Uundaji

To address the long-standing issue of limited training data in specialized domains, the authors proposeCASE. CASE intelligently generates synthetic essay samples by applying rubric-specific "damage" operations to existing essays. For example:

Content: Introducing irrelevant sentences or weakening arguments.
Organization: Disrupting paragraph order or logical flow.
Lugha: Injecting grammatical errors or inappropriate vocabulary.

This strategy generated40,185 synthetic samples, imeongeza kwa kiasi kikubwa ukubwa na utofauti wa seti ya data. Muhimu zaidi, majaribio yalionyesha kuwa kutumia DREsS_CASE kwa mafunzo, iliboresha utendaji wa mfano wa msingi kwa45.44%, hii inathibitisha ufanisi wa mkakati huu wa kuongeza data unaolenga na unaotokana na falsafa ya kufundisha.

3. Technical Framework and Methodology

3.1 Standardization of Scoring Rubrics

Kuunganisha seti tofauti za data kunahitaji mchakato wa kina wa uchoraji ramani na usawa. Alama za seti asilia za data zilibadilishwa, ili zilingane na mizani ya alama iliyofafanuliwa kwa maudhui, muundo wa usanifu, na lugha. Hii inahakikisha kuwa "alama 4" ya "Muundo wa Usanifu" ina maana sawa katika sampuli zote za DREsS_Std., na hivyo kuwezesha mafunzo thabiti ya mfano kuvuka seti za data.

3.2 CASE Data Augmentation Strategy

CASE inafanya kazi kama injini ya "kuharibu" inayoongozwa na kanuni au mfano. Inapokea insha iliyoandikwa vizuri na kutumia vitendo vilivyodhibitiwa vya kupunguza kiwango kulingana na kanuni za upimaji lengwa. Uvumbuzi wake muhimu ni kwamba "uharibifu" huu sio kelele za nasibu, bali unalenga kuiga makosa yanayofanywa mara kwa mara na wanafunzi wa EFL, na kufanya data iliyoimarishwa kuwa ya kweli zaidi kielimu na yenye thamani zaidi kwa ujifunzaji wa mfano.

4. Experimental Results and Analysis

Karatasi ya utafiti inaripoti kwamba mfano uliofunzwa kwenye seti ya data ya DREsS iliyoimarishwa (hasa ukilitumia DREsS_CASE) uliboresha utendaji ikilinganishwa na mfano wa msingi uliofunzwa kwenye data asili isiyoimarishwa tu.45.44%. Matokeo haya yanasitisha mambo mawili muhimu:

Ubora wa Data na Uhusiano: Data iliyowekwa alama na wataalamu na kusawazishwa na kanuni za upimaji katika DREsS_New, inatoa ishara bora zaidi ya kujifunza kuliko jozi za jumla za insha-na-uhakiki.
Ufanisi wa Mkakati wa Uimarishaji: Mkakati wa CASE una ufanisi mkubwa. Tofauti na mbinu za jumla za uimarishaji wa maandishi, vitendo vya "kuharibu" vya CASE vinazolenga kanuni maalum za upimaji vinakidhi moja kwa moja hitaji la mfano kujifunza mipaka kati ya viwango tofauti vya alama chini ya kila kigezo cha upimaji. Hii inafanana na kanuni kwamba mafunzo ya kupinga yanaweza kuimarisha uthabiti wa mfano.

Uboreshaji wa utendaji unathibitisha dhana ya msingi: kuongeza idadi na upekee wa data ya mafunzo kupitia mbinu inayotokana na falsafa ya kufundisha ni leveri yenye nguu ya kuongeza usahihi wa mfano wa AES.

5. Core Insights and Implications

Kufunga Tafiti na Utendaji: DREsS inaelekeza mwelekeo kutoka kwenye viwango vya jumla vya upimaji hadi kwenye tathmini inayotegemea rubani ya upimaji, ambayo ni utaratibu wa kawaida katika madarasa halisi ya EFL.
Uwekaji Lebo na Wataalamu Hauna Mbadala: Ubora wa DREsS_New unaonyesha kuwa, kwa kazi za NLP katika uwanja wa elimu, uwekaji lebo na wataalamu wa uwanja huo ni muhimu sana kwa kujenga miundo inayoaminika na inayolingana na kanuni za kielimu.
Uboreshaji wa Akili Unafaa Zaidi Kuliko Kukusanya Data: Mafanikio ya CASE yanathibitisha kuwa kuzalishaKuhusiana na kufundishaData ya sintetiki ina thamani zaidi kuliko tu kukamata insha zaidi kutoka kwenye mtandao.
Kuweka msingi wa AES inayoweza kufafanuliwa: Kwa kufunza mifano kutabiri alama za mizani maalumu ya upimaji, DREsS inaendeleza ukuzaji wa mifumo ya AES inayoweza kutoa maoni ya kina na yanayoweza kutekelezeka, badala ya kutoa alama ya mwisho tu.

6. Original Analysis: Core Insights, Logical Thread, Strengths and Weaknesses, Actionable Recommendations

Ufahamu wa msingi: Karatasi ya DREsS sio tu utoaji wa seti ya data; ni juhudi iliyokusudiwa kurekebisha upya trajectory nzima ya utafiti wa AES kuelekeaUtumizi wa kufundishiana siyoUtendaji wa MsingiUingiliaji wa Kimkakati. Waandishi wanasema kwa usahihi kuwa ukwamaji katika uwanja huu unatokana na kutolingana kwa data ya kufundisha mifano na mahitaji ya matumizi halisi ya ulimwenguni. Suluhisho lao limegawanyika kwa ustadi katika sehemu tatu: kutoa data halisi ya kiwango cha dhahabu, kuunganisha hali ya machafuko iliyopo, na kubuni njia inayoweza kupanuliwa ili kushinda uhaba wa data. Hii inaakisi njia iliyochukuliwa na seti za data za msingi za kompyuta ya kuona, lakini inaongeza mabadiliko muhimu ya uimarishaji wa data maalum ya uwanja.

Mfumo wa Mantiki: Hoja ni ya kulazimisha na yenye muundo mzuri. Inaanza kwa kutambua tatizo: Mifano ya AES haifai kivitendo katika madarasa halisi ya EFL kwa sababu ya ubora duni wa data. Kisha inatoa suluhisho lenye mikakati mitatu na inatoa ushahidi wa ufanisi wake. Mchakato kutoka kwa utambuzi wa tatizo hadi usanifu wa suluhisho na kuthibitishwa ni laini. Ujumuishaji wa kazi zinazohusiana huweka DREsS kwa ufanisi kama msingi muhimu wa kazi ya baadaye.

Nguvu na Udhaifu: Nguvu kuu iko katikaDhana ya Usanifu wa Jumla. DREsS sio tu kutupa data; inatoa mfumo mzima wa ikolojia. Mkakati wa kuimarisha CASE hasa ni mjanja. Upungufu unaowezekana niUpeo mdogo wa tathmini ya mfano. Zaidi ya hayo, karatasi inadokeza lakini haichunguzi vya kutosha alama zinazotokana na mizani ya uhakiki katikaUwezo wa kuelezeka。

Mapendekezo yanayoweza kutekelezwa: Kwa watafiti, maagizo yana wazi: acha kutumia alama za jumla tu kwa mafunzo. DREsS inapaswa kuwa kigezo kipya cha kiwango. Kwa kampuni za teknolojia ya elimu, ufunuo niWekeza katika mchakato wa uwekaji alama na wataalamuKwa walimu, kazi hii inatangazia usambazaji wa mrejesho wa kina na muhimu unaokuja. Wanapaswa kushirikiana na jamii ya watafiti ili kuhakikisha kuwa zana hizi zinabuniwa kwa njia ambazo zinasaidia kufundisha, si kuzibadilisha.

7. Technical Details and Mathematical Formulas

Ingawa PDF haionyeshi muundo wazi wa mtandao wa neva, mchango wake mkuu wa kiufundi upo katika mbinu za ujenzi na uimarishaji wa data. Mkakati wa CASE unaweza kufasiriwa kama kitendakazi kinachotumika kwa insha asili $E$ ili kutoa toleo la "kuharibika" $E'$ linalolenga kipimo cha upimaji lengwa $R \in \{maudhui, muundo, lugha\}$.

$E' = C_R(E, \theta_R)$

Ambapo $C_R$ ni kitendakazi cha "kuharibika" kinacholenga kipimo cha upimaji $R$, na $\theta_R$ kinawakilisha vigezo vinavyodhibiti aina na ukali wa "kuharibika". Lengo ni kutoa jozi $(E', s_R')$, ambapo alama mpya $s_R'$ ya kipimo cha upimaji $R$ ni chini ya alama asili $s_R$, huku alama za vipimo vingine vya upimaji vikibaki vilevile. Hii inaunda ishara tajiri ya mafunzo kwa modeli, ikionyesha jinsi uboreshaji maalum unavyoathiri alama maalum.

Mchakato wa kusanifisha wa DREsS_Std. unahusisha kitendakazi cha mabadiliko ya mstari au ramani, kinachotumika kubadilisha alama $x$ kutoka kwa anuwai $[a, b]$ ya seti ya data asilia hadi anuwai $[c, d]$ ya kipimo cha upimaji cha DREsS:

$x' = c + \frac{(x - a)(d - c)}{b - a}$

Kisha, ukaguzi wa wataalamu unafanywa ili kuhakikisha kuwa alama zilizobadilishwa zinabaki na maana ya kielimu kwenye kiwango kimoja.

8. Analytical Framework: Example Case Study

Tukio: Kampuni ya mwanzo ya teknolojia ya elimu inataka kujenga mfumo wa AES ili kutoa maoni ya kina kwa insha za mazoezi ya kazi ya 2 ya IELTS za wanafunzi.

Mfumo wa kutumia Kanuni za DREsS:

Upataji wa Data: Kufanya ushirikiano na shule za lugha, kukusanya insha za IELTS 5000+ zilizoandikwa na wanafunzi. Muhimu ni kuwaleteaWatahiniwa wengiwakaguzi wa IELTS walioidhinishwa kufanya ukaguzi wa kila insha kulingana na viwango rasmi vya ukaguzi wa IELTS. Hii iliumba seti ya data ya hali ya juu, iliyohukumiwa.
Ujumuishaji wa kiwango cha kumbukumbu: Kutambua na kuweka kiwango cha data yoyote ya insha zinazopatikana hadharani inayohusiana na uandishi wa insha za mabishano au mitihani ya kiwango. Kurekebisha alama ili zilingane na vielelezo vya alama za IELTS.
Uimarishaji wa data: Kuendeleza moduli ya "CASE-for-IELTS". Kwa "Ujibu wa Kazi", uharibifu unaweza kuhusisha kufanya msimamo wa makala upotee kidogo. Kwa "Mshikamano na Muunganisho", kuharibu misemo ya mpito. Hii ilizalisha mifano ya mazoezi ya ziada ya mamia ya maelfu, ikifundisha mfano kutofautisha tofauti ndogo kati ya insha za alama tofauti.
Mafunzo na Tathmini ya Mfano: Mfano unafunzwa kutabiri alama za vigezo vinne vya uhakiki vilivyojitenga. Tathmini haitegemei tu usahihi wa alama, bali pia uwezo wa mfano kutoa maoni maalumu ambayo mhakiki angeyatoa na yanayolingana na vigezo vya uhakiki.

Uchunguzi huu wa kesi unaonyesha jinsi mfumo wa DREsS unavyotoa mwongozo wa kuunda zana za tathmini zenye matumizi halisi na zenye hatari kubwa.

9. Future Applications and Research Directions

Uzinduzi wa DREsS umefungua mwelekeo kadhaa mazuri:

Uzalishaji wa Maoni ya Kibinafsi: Hatua ya mantiki inayofuata ni kutumia utabiri wa alama unaozingatia vigezo vya uhakiki kuendesha maoni ya kiotomatiki na ya kibinafsi kuhusu uandishi.
AES ya Lugha Nyingi na Njia Nyingi: Je, mfumo unaozingatia vigezo vya uhakiki unaweza kutumika kwa uhakiki wa kiotomatiki katika lugha zingine? Zaidi ya hayo, kwa kuongezeka kwa mifano mikubwa ya lugha ya njia nyingi, mifumo ya baadaye inaweza kutathmini insha zinazojumuisha chati au kurejelea nyenzo za sauti na video.
Ujumuishaji na Mifumo ya Ufundishaji ya Akili: Mfumo wa AES unaotegemea DREsS unaweza kuwa kiini cha ITS ya uandishi.
Ugunduzi wa Upendeleo na Usawa: Mbinu zinazotegemea kanuni za upimaji hurahisisha ukaguzi wa upendeleo katika mifumo ya AES.
Akili Bandia Inayoweza Kufafanuliwa Katika Elimu: DREsS inahimiza uundaji wa miundo ambayo maamuzi ya upimaji yanaweza kufafanuliwa. Kazi ya baadaye inaweza kuhusisha kuonyesha sentensi au maneno mahususi yanayochangia zaidi kwa alama za chini.

10. References

Yoo, H., Han, J., Ahn, S., & Oh, A. (2025). DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing. arXiv preprint arXiv:2402.16733v3.
Goodfellow, I. J., Shlens, J., & Szegedy, C. (2015). Explaining and Harnessing Adversarial Examples. International Conference on Learning Representations (ICLR).
Deng, J., Dong, W., Socher, R., Li, L., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Attali, Y., & Burstein, J. (2006). Automated essay scoring with e-rater® V.2. The Journal of Technology, Learning and Assessment, 4(3).
Page, E. B. (1966). The imminence of grading essays by computer. The Phi Delta Kappan, 47(5), 238-243.
Buolamwini, J., & Gebru, T. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. Proceedings of the 1st Conference on Fairness, Accountability and Transparency (FAT*).
Educational Testing Service (ETS). (2023). Research on Automated Scoring. Retrieved from https://www.ets.org/ai-research.