DREsS: Seti Kamili ya Takwimu ya Usakinishaji Otomatiki wa Insha Kulingana na Rubriki katika Elimu ya Kigeni ya Kiingereza (EFL)

1. Utangulizi na Muhtasari

Usakinishaji Otomatiki wa Insha (AES) umekuwa zana muhimu katika elimu ya Kiingereza kama Lugha ya Kigeni (EFL), ukiwaahidi wanafunzi maoni ya papo hapo na tathmini inayoweza kuongezeka. Hata hivyo, matumizi yake ya vitendo yamezuiliwa na kikwazo muhimu: ukosefu wa data ya mafunzo yenye ubora wa juu na inayohusiana na ufundishaji. Seti nyingi za takwimu zilizopo, kama vile seti ya ASAP inayotumika sana, hutoa tu alama za jumla au zimewekewa alama na wasio wataalam, na kushindwa kukamata tathmini ya kina na yenye vipengele vingi vinavyohitajika katika mazingira halisi ya darasani. Pengo hili kati ya viwango vya utafiti na mazoezi ya kielimu hupunguza ukuaji wa mifumo ya AES yenye ufanisi kweli.

Makala hii inatangaza DREsS (Seti ya Takwimu ya Usakinishaji wa Insha Kulingana na Rubriki kwenye Uandishi wa EFL), rasilimali kamili iliyoundwa kujaza pengo hili. DREsS inashughulikia mapungufu makuu ya kazi za awali kwa kutoa seti kubwa ya takwimu iliyowekewa alama na wataalamu na inayolingana na rubriki, iliyoundwa mahsusi kwa mazingira ya EFL.

Jumla ya Sampuli

48.9K

Insha Halisi za Darasani

2,279

Faida ya Utendaji

+45.44%

kwa kuongeza data ya CASE

2. Seti ya Takwimu ya DREsS

DREsS imepangwa kama seti ya takwimu yenye sehemu tatu, kila sehemu ikitumika kusudi tofauti katika kujenga mifumo thabiti ya AES.

2.1 DREsS New: Data Halisi ya Darasani

Msingi wa DREsS ni DREsS New, unaojumuisha insha 2,279 zilizoandikwa na wanafunzi wa shahada ya kwanza wa EFL. Insha hizi zilisakinishwa na wataalamu wa elimu ya Kiingereza kwa kutumia rubriki thabiti yenye vipengele vitatu:

Maudhui: Uhusiano, ukuaji, na kina cha mawazo.
Mpangilio: Muundo wa kimantiki, mwungano, na upangaji wa aya.
Lugha: Sarufi, msamiati, na usahihi wa lugha.

Seti hii ya takwimu hutoa kiwango cha dhahabu cha kufundisha na kutathmini mifumo, ikionyesha makosa halisi ya wanafunzi na mazoea ya wataalamu ya kusakinisha.

2.2 DREsS Std.: Viwango Sanifu vya Kulinganisha

Ili kuhakikisha kulinganishwa na kupanua hifadhi ya data, waandishi waliunda DREsS Std. kwa kuunganisha na kusanifisha seti kadhaa za takwimu za AES zilizopo hadharani (ASAP P7, P8; ASAP++ P1, P2; ICNALE EE). Hii ilihusisha kuweka alama zao za awali, ambazo mara nyingi hazikuwa thabiti, kwenye mfumo wa kusanifishwa wa Maudhui, Mpangilio, na Lugha. DREsS Std. inaongeza sampuli 6,515 zilizosanifishwa, ikitoa daraja la thamani kati ya utafiti wa awali na mfano mpya wa kusakinisha kulingana na rubriki.

2.3 DREsS CASE: Kuongeza Data Bandia

Uvumbuzi mkuu ni DREsS CASE (Mkakati wa Kuongeza Data wa Insha Kulingana na Uharibifu), seti ya takwimu iliyotengenezwa bandia yenye sampuli 40,185. CASE hutumia mikakati maalum ya uharibifu kulingana na rubriki kuunda toleo la insha lenye "ubora wa chini" linaloweza kutokea kutoka kwa data iliyopo, na hivyo kupanua anuwai na upeo wa ugumu wa seti ya mafunzo. Kwa mfano, inaweza kuanzisha mantiki potofu (kuharibu Maudhui) au kuvuruga misemo ya mpito (kuharibu Mpangilio). Njia hii ilisababisha uimarisho wa 45.44% katika utendaji wa mfano wa msingi, na kuonyesha nguvu ya kuongeza data kulenga.

3. Mfumo wa Kiufundi na Njia

3.1 Usanifishaji wa Rubriki

Kiini cha matumizi ya DREsS kiko katika mfumo wake thabiti wa rubriki tatu. Kusanifisha seti tofauti za takwimu kulihusisha mchakato wa kina wa ushauri wa wataalamu kuweka alama za awali (k.m., alama moja ya "mtindo") kwenye vipimo vya Maudhui, Mpangilio, na Lugha. Hii huunda lugha ya kawaida ya tathmini kwa mifumo ya AES, ikipita zaidi ya alama za jumla kama zile zilizoko katika seti ya awali ya ASAP (Maswali 1-6).

3.2 Mkakati wa Kuongeza Data wa CASE

Njia ya CASE ni injini ya uharibifu inayotegemea kanuni. Kwa kila kipimo cha rubriki, kanuni maalum za mabadiliko hutumika kwa insha za awali ili kuzalisha insha zenye alama za chini. Kihisabati, ikiwa insha ya awali $E$ ina vekta ya alama $S = (s_c, s_o, s_l)$ kwa maudhui, mpangilio, na lugha, CASE huzalisha insha iliyoharibiwa $E'$ yenye vekta ya lengo la alama za chini $S' = (s'_c, s'_o, s'_l)$, ambapo $s'_i \leq s_i$. Kazi za uharibifu $f_i$ ni maalum kwa kila kipimo:

Maudhui: $f_c(E)$ inaweza kubadilisha hoja muhimu na kauli zisizohusika au zinazopingana.
Mpangilio: $f_o(E)$ inaweza kubadilisha mpangilio wa aya kwa nasibu au kuondoa viunganishi.
Lugha: $f_l(E)$ inaweza kuanzisha makosa ya sarufi au uchaguzi usiofaa wa maneno.

Uharibifu huu unaodhibitiwa huunda anuwai ya ubora wa insha, na kuwezesha mifumo kujifunza uwakilishi thabiti zaidi wa sifa za kusakinisha.

4. Matokeo ya Majaribio na Utendaji

Makala hii inaweka viwango vya msingi vikali kwa kutumia mifumo ya urejeshaji (k.m., Vikokotozi vya Vekta ya Usaidizi) na miundo ya neva (k.m., LSTM, mifumo ya msingi ya BERT) iliyofunzwa kwenye vipengele vya DREsS. Matokeo muhimu ni pamoja na:

Mifumo iliyofunzwa kwenye DREsS New pekee (data halisi) ilionyesha usahihi wa juu kwenye seti hiyo ya majaribio lakini uwezo mdogo wa kutumika kwa maswali mengine, na kuonyesha hitaji la data anuwai.
Kujumuisha DREsS Std. kuliboresha uthabiti wa kuvuka maswali kwa kuonyesha mifumo anuwai ya mitindo na mada za uandishi.
Kujumuisha DREsS CASE kulitoa msaada mkubwa zaidi, na kupunguza kosa la mraba la wastani (MSE) kwa 45.44% ikilinganishwa na kiwango cha msingi kilichofunzwa kwenye data halisi pekee. Hii inasisitiza thamani ya data bandia katika kufundisha mifumo kutambua tofauti za hali ya juu za ubora, hasa kwa anuwai za alama za chini ambazo zinaweza kuwakilishwa kidogo katika mkusanyiko wa insha zilizoandikwa na binadamu.

Ufafanuzi wa Takwimu na Jedwali: Jedwali la takwimu lililotolewa (Jedwali 1 kwenye PDF) linaonyesha wazi muundo na ukubwa wa DREsS. Chati ya mipango (Takwimu 1) inaonyesha wazi mchakato wa ujenzi wa vipengele vitatu, na kusisitiza kuwa CASE huzalisha kiasi kikubwa zaidi cha data, ambacho kinalenga kimkakati rubriki ya Mpangilio (sampuli 31,086), labda kwa sababu kasoro za kimuundo ni za kawaida katika uandishi wa EFL na zinaweza kuigwa kwa kanuni.

5. Mfumo wa Uchambuzi na Utafiti wa Kesi

Mfumo wa Kutathmini Seti za Takwimu za AES: Wakati wa kutathmini seti mpya ya takwimu za AES kama DREsS, watafiti na watendaji wanapaswa kuchunguza nguzo nne: Uhalali wa Kifundishaji (alama za wataalamu, rubriki zinazohusika), Matumizi ya Kiufundi (ukubwa, uthabiti, ufafanuzi wa kazi), Masuala ya Kimaadili na Kivitendo (asili ya data, upendeleo, leseni), na Uvumbuzi (njia mpya kama CASE).

Utafiti wa Kesi: Kutumia Mfumo huu kwa DREsS

Uhalali wa Kifundishaji: Wa Juu. DREsS New imetokana na madarasa halisi ya EFL na kusakinishwa na wataalamu kwa kutumia rubriki sanifu yenye vipengele vitatu, na kufanana moja kwa moja na malengo ya kufundisha.
Matumizi ya Kiufundi: Wa Juu. Kwa sampuli ~49K na rubriki zilizosanifishwa, ni kubwa na thabiti vya kutosha kufundisha mifumo ya kisasa ya NLP. Mgawanyiko wazi katika kazi tatu za kusakinisha huwezesha ukuaji wa kina zaidi wa mifumo.
Masuala ya Kimaadili na Kivitendo: Wa Wastani hadi wa Juu. Data halisi ya wanafunzi imepatikana kimaadili, na seti ya takwimu inapatikana hadharani, na kuhamasisha uwezekano wa kurudiwa. Kikwazo kinachowezekana ni kuzingatia idadi maalum ya wanafunzi (wanafunzi wa shahada ya kwanza wa Korea), ambayo inaweza kuathiri uwezo wa kutumika kwa jumla.
Uvumbuzi: Wa Juu. Mkakati wa kuongeza data wa CASE ni mchango mpya na wenye ufanisi unaoonekana katika uwanja wa kuongeza data ya kielimu.

Mfumo huu unathibitisha DREsS kama rasilimali yenye ubora wa juu na ya uvumbuzi, inayoendeleza uwanja huu kwa kiasi kikubwa.

6. Uchambuzi Muhimu na Mtazamo wa Sekta

Uelewa wa Msingi: DREsS sio seti nyingine tu ya takwimu; ni ushirikiano wa kimkakati unaoweka upya utafiti wa AES kwenye matumizi ya kifundishaji badala ya utendaji wa kulinganisha. Kwa kukipa kipaumbele kusakinisha kulingana na rubriki kutoka kwa wataalamu, waandishi wanamlazimisha jamii ya NLP kujenga mifumo ambayo walimu wangeweza kuiamini kweli. Mabadiliko haya yanafanana na mwelekeo mpana zaidi wa AI kuelekea mifumo inayolingana na binadamu na maalum kwa uwanja, kama inavyoonekana katika juhudi za kufanya mifumo iweze kufafanuliwa na kuwa ya haki zaidi.

Mtiririko wa Kimantiki na Uwekaji wa Kimkakati: Mantiki ya makala hii ni kamili. Inaanza kwa kutambua tatizo la uwanja huu (ukosefu wa data ya vitendo, inayotegemea rubriki), inapendekeza dawa yenye sehemu tatu (New, Std., CASE), na inatoa ushahidi mkubwa wa ufanisi (faida ya 45.44%). Kujumuisha DREsS Std. ni busara hasa—haikatai kazi za awali lakini inaichukua na kuisanifisha, na kuhakikisha umuhimu wa papo hapo na kurahisisha kupitishwa na watafiti wanaofahamu ASAP. Hii huunda njia laini ya kuboresha kwa mfumo mzima wa utafiti.

Nguvu na Kasoro: Nguvu kuu ni suluhisho kamili: data halisi, data sanifu ya zamani, na data bandia ya uvumbuzi. Njia ya CASE, ingawa rahisi, ni yenye ufanisi mkubwa na inaweza kufafanuliwa—sifa nzuri ikilinganishwa na kuongeza data ya "sanduku jeusi" ya AI inayozalisha. Kasoro kuu, hata hivyo, ni ya upeo. Utendaji wa mfumo na kuongeza data ya CASE vimeunganishwa kwa karibu na mfumo wa rubriki tatu uliochaguliwa. Vipi kuhusu ubunifu, nguvu ya hoja, au uandishi maalum wa taaluma (k.m., ripoti za kisayansi)? Kama ilivyosisitizwa na Baraza la Kitaifa la Walimu wa Kiingereza, tathmini ya uandishi ina vipengele vingi. DREsS inatatua kipande kimoja muhimu lakini inaweza kwa bahati mbaya kuimarisha mtazamo mwembamba wa ubora wa uandishi ikiwa itapitishwa bila kuchambuliwa.

Ufahamu Unaoweza Kutekelezwa: Kwa kampuni za EdTech, huu ni mfano wa kujenga. Kuwekeza katika uundaji wa seti zinazofanana za takwimu zilizowekewa alama na wataalamu na maalum kwa rubriki kwa lugha au masomo mengine (k.m., kazi za kuandika kodi, uandishi wa kisheria) kunaweza kuwa faida kubwa. Kwa watafiti, agizo ni wazi: acha kurekebisha kwenye alama za jumla za ASAP. Tumia DREsS kama kiwango kipya cha msingi. Zaidi ya hayo, chunguza kupanua mfano wa CASE—je, mifumo sawa ya uharibifu inaweza kujifunza moja kwa moja kupitia mbinu za kupingana, kama ilivyochunguzwa katika maeneo mengine ya kujifunza kwa mashine? Uimarisho wa 45.44% ni kiwango cha chini, sio cha juu.

7. Matumizi ya Baadaye na Mwelekeo wa Utafiti

DREsS inafungua njia kadhaa zenye matumaini ya kazi ya baadaye:

Uzalishaji wa Maoni ya Kibinafsi: Mifumo iliyofunzwa kwenye DREsS inaweza kupanuliwa zaidi ya kusakinisha hadi kuzalisha maoni maalum, yanayolingana na rubriki (k.m., "Hoja yako katika aya ya pili haina ushahidi unaoitegemeza" kwa Maudhui).
Uhamishaji wa Kuvuka Lugha: Kuchunguza ikiwa mifumo iliyofunzwa kwenye DREsS inaweza kubadilishwa ili kusakinisha insha kutoka kwa wanafunzi wenye lugha ya kwanza tofauti, kwa uwezekano wa kutumia mbinu kutoka kwa NLP ya lugha nyingi.
Ujumuishaji na Mifumo ya Kufundisha Yenye Akili (ITS): Kuweka mifumo ya AES iliyofunzwa kwenye DREsS ndani ya ITS ili kutoa tathmini ya papo hapo na ya malezi wakati wa mchakato wa uandishi, sio alama ya mwisho tu.
Kuchunguza Kuongeza Data ya Hali ya Juu: Kuendelea zaidi ya uharibifu unaotegemea kanuni (CASE) hadi kutumia mifumo kubwa ya lugha (LLMs) kwa uzalishaji wa kina zaidi, unaoelewa muktadha, wa tofauti za insha katika viwango tofauti vya ubora, huku ukidhibiti upendeleo kwa makini.
Kupanua Seti ya Rubriki: Kushirikiana na wataalamu wa tathmini kufafanua na kukusanya data kwa rubriki za ziada, kama vile Ufahamu wa Watazamaji au Ufanisi wa Kimatamshi, na kuunda seti za takwimu kamili zaidi.

8. Marejeo

Yoo, H., Han, J., Ahn, S., & Oh, A. (2025). DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing. arXiv preprint arXiv:2402.16733v3.
Shermis, M. D., & Burstein, J. (Eds.). (2013). Handbook of automated essay evaluation: Current applications and new directions. Routledge. (Muhtasari mkuu wa uwanja wa AES).
National Council of Teachers of English (NCTE). (2022). Position Statement on Machine Scoring and Assessment of Student Writing. (Inasisitiza masuala ya kimaadili na kifundishaji kwa AES ya jumla).
Taghipour, K., & Ng, H. T. (2016). A Neural Approach to Automated Essay Scoring. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Mfano wa kiwango cha msingi cha neva kwa AES ya jumla).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (Makala yenye ushawishi juu ya tafsiri ya picha bila jozi, inayofanana kimawazo na changamoto ya kuongeza data katika AES).
Kaggle. (2012). The Hewlett Foundation: Automated Essay Scoring. ASAP Dataset. (Chanzo cha kiwango cha ASAP kinachotumika sana).