Ulinganisho wa Utendaji wa Miundo Mikubwa ya Lugha kwenye Seti ya Data ya Kiingereza ya VNHSGE: OpenAI ChatGPT, Microsoft Bing Chat, na Google Bard

Jedwali la Yaliyomo

1. Utangulizi
2. Kazi Zinazohusiana
- 2.1 Miundo Mikubwa ya Lugha
- 2.2 Matumizi ya Kielimu ya Miundo Mikubwa ya Lugha
3. Mbinu
4. Matokeo
- 4.1 Utendaji wa Jumla
- 4.2 Ulinganisho na Utendaji wa Binadamu
5. Majadiliano
- 5.1 Athari kwa Elimu ya Kiingereza
- 5.2 Mapungufu na Kazi za Baadaye
6. Hitimisho
7. Uchambuzi wa Asili
8. Maelezo ya Kiufundi na Uundaji wa Hisabati
9. Matokeo ya Majaribio na Maelezo ya Chati
10. Mfano wa Mfumo wa Uchambuzi
11. Matumizi na Mwelekeo wa Baadaye
12. Marejeleo

1. Utangulizi

Akili Bandia (AI) imeleta mapinduzi katika elimu kwa kubadilisha mbinu za kujifunza na kufundisha. Miundo Mikubwa ya Lugha (LLMs) kama vile OpenAI ChatGPT, Microsoft Bing Chat (BingChat), na Google Bard inawakilisha maendeleo makubwa katika uwanja huu. Karatasi hii inatathmini utendaji wao kwenye seti ya data ya Kiingereza ya Mtihani wa Kufuzu wa Shule za Upili Vietnam (VNHSGE), ikishughulikia maswali matatu ya utafiti: (1) Utendaji wa ChatGPT, BingChat, na Bard kwenye seti ya data ya Kiingereza ya VNHSGE ni upi? (2) Je, LLMs hizi zinalinganishwaje na wanafunzi wa Vietnam katika ustadi wa Kiingereza? (3) Je, LLMs zina uwezo gani kwa ajili ya kufundisha na kujifunza lugha ya Kiingereza nchini Vietnam?

2. Kazi Zinazohusiana

2.1 Miundo Mikubwa ya Lugha

Maendeleo ya hivi karibuni katika LLMs, hasa usanifu wa BERT na GPT, yamewezesha mawasiliano kama ya binadamu. Miundo hii inafunzwa kwenye makusanyo makubwa ya maandishi na kusawazishwa kwa kazi maalum, ikionyesha uwezo katika elimu, utengenezaji wa maudhui, na tafsiri.

2.2 Matumizi ya Kielimu ya Miundo Mikubwa ya Lugha

LLMs zimetumika katika wasaidizi pepe, chatbots, na mifumo ya kujifunza mtandaoni. Tafiti za Kasneci et al. (2023) na Kung et al. (2023) zinaangazia uwezo wao wa kujifunza kwa mtu binafsi, ingawa tathmini makini inahitajika kwa miktadha tofauti ya kielimu.

3. Mbinu

3.1 Seti ya Data

Seti ya data ya Kiingereza ya VNHSGE inajumuisha maswali ya chaguo-nyingi yanayojumuisha sarufi, msamiati, ufahamu wa kusoma, na ujuzi wa uandishi, iliyoundwa kwa ajili ya tathmini ya kiwango cha shule ya upili nchini Vietnam.

3.2 Vipimo vya Tathmini

Utendaji hupimwa kwa kutumia usahihi (asilimia ya majibu sahihi). Miundo inatathminiwa kwenye seti sawa ya maswali ili kuhakikisha ulinganisho wa haki.

3.3 Mpangilio wa Majaribio

Kila mfano (ChatGPT GPT-3.5, BingChat, na Google Bard) ulijaribiwa kwenye seti ya data chini ya hali zilizodhibitiwa. Majibu yalirekodiwa na kuwekewa alama kwa mujibu wa ufunguo rasmi wa majibu.

4. Matokeo

4.1 Utendaji wa Jumla

BingChat ilipata usahihi wa juu zaidi kwa 92.4%, ikifuatiwa na Bard kwa 86%, na ChatGPT kwa 79.2%. Matokeo haya yanaonyesha tofauti kubwa katika utendaji wa LLM kwenye kazi moja.

4.2 Ulinganisho na Utendaji wa Binadamu

LLMs zote tatu zilizidi wastani wa mwanafunzi wa shule ya upili Vietnam katika ustadi wa Kiingereza, ikionyesha uwezo wao kama zana za ziada za kielimu.

5. Majadiliano

5.1 Athari kwa Elimu ya Kiingereza

Utendaji bora wa BingChat na Bard unaonyesha kuwa zinaweza kutumika kama njia mbadala madhubuti za ChatGPT, haswa katika maeneo ambayo ChatGPT haipatikani rasmi. Miundo hii inaweza kusaidia kujisomea, kutoa maoni ya papo hapo, na kuongeza matokeo ya kujifunza.

5.2 Mapungufu na Kazi za Baadaye

Mapungufu ni pamoja na kuzingatia seti moja ya data na ukosefu wa uchambuzi wa ubora wa hoja za mfano. Kazi za baadaye zinapaswa kuchunguza seti pana za data, uwezo wa lugha nyingi, na ujumuishaji katika mazingira ya darasa.

6. Hitimisho

Utafiti huu unaonyesha kuwa BingChat, Bard, na ChatGPT zinawazidi wanafunzi wa Vietnam kwenye mtihani wa Kiingereza wa VNHSGE, huku BingChat ikiwa mbele. Matokeo haya yanaunga mkono ujumuishaji wa LLMs katika elimu ya lugha ya Kiingereza, ikitoa suluhisho za kujifunza zinazoweza kupanuliwa na kupatikana.

7. Uchambuzi wa Asili

Karatasi hii inatoa ulinganisho wa wakati unaofaa na wa vitendo wa LLMs tatu zinazoongoza kwenye mtihani sanifu wa Kiingereza, ikishughulikia pengo muhimu katika fasihi kuhusu utendaji wa LLM katika miktadha ya kielimu isiyo ya Kiingereza. Ugunduzi kwamba BingChat inawazidi ChatGPT na Bard ni wa kushangaza haswa, kwani unapinga dhana kwamba mfano maarufu zaidi (ChatGPT) ndio bora zaidi. Hii inalingana na utafiti mpana unaoonyesha kuwa utendaji wa mfano unaweza kutofautiana kwa kiasi kikubwa katika lugha na nyanja (Brown et al., 2020; Devlin et al., 2019). Mchango wa utafiti huu upo katika umuhimu wake wa moja kwa moja kwa waelimishaji na watunga sera wa Vietnam, ukitoa maarifa yanayoweza kutekelezeka kwa ajili ya kuunganisha LLMs katika mtaala. Hata hivyo, uchambuzi unaweza kuimarishwa kwa kuchunguza aina za makosa ambayo kila mfano hufanya, kwani hii ingetoa maarifa ya kina zaidi ya kielimu. Kwa mfano, je, makosa yanajikita katika sarufi, msamiati, au ufahamu wa kusoma? Uwazi kama huo ungesaidia kubinafsisha uingiliaji kati unaotegemea LLM. Zaidi ya hayo, utafiti haushughulikii upendeleo unaowezekana katika seti ya data au data ya mafunzo ya miundo, ambayo inaweza kuathiri uwezo wa kujumlisha. Licha ya mapungufu haya, karatasi inaonyesha kwa uthabiti kuwa LLMs zinaweza kutumika kama zana madhubuti za kujifunza lugha ya Kiingereza, haswa katika mazingira yenye uhaba wa rasilimali. Utafiti wa baadaye unapaswa kuchunguza tafiti za muda mrefu ili kutathmini athari za kujifunza kwa usaidizi wa LLM kwenye matokeo ya wanafunzi kwa wakati.

8. Maelezo ya Kiufundi na Uundaji wa Hisabati

Utendaji wa kila LLM unatathminiwa kwa kutumia usahihi, unaofafanuliwa kama:

$Accuracy = \frac{Idadi\ ya\ Majibu\ Sahihi}{Jumla\ ya\ Idadi\ ya\ Maswali} \times 100\%$

Kwa seti ya data yenye maswali $N$, usahihi $A$ wa mfano $M$ ni:

$A_M = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}(\hat{y}_i = y_i)$

ambapo $\hat{y}_i$ ni utabiri wa mfano na $y_i$ ni ukweli halisi wa swali $i$.

9. Matokeo ya Majaribio na Maelezo ya Chati

Matokeo yanafupishwa katika chati ya pau inayolinganisha usahihi wa miundo mitatu. Mhimili wa x unawakilisha miundo (ChatGPT, Bard, BingChat), na mhimili wa y unawakilisha asilimia ya usahihi. Pau ya BingChat inafikia 92.4%, ya Bard 86%, na ya ChatGPT 79.2%. Mstari mlalo unaonyesha wastani wa utendaji wa binadamu (takriban 70%), ikionyesha miundo yote inazidi kiwango hiki.

10. Mfano wa Mfumo wa Uchambuzi

Fikiria swali la sampuli kutoka kwa seti ya data ya Kiingereza ya VNHSGE: "Chagua neno sahihi kukamilisha sentensi: Yeye ___ shuleni kila siku." Chaguo: A) go, B) goes, C) going, D) gone. Jibu sahihi ni B) goes. Jibu la kila mfano linarekodiwa na kuwekewa alama. Mfano huu rahisi unaonyesha mchakato wa tathmini uliotumika kwa maswali yote kwenye seti ya data.

11. Matumizi na Mwelekeo wa Baadaye

LLMs zinaweza kuunganishwa katika elimu ya Kiingereza ya shule za upili Vietnam kupitia: (1) Mifumo ya ufundishaji inayoendeshwa na AI inayotoa maoni ya kibinafsi; (2) Ukadiriaji wa insha kiotomatiki na urekebishaji wa sarufi; (3) Wakala wa mazungumzo kwa ajili ya mazoezi ya kuzungumza; (4) Majukwaa ya kujifunza yanayobadilika ambayo hurekebisha ugumu kulingana na utendaji wa mwanafunzi. Mwelekeo wa baadaye ni pamoja na kuunda LLMs za lugha nyingi zilizoundwa kwa ajili ya miktadha ya Vietnam, kujumuisha nuances za kitamaduni, na kuhakikisha ufikiaji sawa wa teknolojia.

12. Marejeleo

Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
Dao, X.-Q., et al. (2023a). ChatGPT on the Vietnamese High School Graduation Examination. arXiv preprint.
Dao, X.-Q., et al. (2023b). ChatGPT on an English Test Case. arXiv preprint.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT, 4171-4186.
Kasneci, E., et al. (2023). ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education. PLOS Digital Health, 2(2), e0000198.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint.
Thorp, H. H. (2023). ChatGPT is Fun, But Not an Author. Science, 379(6630), 313-313.

Ufahamu wa Msingi, Mtiririko wa Mantiki, Nguvu na Udhaifu, Maarifa Yanayotekelezeka

Ufahamu wa Msingi: Karatasi hii ni ulinganisho wa vitendo unaoendeshwa na data ambao unavunja mawazo ya juu juu, ikionyesha kuwa 'bora' inategemea muktadha. Utawala wa BingChat kwenye mtihani wa Vietnam ni wito wa kuamka kwa wale wanaodhani ChatGPT ni bora kwa wote.

Mtiririko wa Mantiki: Karatasi inafuata njia wazi, ya mstari: taarifa ya tatizo (haja ya tathmini ya LLM nchini Vietnam), mbinu (mtihani sanifu), matokeo (BingChat > Bard > ChatGPT), na athari (LLMs kama zana za kielimu zinazowezekana). Mantiki ni sahihi lakini inakosa kina katika uchambuzi wa makosa.

Nguvu na Udhaifu: Nguvu ni pamoja na muundo wa majaribio unaolenga na unaoweza kurudiwa na umuhimu wa moja kwa moja kwa sera ya elimu ya Vietnam. Udhaifu ni pamoja na seti nyembamba ya data (mtihani mmoja), ukosefu wa uchambuzi wa ubora (kwa nini BingChat inashinda?), na hakuna majadiliano ya upendeleo wa mfano au uwakilishi wa seti ya data. Utafiti ni picha ya wakati mmoja muhimu lakini si tathmini kamili.

Maarifa Yanayotekelezeka: Kwa waelimishaji wa Vietnam: Jaribu BingChat na Bard darasani mara moja, ukizingatia mazoezi ya sarufi na msamiati. Kwa watafiti: Fanya uchambuzi wa makosa ili kutambua udhaifu maalum wa mfano. Kwa watunga sera: Wekeza katika maendeleo ya LLM za ndani zilizoundwa kwa ajili ya mtaala wa Vietnam. Jambo kuu: usiweke mayai yako yote kwenye kikapu kimoja cha LLM—badilisha na ujaribu ndani ya nchi.