Chagua Lugha

Ulinganisho wa Utendaji wa ChatGPT, Bing Chat, na Bard kwenye Seti ya Data ya Kiingereza ya VNHSGE

Uchambuzi wa kulinganisha utendaji wa OpenAI ChatGPT, Microsoft Bing Chat, na Google Bard kwenye seti ya data ya Kiingereza ya Mtihani wa Kumaliza Shule ya Upili nchini Vietnam.
learn-en.org | PDF Size: 0.1 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - Ulinganisho wa Utendaji wa ChatGPT, Bing Chat, na Bard kwenye Seti ya Data ya Kiingereza ya VNHSGE

1. Utangulizi

Makala hii inawasilisha ulinganisho wa utendaji wa mifano mitatu maarufu ya lugha kubwa (LLMs)—ChatGPT ya OpenAI (GPT-3.5), Bing Chat ya Microsoft, na Bard ya Google—kwenye seti ya data ya Kiingereza ya Mtihani wa Kumaliza Shule ya Upili nchini Vietnam (VNHSGE). Utafiti huu unalenga kutathmini uwezo wao katika muktadha maalum wa elimu ya Kiingereza ya shule za upili nchini Vietnam, hasa kwa kuwa ChatGPT haipatikani rasmi nchini humo. Utafiti unashughulikia maswali matatu muhimu kuhusu utendaji wa mifano, kulinganisha na wanafunzi binadamu, na matumizi yanayowezekana ya LLMs katika mazingira haya ya kielimu.

2. Kazi Zinazohusiana

Makala hii inajiweka ndani ya muktadha mpana wa kuunganishwa kwa AI katika elimu, ikionyesha uwezo wa kubadilisha wa LLMs kama vile miundo ya BERT na GPT.

2.1 Mifano ya Lugha Kubwa (LLMs)

LLMs, zinazotumia miundo ya transformer, zimeonyesha uwezo mkubwa katika matumizi ya kielimu, ikiwa ni pamoja na kujifunza kulingana na mtu binafsi, ukuzaji wa maudhui, na tafsiri ya lugha. Uwezo wao wa mazungumzo unaofanana na wa binadamu huwafanya wafae kwa wasaidizi wa kivitendo na mifumo ya msaada wa kujifunza mtandaoni.

3. Mbinu ya Utafiti

Mbinu kuu inahusisha kuwapa mifano hii mitatu ya LLMs seti ya data ya Kiingereza ya VNHSGE. Seti ya data inaweza kuwa na maswali ya mtihani sanifu yanayotathmini uwezo wa lugha ya Kiingereza katika kiwango cha shule ya upili. Utendaji hupimwa kwa usahihi wa majibu ya mifano ikilinganishwa na ufunguo rasmi wa majibu.

4. Matokeo ya Majaribio

Utendaji wa Bing Chat

92.4%

Usahihi kwenye Seti ya Data ya Kiingereza ya VNHSGE

Utendaji wa Google Bard

86.0%

Usahihi kwenye Seti ya Data ya Kiingereza ya VNHSGE

Utendaji wa ChatGPT (GPT-3.5)

79.2%

Usahihi kwenye Seti ya Data ya Kiingereza ya VNHSGE

Matokeo Muhimu:

  • Ratiba ya Utendaji: Microsoft Bing Chat (92.4%) ilifanya vizuri zaidi kuliko Google Bard (86%) na OpenAI ChatGPT (79.2%).
  • Matokeo ya Kivitendo: Bing Chat na Bard zinawasilishwa kama njia mbadala zinazoweza kutumika badala ya ChatGPT kwa elimu ya Kiingereza nchini Vietnam, ambapo upatikanaji wa ChatGPT umepunguzwa.
  • Ulinganisho na Binadamu: Mifano yote mitatu ya LLMs ilizidi utendaji wa wastani wa wanafunzi wa shule za upili nchini Vietnam kwenye mtihani huo huo wa uwezo wa Kiingereza, ikionyesha uwezo wao kama rasilimali bora za maarifa au misaada ya kufundisha.

Maelezo ya Chati: Chati ya mistari ingeweza kuonyesha vizuri safu hii ya utendaji, na mhimili-wa-y ukiwakilisha usahihi (%) na mhimili-wa-x ukiorodhesha LLMs hizo tatu. Mstari wa Bing Chat ungekuwa mrefu zaidi, ukifuatiwa na Bard, kisha ChatGPT. Mstari tofauti wa kiwango cha kulinganisha ungeweza kuonyesha alama ya wastani ya mwanafunzi wa Vietnam kwa kulinganisha moja kwa moja.

5. Majadiliano

Matokeo yanaonyesha uwezo mkubwa wa LLMs zinazopatikana kibiashara kama zana za elimu ya lugha ya Kiingereza. Utendaji bora wa Bing Chat unaweza kuhusishwa na ujumuishaji wake na injini ya utafutaji, ikimpa ufikiaji wa habari ya kisasa zaidi au maalum kwa muktadha. Ukweli kwamba mifano yote ilizidi wanafunzi binadamu unaangazia mabadiliko makubwa, ambapo AI inaweza kutumika sio tu kama msaidizi bali pia kama kiwango cha marejeo cha uwezo wa juu, kikichangia kufundisha kulingana na mtu binafsi na kutoa maoni ya papo hapo na sahihi.

6. Uchambuzi wa Asili & Maoni ya Wataalamu

Ufahamu Mkuu: Makala hii sio tu kiwango cha kulinganisha; ni ishara ya soko. Katika eneo (Vietnam) ambalo mfano mkuu (ChatGPT) umefungiwa, utafiti huo unatambua na kuthibitisha njia mbadala zinazofanya kazi (Bing Chat, Bard) mapema, na kuonyesha mbinu ya vitendo, inayolenga matumizi kwanza, ya kupitishwa kwa AI katika elimu. Ugunduzi kwamba LLMs zote zimezidi utendaji wa wastani wa wanafunzi sio hoja ya kitaaluma tu—ni nguvu ya kuvuruga, ikipendekeza kuwa jukumu la AI linaweza kubadilika kutoka zana ya ziada hadi wakala mkuu wa kufundisha au kiwango cha kulinganisha.

Mtiririko wa Mantiki na Nguvu: Mbinu ya utafiti ni wazi na yenye athari: tumia mtihani unaotambuliwa kitaifa, wenye ushawishi mkubwa, kama kipimo cha tathmini. Hii inatoa uaminifu wa papo hapo na unaoeleweka kwa walimu na wanaoleta sera. Mwelekeo kwenye ufikiaji (“kile kinachopatikana kweli”) badala ya ubora wa kinadharia ni nguvu kubwa, na kufanya utafiti uweze kutekelezwa mara moja. Unalingana na mienendo iliyobainishwa na taasisi kama vile Taasisi ya Stanford ya AI Iliyolenga Binadamu, ambayo inasisitiza kutathmini AI katika miktadha halisi ya ulimwengu na yenye vikwazo.

Kasoro na Mapungufu Muhimu: Uchambuzi ni wa juu juu. Unaripoti alama lakini hautoi mengi kuhusu asili ya makosa. Je, mifano ilishindwa kwenye sarufi, ufahamu wa kusoma, au utofauti wa kitamaduni? Tathmini hii ya kisanduku nyeusi inaonyesha kikomo katika uwanja huo yenyewe. Zaidi ya hayo, kulinganisha na alama ya mwanafunzi “wastani” ni kichache kitaalamu. Uchambuzi thabiti zaidi, unaofanana na nadharia ya majibu ya kipengee inayotumika katika kipimo cha akili, ungeweza kuonyesha uwezo wa mfano kwa viwango maalum vya ujuzi kwenye mtihani. Makala pia inapuuza kabisa suala muhimu la jinsi ya kuunganisha zana hizi. Kuwa na AI yenye alama kubwa tu hakumaanishi mbinu bora ya ufundishaji, changamoto iliyorekodiwa kwa kina katika International Journal of Artificial Intelligence in Education.

Ufahamu Unaotekelezeka: Kwa walimu katika soko zinazofanana zenye ufikiaji mdogo, makala hii ni mwongozo: 1) Pima kiwango ndani ya nchi: Usitegemee msisimko wa kimataifa; jaribu zana zinazopatikana dhidi ya mtaala wako maalum. 2) Angalia zaidi ya kiongozi: Mifano ya ushindani inaweza kutoa utendaji wa kutosha au bora kulingana na muktadha. 3> Lenga “jinsi”: Awamu inayofuata ya haraka ya utafiti lazima ibadilike kutoka kama LLMs zinafanya kazi hadi jinsi ya kuzitumia kwa uwajibikaji—kubuni misukumo inayohimiza kufikiri kwa kina badala ya kutafuta majibu, kuunda miundo ya tathmini iliyoimarishwa na AI, na kushughulikia usawa katika ufikiaji. Ushindi wa kweli hautakuwa alama ya juu zaidi ya AI kwenye mtihani, bali matokeo bora ya kujifunza kwa binadamu.

7. Maelezo ya Kiufundi & Mfumo wa Hisabati

Ingawa makala haizingatii miundo ya mifano, utendaji unaweza kuelezewa kupitia lenzi ya uwezekano na usahihi wa kazi. Kipimo kikuu cha tathmini ni usahihi ($Acc$), kinachofafanuliwa kama uwiano wa vitu vilivyojibiwa kwa usahihi kwa jumla ya idadi ya vitu ($N$).

$Acc = \frac{\text{Idadi ya Majibu Sahihi}}{N} \times 100\%$

Kwa uelewa wa kina zaidi, mtu anaweza kuiga utendaji wa LLM kwenye kipengee cha mtihani wa chaguo nyingi kama usambazaji wa uwezekano juu ya majibu yanayowezekana. Acha uwezekano wa mfano wa kuchagua jibu sahihi $c$ kutoka kwa seti ya chaguo $O$ uwe $P_M(c | q, \theta)$, ambapo $q$ ni swali na $\theta$ inawakilisha vigezo vya mfano na muktadha wowote uliotafutwa (hasa muhimu kwa uimarishaji wa utafutaji wa Bing Chat). Alama ya mwisho ni mkusanyiko wa uwezekano huu kwenye vitu vyote. Tofauti ya utendaji kati ya mifano inaonyesha tofauti kubwa katika uwakilishi wao wa ndani $\theta$ au taratibu zao za uimarishaji wa utaftaji $R(q)$ kwa kuzalisha $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Wavuti}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Mfumo wa Uchambuzi: Mfano wa Kesi Bila Msimbo

Muktadha: Mkuu wa idara ya Kiingereza huko Hanoi anataka kutathmini zana za AI kwa ajili ya kusaidia wanafunzi wa Darasa la 12.

Utumiaji wa Mfumo:

  1. Fafanua Lengo la Ndani ya Nchi: Boresha utendaji wa wanafunzi kwenye sehemu za sarufi na ufahamu wa kusoma za VNHSGE.
  2. Utambulishaji wa Zana & Ukaguzi wa Ufikiaji: Orodhesha zana zinazopatikana: Bing Chat (inafikika), Google Bard (inafikika), ChatGPT (inahitaji VPN, haitumiki rasmi). Weka kipaumbele kwa zana mbili za kwanza kulingana na matokeo ya makala hii.
  3. Kupima Kwa Kina: Usitumie tu karatasi za zamani zilizokamilika. Unda mtihani wa utambuzi uliolenga:
    • Sehemu ndogo A: Maswali 20 ya sarufi (wakati, viambishi mahali).
    • Sehemu ndogo B: Maswali 20 ya ufahamu wa kusoma.
    • Wapa sehemu ndogo A & B kwa Bing Chat na Bard. Rekodi sio tu usahihi, bali pia mantiki iliyotolewa katika majibu yao.
  4. Uchambuzi wa Makosa & Uchoraji Ramani: Pangilia makosa yaliyofanywa na kila AI. Kwa mfano: “Bing Chat ilishindwa kwenye maswali 3/5 ya hali ya kutamkwa; Bard ilitoa mantiki fupi lakini wakati mwingine isiyokamilika kwa maswali ya kudhania.”
  5. Ubunifu wa Ujumuishaji: Kulingana na uchambuzi: Tumia Bing Chat kwa maelezo ya mazoezi ya sarufi kwa sababu ya usahihi wa juu. Tumia majibu ya Bard kama “majibu ya mfano” kwa ufahamu wa kusoma, lakini unda karatasi ya kazi ya mwanafunzi inayouliza: “Linganisha muhtasari wa Bard na wako wewe mwenyewe. Nini kilikosa?” Hii inahimiza tathmini ya kina badala ya kukubali kwa uvivu.

Mfumo huu unapita zaidi ya “AI gani ni bora” hadi “tunawezaje kutumia nguvu za kila AI kwa mikakati ndani ya vikwazo vyetu vya ufundishaji.”

9. Matumizi ya Baadaye & Mwelekeo wa Utafiti

Matumizi ya Papo hapo:

  • Mifumo ya Kufundisha Kibinafsi: Kutumia Bing Chat au Bard kama msingi wa wakufunzi wa AI ambao hutoa mazoezi na maelezo wakati unahitaji, yanayolingana na mtaala wa VNHSGE.
  • Uundaji wa Otomatiki wa Nyenzo: Kutumia LLMs hizi kuunda maswali ya mazoezi, insha za mfano, na maelezo yaliyorahisishwa ya maandishi magumu yanayolingana na mtaala wa kitaifa.
  • Zana ya Msaada kwa Mwalimu: Kuwasaidia walimu katika kugawa alama, kutoa maoni kuhusu uandishi wa mwanafunzi, na kuzalisha mawazo ya mpango wa somo.

Mwelekeo Muhimu wa Utafiti:

  • Uhandisi wa Misukumo kwa Ufundishaji: Utafiti wa kimfumo katika kubuni misukumo inayolazimisha LLMs kuelezea mantiki, kutambua dhana potofu za mwanafunzi, au kuunda msaada wa kujifunza badala ya kutoa majibu tu.
  • Masomo ya Athari ya Muda Mrefu: Je, kutumia mwakufunzi wa LLM kweli kunaboresha matokeo ya kujifunza kwa mwanafunzi na alama za mtihani kwa muda wa muhula au mwaka? Masomo yaliyodhibitiwa yanahitajika.
  • Tathmini ya Njia Nyingi: Mtihani wa baadaye wenye ushawishi mkubwa unaweza kujumuisha vipengele vya mazungumzo. Kutathmini uwezo wa kutambua na kuzalisha hotuba wa LLMs katika muktadha wa kielimu ndio mpaka unaofuata.
  • Usawa na Ufikiaji: Utafiti katika kupunguza hatari ya kupanua mgawanyiko wa kidijitali—kuhakikisha faida zinafikia wanafunzi katika shule zisizo na rasilimali za kutosha bila mtandao wa kudumu au vifaa.
  • Kurekebishwa kwa Kitamaduni & Kimuktadha: Uboreshaji au ukuzaji wa taratibu za utaftaji zinazoruhusu LLMs za kimataifa kuelewa na kurejelea vyema nyenzo za kielimu za ndani za Vietnam, historia, na utamaduni.

10. Marejeo

  1. Dao, X. Q. (2023). Ulinganisho wa Utendaji wa Mifano ya Lugha Kubwa kwenye Seti ya Data ya Kiingereza ya VNHSGE: OpenAI ChatGPT, Microsoft Bing Chat, na Google Bard. Nakala ya awali ya arXiv: arXiv:2307.02288v3.
  2. OpenAI. (2023). ChatGPT: Kuimarisha Mifano ya Lugha kwa Mazungumzo. Blogu ya OpenAI.
  3. Kasneci, E., et al. (2023). ChatGPT kwa wema? Kuhusu fursa na changamoto za mifano ya lugha kubwa kwa elimu. Kujifunza na Tofauti za Kibinafsi, 103, 102274.
  4. Kung, T. H., et al. (2023). Utendaji wa ChatGPT kwenye USMLE: Uwezo wa elimu ya matibabu inayosaidiwa na AI kwa kutumia mifano ya lugha kubwa. PLOS Afya ya Dijitali, 2(2), e0000198.
  5. Taasisi ya Stanford ya Ujasusi Bandia Iliyolenga Binadamu (HAI). (2023). Ripoti ya Mwaka ya Kielelezo cha AI 2023. Chuo Kikuu cha Stanford.
  6. Jumuiya ya Kimataifa ya Ujasusi Bandia katika Elimu (IAIED). Jarida la Kimataifa la Ujasusi Bandia katika Elimu.
  7. Thorp, H. H. (2023). ChatGPT ni ya kufurahisha, lakini sio mwandishi. Sayansi, 379(6630), 313.