Perbandingan Prestasi ChatGPT, Bing Chat, dan Bard pada Set Data Bahasa Inggeris VNHSGE

1. Pengenalan

Kertas kerja ini membentangkan perbandingan prestasi tiga model bahasa besar (LLM) yang terkemuka—ChatGPT (GPT-3.5) oleh OpenAI, Bing Chat oleh Microsoft, dan Bard oleh Google—pada set data Bahasa Inggeris Peperiksaan Sijil Pelajaran Malaysia (VNHSGE) Vietnam. Kajian ini bertujuan untuk menilai keupayaan mereka dalam konteks khusus pendidikan Bahasa Inggeris peringkat sekolah menengah Vietnam, terutamanya memandangkan ChatGPT tidak tersedia secara rasmi di Vietnam. Penyelidikan ini menjawab tiga soalan utama mengenai prestasi model, perbandingan dengan pelajar manusia, dan potensi aplikasi LLM dalam persekitaran pendidikan ini.

2. Karya Berkaitan

Kertas kerja ini meletakkan dirinya dalam konteks yang lebih luas mengenai integrasi AI dalam pendidikan, menonjolkan potensi transformasi LLM seperti seni bina BERT dan GPT.

2.1 Model Bahasa Besar

LLM, yang dikuasakan oleh seni bina transformer, telah menunjukkan potensi yang besar dalam aplikasi pendidikan, termasuk pembelajaran peribadi, pembangunan kandungan, dan terjemahan bahasa. Keupayaan perbualan mereka yang menyerupai manusia menjadikan mereka sesuai untuk pembantu maya dan sistem sokongan pembelajaran dalam talian.

3. Metodologi

Metodologi teras melibatkan pemberian set data Bahasa Inggeris VNHSGE kepada ketiga-tiga LLM. Set data tersebut kemungkinan terdiri daripada soalan peperiksaan piawai yang menilai kemahiran bahasa Inggeris di peringkat sekolah menengah. Prestasi diukur berdasarkan ketepatan respons model berbanding dengan kunci jawapan rasmi.

4. Keputusan Eksperimen

Prestasi Bing Chat

92.4%

Ketepatan pada Set Data Bahasa Inggeris VNHSGE

Prestasi Google Bard

86.0%

Ketepatan pada Set Data Bahasa Inggeris VNHSGE

Prestasi ChatGPT (GPT-3.5)

79.2%

Ketepatan pada Set Data Bahasa Inggeris VNHSGE

Penemuan Utama:

Kedudukan Prestasi: Microsoft Bing Chat (92.4%) mengatasi kedua-dua Google Bard (86%) dan OpenAI ChatGPT (79.2%).
Implikasi Praktikal: Bing Chat dan Bard dikemukakan sebagai alternatif yang berdaya maju kepada ChatGPT untuk pendidikan Bahasa Inggeris di Vietnam, di mana akses kepada ChatGPT adalah terhad.
Perbandingan dengan Manusia: Ketiga-tiga LLM melebihi prestasi purata pelajar sekolah menengah Vietnam dalam ujian kemahiran Bahasa Inggeris yang sama, menunjukkan potensi mereka sebagai sumber pengetahuan atau alat bimbingan yang lebih unggul.

Penerangan Carta: Satu carta bar akan memvisualisasikan hierarki prestasi ini dengan berkesan, dengan paksi-y mewakili ketepatan (%) dan paksi-x menyenaraikan ketiga-tiga LLM. Bar Bing Chat akan menjadi yang tertinggi, diikuti oleh Bard, kemudian ChatGPT. Satu garis penanda aras berasingan boleh menunjukkan skor purata pelajar Vietnam untuk perbandingan langsung.

5. Perbincangan

Keputusan menunjukkan potensi besar LLM komersial sebagai alat untuk pendidikan bahasa Inggeris. Prestasi unggul Bing Chat mungkin disebabkan oleh integrasinya dengan enjin carian, yang menyediakan akses kepada maklumat yang lebih terkini atau khusus konteks. Fakta bahawa semua model mengatasi prestasi pelajar manusia menonjolkan satu anjakan paradigma, di mana AI boleh berfungsi bukan sahaja sebagai pembantu tetapi sebagai titik rujukan berkompetensi tinggi, berpotensi memperibadikan pengajaran dan memberikan maklum balas yang pantas dan tepat.

6. Analisis Asal & Ulasan Pakar

Pandangan Teras: Kertas kerja ini bukan sekadar penanda aras; ia adalah isyarat pasaran. Di rantau (Vietnam) di mana model utama (ChatGPT) dihadkan, penyelidikan ini secara proaktif mengenal pasti dan mengesahkan alternatif berfungsi (Bing Chat, Bard), mendedahkan pendekatan pragmatik, aplikasi-pertama terhadap penerimaan AI dalam pendidikan. Penemuan bahawa semua LLM mengatasi prestasi purata pelajar bukan sekadar satu titik akademik—ia adalah satu kuasa disruptif, mencadangkan peranan AI mungkin berkembang daripada alat tambahan kepada agen didaktik utama atau penanda aras.

Aliran Logik & Kekuatan: Metodologi adalah mudah dan memberi impak: gunakan peperiksaan berisiko tinggi yang diiktiraf secara nasional sebagai metrik penilaian. Ini memberikan kredibiliti yang segera dan boleh dikaitkan untuk pendidik dan pembuat dasar. Fokus kepada kebolehcapaian ("apa yang sebenarnya tersedia") berbanding keunggulan teori adalah kekuatan utama, menjadikan penyelidikan ini boleh dilaksanakan dengan segera. Ia selaras dengan trend yang diperhatikan oleh institusi seperti Stanford Institute for Human-Centered AI, yang menekankan penilaian AI dalam konteks dunia sebenar yang terhad.

Kelemahan & Jurang Kritikal: Analisis adalah di permukaan. Ia melaporkan skor tetapi menawarkan sedikit tentang sifat kesilapan. Adakah model gagal pada tatabahasa, pemahaman membaca, atau nuansa budaya? Penilaian kotak hitam ini mencerminkan satu batasan dalam bidang itu sendiri. Tambahan pula, membandingkan dengan skor pelajar "purata" adalah cetek secara statistik. Analisis yang lebih kukuh, mirip dengan teori respons item yang digunakan dalam psikometrik, boleh memetakan kemahiran model kepada tahap kemahiran tertentu dalam ujian tersebut. Kertas kerja ini juga mengelak sepenuhnya isu kritikal tentang bagaimana untuk mengintegrasikan alat-alat ini. Hanya mempunyai AI yang skor tinggi tidak diterjemahkan kepada pedagogi yang berkesan, satu cabaran yang didokumentasikan secara meluas dalam International Journal of Artificial Intelligence in Education.

Pandangan Boleh Tindak: Untuk pendidik di pasaran akses terhad yang serupa, kertas kerja ini adalah buku panduan: 1) Tanda Aras Tempatan: Jangan bergantung pada hebahan global; uji alat yang tersedia terhadap kurikulum khusus anda. 2) Lihat Melalui Peneraju: Model kompetitif mungkin menawarkan prestasi yang mencukupi atau lebih baik secara kontekstual. 3) Fokus pada "Bagaimana": Fasa penyelidikan seterusnya yang mendesak mesti beralih daripada jika LLM berfungsi kepada bagaimana untuk mengedarkannya secara bertanggungjawab—mereka bentuk arahan yang menggalakkan pemikiran kritis berbanding pengambilan jawapan, mencipta rangka kerja untuk penilaian dipertingkatkan AI, dan menangani ekuiti dalam akses. Kemenangan sebenar bukanlah skor ujian AI yang lebih tinggi, tetapi hasil pembelajaran manusia yang lebih baik.

7. Butiran Teknikal & Kerangka Matematik

Walaupun kertas kerja tidak mendalami seni bina model, prestasi boleh dikonsepsikan melalui lensa kebarangkalian dan ketepatan tugas. Metrik penilaian teras adalah ketepatan ($Acc$), ditakrifkan sebagai nisbah item yang dijawab dengan betul kepada jumlah bilangan item ($N$).

$Acc = \frac{\text{Bilangan Respons Betul}}{N} \times 100\%$

Untuk pemahaman yang lebih bernuansa, seseorang boleh memodelkan prestasi LLM pada item ujian pelbagai pilihan sebagai taburan kebarangkalian ke atas jawapan yang mungkin. Biarkan kebarangkalian model untuk memilih jawapan betul $c$ daripada satu set pilihan $O$ menjadi $P_M(c | q, \theta)$, di mana $q$ adalah soalan dan $\theta$ mewakili parameter model dan sebarang konteks yang diambil (terutamanya relevan untuk penambahan carian Bing Chat). Skor akhir adalah pengagregatan kebarangkalian ini merentasi semua item. Jurang prestasi antara model mencadangkan perbezaan ketara dalam perwakilan dalaman mereka $\theta$ atau mekanisme penambahan pengambilan mereka $R(q)$ untuk menjana $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Kerangka Analisis: Kajian Kes Bukan Kod

Skenario: Seorang ketua jabatan Bahasa Inggeris di Hanoi ingin menilai alat AI untuk menyokong pelajar Tingkatan 12.

Aplikasi Kerangka:

Takrif Objektif Tempatan: Meningkatkan prestasi pelajar dalam bahagian tatabahasa dan pemahaman membaca VNHSGE.
Pengecaman Alat & Semakan Akses: Senaraikan alat yang tersedia: Bing Chat (boleh diakses), Google Bard (boleh diakses), ChatGPT (memerlukan VPN, tidak disokong secara rasmi). Utamakan dua yang pertama berdasarkan penemuan kertas kerja ini.
Penanda Aras Terperinci: Jangan hanya gunakan kertas peperiksaan lepas penuh. Cipta ujian diagnostik berfokus:
- Subset A: 20 soalan tatabahasa (kala, kata depan).
- Subset B: 20 soalan pemahaman membaca.
- Berikan subset A & B kepada Bing Chat dan Bard. Rakam bukan sahaja ketepatan, tetapi juga penaakulan yang disediakan dalam jawapan mereka.
Analisis Kesilapan & Pemetaan: Kategorikan kesilapan yang dibuat oleh setiap AI. Contohnya: "Bing Chat gagal pada 3/5 soalan mood subjungtif; Bard memberikan penaakulan ringkas tetapi kadangkala tidak lengkap untuk soalan inferens."
Reka Bentuk Integrasi: Berdasarkan analisis: Gunakan Bing Chat untuk penjelasan latihan tatabahasa kerana ketepatan yang lebih tinggi. Gunakan respons Bard sebagai "jawapan sampel" untuk pemahaman membaca, tetapi reka bentuk lembaran kerja pelajar yang bertanya: "Bandingkan ringkasan Bard dengan anda sendiri. Apa yang terlepas?" Ini menggalakkan penilaian kritis berbanding penerimaan pasif.

Kerangka ini bergerak melampaui "AI mana yang lebih baik" kepada "bagaimana kita boleh menggunakan kekuatan setiap AI secara strategik dalam kekangan pedagogi kita."

9. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Aplikasi Segera:

Sistem Bimbingan Peribadi: Mengedarkan Bing Chat atau Bard sebagai tulang belakang untuk tutor AI yang menyediakan latihan dan penjelasan mengikut permintaan, disesuaikan dengan sukatan pelajaran VNHSGE.
Penjanaan Bahan Automatik: Menggunakan LLM ini untuk mencipta soalan latihan, karangan sampel, dan penjelasan ringkas teks kompleks yang selaras dengan kurikulum kebangsaan.
Alat Sokongan Guru: Membantu guru dalam menggred, memberikan maklum balas tentang penulisan pelajar, dan menjana idea rancangan pengajaran.

Hala Tuju Penyelidikan Kritikal:

Kejuruteraan Arahan untuk Pedagogi: Penyelidikan sistematik ke dalam mereka bentuk arahan yang memaksa LLM untuk menerangkan penaakulan, mengenal pasti salah tanggapan pelajar, atau perancah pembelajaran dan bukan hanya memberikan jawapan.
Kajian Impak Longitudinal: Adakah menggunakan tutor LLM sebenarnya meningkatkan hasil pembelajaran pelajar dan skor peperiksaan sepanjang semester atau tahun? Kajian terkawal diperlukan.
Penilaian Multimodal: Peperiksaan berisiko tinggi masa depan mungkin termasuk komponen lisan. Menilai keupayaan pengecaman dan penjanaan pertuturan LLM dalam konteks pendidikan adalah sempadan seterusnya.
Ekuiti dan Akses: Penyelidikan ke dalam mengurangkan risiko meluaskan jurang digital—memastikan manfaat sampai kepada pelajar di sekolah yang kurang sumber tanpa internet atau peranti yang boleh dipercayai.
Adaptasi Budaya & Kontekstual: Penalaan halus atau pembangunan mekanisme pengambilan yang membolehkan LLM global memahami dan merujuk bahan pendidikan, sejarah, dan budaya tempatan Vietnam dengan lebih baik.

10. Rujukan

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.