ChatGPT, Bing Chat ve Bard'ın VNHSGE İngilizce Veri Setindeki Performans Karşılaştırması

1. Giriş

Bu makale, üç önemli büyük dil modelinin (LLM)—OpenAI'ın ChatGPT'si (GPT-3.5), Microsoft'un Bing Chat'i ve Google'ın Bard'ı—Vietnam Lise Bitirme Sınavı (VNHSGE) İngilizce veri setindeki performans karşılaştırmasını sunmaktadır. Çalışma, özellikle ChatGPT'nin Vietnam'da resmi olarak mevcut olmadığı göz önünde bulundurularak, bu modellerin Vietnam lise İngilizce eğitimi bağlamındaki yeteneklerini değerlendirmeyi amaçlamaktadır. Araştırma, model performansı, insan öğrencilerle karşılaştırma ve LLM'lerin bu eğitim ortamındaki potansiyel uygulamalarına ilişkin üç temel soruyu ele almaktadır.

2. İlgili Çalışmalar

Makale, eğitimde yapay zeka entegrasyonunun daha geniş bağlamı içinde kendine yer bulmakta, BERT ve GPT mimarileri gibi LLM'lerin dönüştürücü potansiyelini vurgulamaktadır.

2.1 Büyük Dil Modelleri

Transformer mimarileriyle güçlendirilen Büyük Dil Modelleri (LLM'ler), kişiselleştirilmiş öğrenme, içerik geliştirme ve dil çevirisi dahil olmak üzere eğitim uygulamalarında önemli potansiyel göstermiştir. İnsan benzeri konuşma yetenekleri, onları sanal asistanlar ve çevrimiçi öğrenme destek sistemleri için uygun kılmaktadır.

3. Metodoloji

Temel metodoloji, VNHSGE İngilizce veri setinin üç LLM'ye uygulanmasını içermektedir. Veri seti muhtemelen lise seviyesinde İngilizce dil yeterliliğini değerlendiren standartlaştırılmış test sorularından oluşmaktadır. Performans, modellerin yanıtlarının resmi cevap anahtarıyla karşılaştırılarak doğruluğu ile ölçülmektedir.

4. Deneysel Sonuçlar

Bing Chat Performansı

%92.4

VNHSGE İngilizce Veri Seti Doğruluğu

Google Bard Performansı

%86.0

VNHSGE İngilizce Veri Seti Doğruluğu

ChatGPT (GPT-3.5) Performansı

%79.2

VNHSGE İngilizce Veri Seti Doğruluğu

Anahtar Bulgular:

Performans Sıralaması: Microsoft Bing Chat (%92.4), hem Google Bard (%86) hem de OpenAI ChatGPT'yi (%79.2) geride bıraktı.
Pratik Çıkarım: Bing Chat ve Bard, ChatGPT erişiminin kısıtlı olduğu Vietnam'daki İngilizce eğitimi için ChatGPT'ye uygulanabilir alternatifler olarak sunulmaktadır.
İnsan Karşılaştırması: Her üç LLM de, aynı İngilizce yeterlilik testinde Vietnamlı lise öğrencilerinin ortalama performansını aşarak, üstün bilgi kaynakları veya öğretim yardımcıları olarak potansiyellerini göstermiştir.

Grafik Açıklaması: Bir çubuk grafik, bu performans hiyerarşisini etkili bir şekilde görselleştirebilir; y ekseni doğruluk (%)'yi, x ekseni ise üç LLM'yi listeleyebilir. Bing Chat'in çubuğu en uzun, ardından Bard ve sonra ChatGPT gelir. Doğrudan karşılaştırma için ayrı bir kıyaslama çizgisi, ortalama Vietnamlı öğrenci puanını gösterebilir.

5. Tartışma

Sonuçlar, ticari olarak mevcut LLM'lerin İngilizce dil eğitimi için araçlar olarak önemli potansiyelini göstermektedir. Bing Chat'in üstün performansı, bir arama motoruyla entegrasyonuna ve daha güncel veya bağlama özgü bilgilere erişim sağlamasına bağlanabilir. Tüm modellerin insan öğrencilerden daha iyi performans göstermesi, yapay zekanın sadece bir asistan değil, aynı zamanda yüksek yeterlilikli bir referans noktası olarak hizmet edebileceği, öğretimi kişiselleştirebileceği ve anında, doğru geri bildirim sağlayabileceği bir paradigma değişimini vurgulamaktadır.

6. Özgün Analiz ve Uzman Yorumu

Temel İçgörü: Bu makale sadece bir kıyaslama değil; aynı zamanda bir piyasa sinyalidir. Bayrak gemisi modelin (ChatGPT) erişime kapalı olduğu bir bölgede (Vietnam), araştırma proaktif bir şekilde işlevsel alternatifleri (Bing Chat, Bard) belirlemekte ve doğrulamakta, eğitimde yapay zeka benimsemeye yönelik pragmatik, uygulama odaklı bir yaklaşımı ortaya koymaktadır. Tüm LLM'lerin ortalama öğrenci performansını aşması bulgusu sadece akademik bir nokta değil—bu, yapay zekanın rolünün destekleyici bir araçtan birincil bir öğretim aracına veya kıyaslama noktasına evrilebileceğini öne süren yıkıcı bir güçtür.

Mantıksal Akış ve Güçlü Yönler: Metodoloji basit ve etkilidir: ulusal olarak tanınan, yüksek riskli bir sınavı değerlendirme metriği olarak kullanmak. Bu, eğitimciler ve politika yapıcılar için anında, ilişkilendirilebilir bir güvenilirlik sağlar. Teorik üstünlük yerine erişilebilirliğe ("gerçekte ne mevcut") odaklanmak, araştırmayı hemen uygulanabilir kılan büyük bir güçtür. Stanford İnsan Odaklı Yapay Zeka Enstitüsü gibi kurumların vurguladığı, yapay zekayı gerçek dünya, kısıtlı bağlamlarda değerlendirme eğilimleriyle uyumludur.

Eksiklikler ve Eleştirel Boşluklar: Analiz yüzeyseldir. Puanları rapor eder ancak hataların doğası hakkında çok az şey sunar. Modeller dilbilgisi, okuduğunu anlama veya kültürel nüanslarda mı başarısız oldu? Bu kara kutu değerlendirmesi, alanın kendisindeki bir sınırlamayı yansıtmaktadır. Ayrıca, "ortalama" bir öğrenci puanıyla karşılaştırma yapmak istatistiksel olarak sığdır. Psikometride kullanılan madde tepki kuramına benzer daha sağlam bir analiz, model yeterliliğini testteki belirli beceri seviyelerine eşleyebilir. Makale ayrıca, bu araçların nasıl entegre edileceği kritik konusunu tamamen atlamaktadır. Sadece yüksek puan alan bir yapay zekaya sahip olmak, etkili pedagojiye dönüşmez; bu zorluk International Journal of Artificial Intelligence in Education dergisinde kapsamlı bir şekilde belgelenmiştir.

Uygulanabilir İçgörüler: Benzer kısıtlı erişimli pazarlardaki eğitimciler için bu makale bir yol haritasıdır: 1) Yerel olarak kıyaslama yapın: Küresel hype'a güvenmeyin; mevcut araçları kendi özel müfredatınıza karşı test edin. 2) Liderin ötesine bakın: Rekabetçi modeller yeterli veya bağlamsal olarak daha iyi performans sunabilir. 3) "Nasıl"a odaklanın: Bir sonraki acil araştırma aşaması, LLM'lerin çalışıp çalışmadığından ziyade, onları sorumlu bir şekilde nasıl konuşlandıracağımıza kaymalıdır—cevap almak yerine eleştirel düşünmeyi teşvik eden prompt'lar tasarlamak, yapay zeka destekli değerlendirme için çerçeveler oluşturmak ve erişimde eşitliği ele almak. Gerçek zafer daha yüksek bir yapay zeka test puanı değil, insan öğrenme çıktılarının iyileştirilmesi olacaktır.

7. Teknik Detaylar ve Matematiksel Çerçeve

Makale model mimarilerine derinlemesine girmese de, performans olasılık ve görev doğruluğu merceğinden kavramsallaştırılabilir. Temel değerlendirme metriği doğruluktur ($Acc$), doğru cevaplanan madde sayısının toplam madde sayısına ($N$) oranı olarak tanımlanır.

$Acc = \frac{\text{Doğru Yanıt Sayısı}}{N} \times 100\%$

Daha nüanslı bir anlayış için, bir LLM'nin çoktan seçmeli bir test maddesindeki performansı, olası cevaplar üzerinde bir olasılık dağılımı olarak modellenebilir. Modelin, bir seçenek kümesi $O$ içinden doğru cevap $c$'yi seçme olasılığı $P_M(c | q, \theta)$ olsun; burada $q$ sorudur ve $\theta$ modelin parametrelerini ve herhangi bir alınan bağlamı temsil eder (özellikle Bing Chat'in arama artırımı için önemlidir). Nihai puan, tüm maddeler boyunca bu olasılıkların bir toplamıdır. Modeller arasındaki performans farkı, $P_M$'yi oluşturmak için iç temsillerinde $\theta$ veya alım-artırma mekanizmalarında $R(q)$ önemli farklılıklar olduğunu göstermektedir.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. Analiz Çerçevesi: Kod İçermeyen Bir Vaka Çalışması

Senaryo: Hanoi'da bir İngilizce bölüm başkanı, 12. sınıf öğrencilerini desteklemek için yapay zeka araçlarını değerlendirmek istiyor.

Çerçeve Uygulaması:

Yerel Hedefi Tanımlayın: VNHSGE'nin dilbilgisi ve okuduğunu anlama bölümlerinde öğrenci performansını iyileştirin.
Araç Tanımlama ve Erişim Kontrolü: Mevcut araçları listeleyin: Bing Chat (erişilebilir), Google Bard (erişilebilir), ChatGPT (VPN gerektirir, resmi olarak desteklenmez). Bu makalenin bulgularına dayanarak ilk ikisini önceliklendirin.
Granüler Kıyaslama: Sadece geçmiş tam sınavları kullanmayın. Odaklanmış bir tanı testi oluşturun:
- Alt Küme A: 20 dilbilgisi sorusu (zaman, edatlar).
- Alt Küme B: 20 okuduğunu anlama sorusu.
- Alt kümeler A ve B'yi Bing Chat ve Bard'a uygulayın. Sadece doğruluğu değil, aynı zamanda cevaplarında sağlanan mantığı da kaydedin.
Hata Analizi ve Eşleme: Her bir yapay zeka tarafından yapılan hataları kategorilere ayırın. Örneğin: "Bing Chat, dilek kipi sorularının 3/5'inde başarısız oldu; Bard, çıkarım soruları için öz ama bazen eksik mantık sundu."
Entegrasyon Tasarımı: Analize dayanarak: Daha yüksek doğruluk nedeniyle dilbilgisi alıştırma açıklamaları için Bing Chat'i kullanın. Bard'ın yanıtlarını okuduğunu anlama için "örnek cevaplar" olarak kullanın, ancak şu soruyu soran bir öğrenci çalışma kağıdı tasarlayın: "Bard'ın özetini kendi özetinizle karşılaştırın. Neyi kaçırdı?" Bu, pasif kabul yerine eleştirel değerlendirmeyi teşvik eder.

Bu çerçeve, "hangi yapay zeka daha iyi" sorusunun ötesine geçerek, "pedagojik kısıtlamalarımız içinde her bir yapay zekanın güçlü yönlerini stratejik olarak nasıl kullanabiliriz" sorusuna odaklanır.

9. Gelecekteki Uygulamalar ve Araştırma Yönleri

Acil Uygulamalar:

Kişiselleştirilmiş Öğretim Sistemleri: Bing Chat veya Bard'ı, VNHSGE müfredatına göre talep üzerine alıştırma ve açıklama sağlayan yapay zeka öğretmenlerinin omurgası olarak konuşlandırmak.
Otomatik Materyal Üretimi: Bu LLM'leri, ulusal müfredatla uyumlu alıştırma soruları, örnek kompozisyonlar ve karmaşık metinlerin basitleştirilmiş açıklamalarını oluşturmak için kullanmak.
Öğretmen Destek Aracı: Öğretmenlere not verme, öğrenci yazılarına geri bildirim sağlama ve ders planı fikirleri oluşturmada yardımcı olmak.

Kritik Araştırma Yönleri:

Pedagoji için Prompt Mühendisliği: LLM'leri sadece cevap vermeye değil, mantığı açıklamaya, öğrenci yanılgılarını belirlemeye veya öğrenmeyi desteklemeye zorlayan prompt'lar tasarlamaya yönelik sistematik araştırma.
Boylamsal Etki Çalışmaları: Bir LLM öğretmeni kullanmak, bir dönem veya yıl boyunca gerçekten öğrenci öğrenme çıktılarını ve sınav puanlarını iyileştirir mi? Kontrollü çalışmalara ihtiyaç vardır.
Çok Modlu Değerlendirme: Gelecekteki yüksek riskli sınavlar sözlü bileşenler içerebilir. LLM'lerin konuşma tanıma ve üretim yeteneklerini eğitim bağlamında değerlendirmek bir sonraki sınırdır.
Eşitlik ve Erişim: Dijital uçurumu genişletme riskini azaltmaya yönelik araştırma—faydaların, güvenilir internet veya cihazlara sahip olmayan kaynakları yetersiz okullardaki öğrencilere ulaşmasını sağlamak.
Kültürel ve Bağlamsal Uyarlama: Küresel LLM'lerin yerel Vietnam eğitim materyallerini, tarihini ve kültürünü daha iyi anlamasına ve referans göstermesine izin veren ince ayar veya alım mekanizmaları geliştirme.

10. Kaynaklar

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.