İçindekiler
- 1. Giriş
- 2. İlgili Çalışmalar
- 3. Yöntem
- 4. Sonuçlar
- 5. Tartışma
- 6. Sonuç
- 7. Özgün Analiz
- 8. Teknik Detaylar ve Matematiksel Formülasyon
- 9. Deneysel Sonuçlar ve Grafik Açıklaması
- 10. Analitik Çerçeve Örneği
- 11. Gelecek Uygulamalar ve Yönelimler
- 12. Kaynakça
1. Giriş
Yapay Zeka (YZ), öğrenme ve öğretme yöntemlerini dönüştürerek eğitimde devrim yaratmıştır. OpenAI ChatGPT, Microsoft Bing Chat (BingChat) ve Google Bard gibi büyük dil modelleri (BDM'ler) bu alandaki önemli ilerlemeleri temsil etmektedir. Bu makale, bu modellerin Vietnam Lise Mezuniyet Sınavı (VNHSGE) İngilizce veri kümesi üzerindeki performansını değerlendirerek üç araştırma sorusunu ele almaktadır: (1) ChatGPT, BingChat ve Bard'ın VNHSGE İngilizce veri kümesi üzerindeki performansı nedir? (2) Bu BDM'ler, İngilizce yeterliliği açısından Vietnamlı öğrencilerle nasıl karşılaştırılır? (3) BDM'lerin Vietnam'da İngilizce dil öğretimi ve öğrenimi için potansiyeli nedir?
2. İlgili Çalışmalar
2.1 Büyük Dil Modelleri
BDM'lerdeki, özellikle BERT ve GPT mimarilerindeki son gelişmeler, insan benzeri iletişimi mümkün kılmıştır. Bu modeller, büyük derlemler üzerinde eğitilir ve belirli görevler için ince ayar yapılır; eğitim, içerik oluşturma ve çeviri alanlarında yetenekler sergiler.
2.2 BDM'lerin Eğitim Uygulamaları
BDM'ler sanal asistanlarda, sohbet robotlarında ve çevrimiçi öğrenme sistemlerinde uygulanmıştır. Kasneci ve ark. (2023) ile Kung ve ark. (2023) tarafından yapılan çalışmalar, kişiselleştirilmiş öğrenme potansiyellerini vurgulamakla birlikte, farklı eğitim bağlamları için dikkatli bir değerlendirme yapılması gerektiğini belirtmektedir.
3. Yöntem
3.1 Veri Kümesi
VNHSGE İngilizce veri kümesi, Vietnam'da lise düzeyi değerlendirmesi için tasarlanmış, dil bilgisi, kelime bilgisi, okuduğunu anlama ve yazma becerilerini kapsayan çoktan seçmeli sorulardan oluşmaktadır.
3.2 Değerlendirme Metrikleri
Performans, doğruluk (doğru cevapların yüzdesi) kullanılarak ölçülür. Modeller, adil bir karşılaştırma sağlamak için aynı soru seti üzerinde değerlendirilir.
3.3 Deneysel Kurulum
Her model (ChatGPT GPT-3.5, BingChat ve Google Bard) kontrollü koşullar altında veri kümesi üzerinde test edilmiştir. Yanıtlar kaydedilmiş ve resmi cevap anahtarına göre puanlanmıştır.
4. Sonuçlar
4.1 Genel Performans
BingChat, %92,4 ile en yüksek doğruluğa ulaşırken, onu %86 ile Bard ve %79,2 ile ChatGPT takip etmiştir. Bu sonuçlar, aynı görevde BDM performansında önemli farklılıklar olduğunu göstermektedir.
4.2 İnsan Performansıyla Karşılaştırma
Her üç BDM de İngilizce yeterliliğinde ortalama bir Vietnamlı lise öğrencisinden daha iyi performans göstermiş olup, bu durum onların tamamlayıcı eğitim araçları olarak potansiyellerini ortaya koymaktadır.
5. Tartışma
5.1 İngilizce Eğitimi İçin Çıkarımlar
BingChat ve Bard'ın üstün performansı, özellikle ChatGPT'nin resmi olarak bulunmadığı bölgelerde, ChatGPT'ye etkili alternatifler olarak hizmet edebileceklerini göstermektedir. Bu modeller, kendi kendine çalışmayı destekleyebilir, anında geri bildirim sağlayabilir ve öğrenme çıktılarını iyileştirebilir.
5.2 Sınırlamalar ve Gelecek Çalışmalar
Sınırlamalar arasında tek bir veri kümesine odaklanılması ve model muhakemesinin niteliksel analizinin eksikliği yer almaktadır. Gelecek çalışmalar, daha geniş veri kümelerini, çok dilli yetenekleri ve sınıf ortamlarına entegrasyonu araştırmalıdır.
6. Sonuç
Bu çalışma, BingChat, Bard ve ChatGPT'nin VNHSGE İngilizce sınavında Vietnamlı öğrencilerden daha iyi performans gösterdiğini ve BingChat'in başı çektiğini ortaya koymaktadır. Bu bulgular, BDM'lerin İngilizce dil eğitimine entegrasyonunu desteklemekte olup, ölçeklenebilir ve erişilebilir öğrenme çözümleri sunmaktadır.
7. Özgün Analiz
Bu makale, standart bir İngilizce testinde üç önde gelen BDM'nin zamanında ve pratik bir karşılaştırmasını sunarak, BDM performansının İngilizce olmayan eğitim bağlamlarındaki literatürdeki kritik bir boşluğu doldurmaktadır. BingChat'in hem ChatGPT'yi hem de Bard'ı geride bırakması özellikle dikkate değerdir; bu durum, en popüler modelin (ChatGPT) mutlaka en iyisi olduğu varsayımına meydan okumaktadır. Bu, model performansının diller ve alanlar arasında önemli ölçüde değişebileceğini gösteren daha geniş araştırmalarla (Brown ve ark., 2020; Devlin ve ark., 2019) uyumludur. Çalışmanın katkısı, Vietnamlı eğitimciler ve politika yapıcılar için doğrudan ilgili olması ve BDM'lerin müfredata entegrasyonu için uygulanabilir içgörüler sunmasıdır. Bununla birlikte, analiz, her modelin yaptığı hata türlerinin incelenmesiyle güçlendirilebilir; çünkü bu, daha derin pedagojik içgörüler sağlayacaktır. Örneğin, hatalar dil bilgisi, kelime bilgisi veya okuduğunu anlama alanlarında mı yoğunlaşmıştır? Bu tür bir ayrıntı düzeyi, BDM tabanlı müdahalelerin özelleştirilmesine yardımcı olacaktır. Ayrıca çalışma, genellenebilirliği etkileyebilecek veri kümesindeki veya modellerin eğitim verilerindeki potansiyel önyargıları ele almamaktadır. Bu sınırlamalara rağmen, makale BDM'lerin, özellikle kaynak kısıtlı ortamlarda, İngilizce dil öğrenimi için etkili araçlar olarak hizmet edebileceğini ikna edici bir şekilde göstermektedir. Gelecek araştırmalar, BDM destekli öğrenmenin öğrenci çıktıları üzerindeki zaman içindeki etkisini değerlendirmek için boylamsal çalışmaları araştırmalıdır.
8. Teknik Detaylar ve Matematiksel Formülasyon
Her BDM'nin performansı, aşağıdaki şekilde tanımlanan doğruluk kullanılarak değerlendirilir:
$Doğruluk = \frac{Doğru\ Yanıt\ Sayısı}{Toplam\ Soru\ Sayısı} \times 100\%$
$N$ sorudan oluşan bir veri kümesi için, $M$ modelinin doğruluğu $A$ şöyledir:
$A_M = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}(\hat{y}_i = y_i)$
burada $\hat{y}_i$ modelin tahmini ve $y_i$ $i$ sorusu için gerçek cevaptır.
9. Deneysel Sonuçlar ve Grafik Açıklaması
Sonuçlar, üç modelin doğruluğunu karşılaştıran bir çubuk grafikte özetlenmiştir. X ekseni modelleri (ChatGPT, Bard, BingChat), y ekseni ise doğruluk yüzdesini temsil etmektedir. BingChat'in çubuğu %92,4'e, Bard'ın %86'ya ve ChatGPT'nin %79,2'ye ulaşmaktadır. Yatay bir çizgi, ortalama insan performansını (yaklaşık %70) göstermekte olup, tüm modellerin bu referans değeri aştığı görülmektedir.
10. Analitik Çerçeve Örneği
VNHSGE İngilizce veri kümesinden örnek bir soru düşünelim: "Cümleyi tamamlamak için doğru kelimeyi seçin: She ___ to school every day." Seçenekler: A) go, B) goes, C) going, D) gone. Doğru cevap B) goes'dur. Her modelin yanıtı kaydedilir ve puanlanır. Bu basit örnek, veri kümesindeki tüm sorular için kullanılan değerlendirme sürecini göstermektedir.
11. Gelecek Uygulamalar ve Yönelimler
BDM'ler, Vietnam lise İngilizce eğitimine şu yollarla entegre edilebilir: (1) Kişiselleştirilmiş geri bildirim sağlayan YZ destekli özel ders sistemleri; (2) Otomatik kompozisyon puanlaması ve dil bilgisi düzeltmesi; (3) Konuşma pratiği için konuşma aracıları; (4) Öğrenci performansına göre zorluğu ayarlayan uyarlanabilir öğrenme platformları. Gelecek yönelimler arasında Vietnam bağlamına göre uyarlanmış çok dilli BDM'ler geliştirmek, kültürel nüansları dahil etmek ve teknolojiye eşit erişimi sağlamak yer almaktadır.
12. Kaynakça
- Brown, T. B., ve ark. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
- Dao, X.-Q., ve ark. (2023a). ChatGPT on the Vietnamese High School Graduation Examination. arXiv preprint.
- Dao, X.-Q., ve ark. (2023b). ChatGPT on an English Test Case. arXiv preprint.
- Devlin, J., ve ark. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT, 4171-4186.
- Kasneci, E., ve ark. (2023). ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education. Learning and Individual Differences, 103, 102274.
- Kung, T. H., ve ark. (2023). Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education. PLOS Digital Health, 2(2), e0000198.
- OpenAI. (2023). GPT-4 Technical Report. arXiv preprint.
- Thorp, H. H. (2023). ChatGPT is Fun, But Not an Author. Science, 379(6630), 313-313.
Temel İçgörü, Mantıksal Akış, Güçlü Yönler ve Zayıflıklar, Uygulanabilir İçgörüler
Temel İçgörü: Bu makale, abartıyı kesen, veri odaklı, pragmatik bir karşılaştırmadır ve 'en iyi'nin bağlama bağlı olduğunu göstermektedir. BingChat'in bir Vietnam sınavındaki üstünlüğü, ChatGPT'nin evrensel olarak üstün olduğunu varsayanlar için bir uyarı niteliğindedir.
Mantıksal Akış: Makale net, doğrusal bir yol izlemektedir: problem ifadesi (Vietnam'da BDM değerlendirmesi ihtiyacı), yöntem (standart test), sonuçlar (BingChat > Bard > ChatGPT) ve çıkarımlar (BDM'lerin uygulanabilir eğitim araçları olması). Mantık sağlamdır ancak hata analizinde derinlikten yoksundur.
Güçlü Yönler ve Zayıflıklar: Güçlü yönler arasında odaklanmış, tekrarlanabilir bir deneysel tasarım ve Vietnam eğitim politikasıyla doğrudan ilgililik yer almaktadır. Zayıflıklar arasında dar bir veri kümesi (tek sınav), niteliksel analiz eksikliği (BingChat neden kazanıyor?) ve model önyargıları veya veri kümesi temsil edilebilirliği hakkında tartışma olmaması bulunmaktadır. Çalışma yararlı bir anlık görüntüdür ancak kapsamlı bir değerlendirme değildir.
Uygulanabilir İçgörüler: Vietnamlı eğitimciler için: BingChat ve Bard'ı hemen sınıflarda, dil bilgisi ve kelime alıştırmalarına odaklanarak pilot olarak uygulayın. Araştırmacılar için: Model kaynaklı zayıflıkları belirlemek için hata analizi yapın. Politika yapıcılar için: Vietnam müfredatına göre uyarlanmış yerel BDM geliştirmeye yatırım yapın. Ana çıkarım: tüm yumurtaları aynı BDM sepetine koymayın—çeşitlendirin ve yerel olarak test edin.