مقارنة أداء ChatGPT وBing Chat وBard على مجموعة بيانات امتحان اللغة الإنجليزية للثانوية العامة الفيتنامية (VNHSGE)

1. المقدمة

تقدم هذه الورقة مقارنة لأداء ثلاثة نماذج ذكاء اصطناعي لغوية كبيرة بارزة—ChatGPT من OpenAI (GPT-3.5) وBing Chat من Microsoft وBard من Google—على مجموعة بيانات امتحان اللغة الإنجليزية للثانوية العامة الفيتنامية (VNHSGE). تهدف الدراسة إلى تقييم قدراتها في السياق المحدد لتعليم اللغة الإنجليزية بالمدارس الثانوية الفيتنامية، خاصةً وأن ChatGPT غير متاح رسميًا في فيتنام. يتناول البحث ثلاثة أسئلة رئيسية تتعلق بأداء النماذج، ومقارنتها بالطلاب البشر، والتطبيقات المحتملة لنماذج الذكاء الاصطناعي اللغوية الكبيرة في هذا الإطار التعليمي.

2. الأعمال ذات الصلة

تضع الورقة نفسها في السياق الأوسع لدمج الذكاء الاصطناعي في التعليم، مسلطة الضوء على الإمكانات التحويلية لنماذج الذكاء الاصطناعي اللغوية الكبيرة مثل معماريات BERT وGPT.

2.1 نماذج الذكاء الاصطناعي اللغوية الكبيرة

أظهرت نماذج الذكاء الاصطناعي اللغوية الكبيرة، المدعومة بمعماريات المحولات (Transformer)، إمكانات كبيرة في التطبيقات التعليمية، بما في ذلك التعلم الشخصي، وتطوير المحتوى، والترجمة اللغوية. تجعلها قدراتها المحادثية الشبيهة بالإنسان مناسبة لأنظمة المساعدين الافتراضيين وأنظمة دعم التعلم عبر الإنترنت.

3. المنهجية

تتضمن المنهجية الأساسية تطبيق مجموعة بيانات امتحان اللغة الإنجليزية للثانوية العامة الفيتنامية (VNHSGE) على نماذج الذكاء الاصطناعي اللغوية الكبيرة الثلاثة. من المرجح أن تتكون مجموعة البيانات من أسئلة اختبار موحدة تقيس الكفاءة في اللغة الإنجليزية على مستوى المرحلة الثانوية. يتم قياس الأداء من خلال دقة إجابات النماذج مقارنة بمفتاح الإجابة الرسمي.

4. النتائج التجريبية

أداء Bing Chat

92.4%

الدقة على مجموعة بيانات VNHSGE للغة الإنجليزية

أداء Google Bard

86.0%

الدقة على مجموعة بيانات VNHSGE للغة الإنجليزية

أداء ChatGPT (GPT-3.5)

79.2%

الدقة على مجموعة بيانات VNHSGE للغة الإنجليزية

النتائج الرئيسية:

ترتيب الأداء: تفوق Microsoft Bing Chat (92.4%) على كل من Google Bard (86%) وOpenAI ChatGPT (79.2%).
التضمين العملي: يُقدَّم Bing Chat وBard كبدائل عملية لـ ChatGPT في تعليم اللغة الإنجليزية في فيتنام، حيث يقتصر الوصول إلى ChatGPT.
المقارنة مع البشر: تفوقت نماذج الذكاء الاصطناعي اللغوية الكبيرة الثلاثة جميعها على متوسط أداء طلاب المدارس الثانوية الفيتناميين في نفس اختبار الكفاءة في اللغة الإنجليزية، مما يشير إلى إمكاناتها كمصادر معرفة أو مساعدات تدريسية متفوقة.

وصف الرسم البياني: يمكن أن يصور مخطط الأعمدة هذا التسلسل الهرمي للأداء بشكل فعال، حيث يمثل المحور الصادي الدقة (%) ويسرد المحور السيني نماذج الذكاء الاصطناعي اللغوية الكبيرة الثلاثة. سيكون عمود Bing Chat هو الأطول، يليه Bard، ثم ChatGPT. يمكن أن يشير خط معياري منفصل إلى متوسط درجة الطالب الفيتنامي للمقارنة المباشرة.

5. المناقشة

تُظهر النتائج الإمكانات الكبيرة لنماذج الذكاء الاصطناعي اللغوية الكبيرة المتاحة تجاريًا كأدوات لتعليم اللغة الإنجليزية. قد يُعزى الأداء المتفوق لـ Bing Chat إلى تكامله مع محرك بحث، مما يوفر الوصول إلى معلومات أكثر حداثة أو خاصة بالسياق. إن حقيقة تفوق جميع النماذج على الطلاب البشر تسلط الضوء على تحول نموذجي، حيث يمكن للذكاء الاصطناعي أن يخدم ليس فقط كمساعد ولكن كنقطة مرجعية عالية الكفاءة، مما قد يؤدي إلى تخصيص التعليم وتقديم ملاحظات فورية ودقيقة.

6. التحليل الأصلي والتعليقات الخبيرة

الفكرة الأساسية: هذه الورقة ليست مجرد معيار قياس؛ إنها إشارة سوقية. في منطقة (فيتنام) حيث النموذج الرئيسي (ChatGPT) مقيد، يحدد البحث بشكل استباقي البدائل الوظيفية (Bing Chat، Bard) ويصادق عليها، مما يكشف عن نهج عملي يركز على التطبيق لتبني الذكاء الاصطناعي في التعليم. إن اكتشاف تفوق جميع نماذج الذكاء الاصطناعي اللغوية الكبيرة على متوسط أداء الطلاب ليس مجرد نقطة أكاديمية—إنه قوة تحويلية، تشير إلى أن دور الذكاء الاصطناعي قد يتطور من أداة تكميلية إلى وكيل تعليمي أساسي أو معيار قياس.

التسلسل المنطقي ونقاط القوة: المنهجية واضحة ومؤثرة: استخدام اختبار وطني معترف به وعالي المخاطر كمقياس للتقييم. وهذا يوفر مصداقية فورية ويمكن ربطها للمعلمين وصناع السياسات. إن التركيز على إمكانية الوصول ("ما هو متاح فعليًا") بدلاً من التفوق النظري هو نقطة قوة رئيسية، مما يجعل البحث قابلاً للتنفيذ على الفور. وهو يتماشى مع الاتجاهات التي لاحظتها مؤسسات مثل معهد ستانفورد للذكاء الاصطناعي المتمحور حول الإنسان، والتي تؤكد على تقييم الذكاء الاصطناعي في سياقات واقعية ومقيدة.

العيوب والفجوات النقدية: التحليل سطحي. فهو يبلغ عن الدرجات لكنه يقدم القليل عن طبيعة الأخطاء. هل فشلت النماذج في القواعد النحوية، أو الفهم القرائي، أو الفروق الدقيقة الثقافية؟ هذا التقييم للصندوق الأسود يعكس قيدًا في المجال نفسه. علاوة على ذلك، فإن المقارنة بمتوسط درجة الطالب ضعيفة إحصائيًا. يمكن لتحليل أكثر قوة، يشبه نظرية استجابة العنصر المستخدمة في القياس النفسي، أن يربط كفاءة النموذج بمستويات مهارية محددة في الاختبار. كما تتجنب الورقة تمامًا القضية الحرجة المتعلقة بكيفية دمج هذه الأدوات. مجرد وجود ذكاء اصطناعي يحقق درجات عالية لا يترجم إلى منهجية تعليمية فعالة، وهو تحدٍ موثق على نطاق واسع في المجلة الدولية للذكاء الاصطناعي في التعليم.

رؤى قابلة للتنفيذ: بالنسبة للمعلمين في أسواق ذات وصول مقيد مماثل، هذه الورقة هي دليل إرشادي: 1) قم بمعايرة محليًا: لا تعتمد على الضجة العالمية؛ اختبر الأدوات المتاحة مقابل منهجك الدراسي المحدد. 2) انظر إلى ما هو أبعد من القائد: قد تقدم النماذج المنافسة أداءً كافيًا أو أفضل سياقيًا. 3) ركز على "الكيفية": يجب أن تنتقل مرحلة البحث العاجلة التالية من ما إذا كانت نماذج الذكاء الاصطناعي اللغوية الكبيرة تعمل إلى كيفية نشرها بمسؤولية—تصميم مطالبات تشجع التفكير النقدي بدلاً من استرجاع الإجابة، وإنشاء أطر للتقييم المعزز بالذكاء الاصطناعي، ومعالجة الإنصاف في الوصول. لن يكون النصر الحقيقي هو تحقيق درجة أعلى في اختبار الذكاء الاصطناعي، ولكن تحسين نتائج التعلم البشرية.

7. التفاصيل التقنية والإطار الرياضي

بينما لا تتناول الورقة معماريات النماذج بشكل متعمق، يمكن تصور الأداء من خلال منظور الاحتمالية ودقة المهمة. مقياس التقييم الأساسي هو الدقة ($Acc$)، المعرفة كنسبة العناصر التي تمت الإجابة عليها بشكل صحيح إلى إجمالي عدد العناصر ($N$).

$Acc = \frac{\text{عدد الإجابات الصحيحة}}{N} \times 100\%$

لفهم أكثر دقة، يمكن نمذجة أداء نموذج ذكاء اصطناعي لغوي كبير على عنصر اختبار متعدد الخيارات كتوزيع احتمالي على الإجابات المحتملة. ليكن احتمال اختيار النموذج للإجابة الصحيحة $c$ من مجموعة الخيارات $O$ هو $P_M(c | q, \theta)$، حيث $q$ هو السؤال و$\theta$ يمثل معلمات النموذج وأي سياق تم استرجاعه (ذو صلة خاصة بتعزيز البحث في Bing Chat). النتيجة النهائية هي تجميع لهذه الاحتمالات عبر جميع العناصر. تشير الفجوة في الأداء بين النماذج إلى وجود اختلافات كبيرة في تمثيلاتها الداخلية $\theta$ أو آليات تعزيز الاسترجاع الخاصة بها $R(q)$ لتوليد $P_M$.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. إطار التحليل: دراسة حالة غير برمجية

السيناريو: يريد رئيس قسم اللغة الإنجليزية في هانوي تقييم أدوات الذكاء الاصطناعي لدعم طلاب الصف الثاني عشر.

تطبيق الإطار:

تحديد الهدف المحلي: تحسين أداء الطلاب في أقسام القواعد النحوية والفهم القرائي لامتحان VNHSGE.
تحديد الأداة والتحقق من الوصول: قائمة بالأدوات المتاحة: Bing Chat (يمكن الوصول إليه)، Google Bard (يمكن الوصول إليه)، ChatGPT (يتطلب VPN، غير مدعوم رسميًا). رتب الأولوية للأولين بناءً على نتائج هذه الورقة.
المعايرة التفصيلية: لا تستخدم فقط أوراق الامتحانات السابقة الكاملة. أنشئ اختبار تشخيصي مركز:
- المجموعة الفرعية أ: 20 سؤالاً في القواعد النحوية (الأزمنة، حروف الجر).
- المجموعة الفرعية ب: 20 سؤالاً في الفهم القرائي.
- طبق المجموعتين الفرعيتين أ و ب على Bing Chat وBard. سجل ليس فقط الدقة، ولكن أيضًا المنطق المقدم في إجاباتهم.
تحليل الأخطاء ورسم الخرائط: صنف الأخطاء التي ارتكبها كل ذكاء اصطناعي. على سبيل المثال: "فشل Bing Chat في 3/5 أسئلة صيغة التمني؛ قدم Bard منطقًا موجزًا ولكنه أحيانًا غير مكتمل لأسئلة الاستدلال."
تصميم التكامل: بناءً على التحليل: استخدم Bing Chat لشرح تدريبات القواعد النحوية بسبب دقته الأعلى. استخدم إجابات Bard كـ "إجابات نموذجية" للفهم القرائي، لكن صمم ورقة عمل للطلاب تطلب: "قارن ملخص Bard بملخصك. ما الذي فاته؟" يشجع هذا على التقييم النقدي بدلاً من القبول السلبي.

ينتقل هذا الإطار من "أي ذكاء اصطناعي أفضل" إلى "كيف يمكننا استخدام نقاط قوة كل ذكاء اصطناعي بشكل استراتيجي ضمن قيودنا التربوية".

9. التطبيقات المستقبلية واتجاهات البحث

التطبيقات الفورية:

أنظمة التدريس الشخصية: نشر Bing Chat أو Bard كعمود فقري لمعلمي الذكاء الاصطناعي الذين يقدمون التدريب والشرح عند الطلب، ومصممين وفقًا لمنهج VNHSGE.
توليد المواد الآلي: استخدام نماذج الذكاء الاصطناعي اللغوية الكبيرة هذه لإنشاء أسئلة تدريبية، ومقالات نموذجية، وشروحات مبسطة للنصوص المعقدة المتوافقة مع المنهج الوطني.
أداة دعم المعلم: مساعدة المعلمين في التصحيح، وتقديم ملاحظات على كتابات الطلاب، وتوليد أفكار لخطط الدروس.

اتجاهات البحث الحرجة:

هندسة المطالبات للأغراض التربوية: بحث منهجي في تصميم مطالبات تجبر نماذج الذكاء الاصطناعي اللغوية الكبيرة على شرح المنطق، وتحديد المفاهيم الخاطئة للطلاب، أو تسهيل التعلم بدلاً من مجرد تقديم إجابات.
دراسات التأثير الطويلة المدى: هل يؤدي استخدام معلم ذكاء اصطناعي إلى تحسين نتائج تعلم الطلاب ودرجات الامتحانات بالفعل على مدى فصل دراسي أو عام؟ هناك حاجة إلى دراسات مضبوطة.
التقييم متعدد الوسائط: قد تتضمن الامتحانات عالية المخاطر المستقبلية مكونات شفهية. تقييم قدرات التعرف على الكلام وتوليده لنماذج الذكاء الاصطناعي اللغوية الكبيرة في سياق تعليمي هو الحدود التالية.
الإنصاف والوصول: البحث في التخفيف من خطر توسيع الفجوة الرقمية—ضمان وصول الفوائد إلى الطلاب في المدارس ذات الموارد المحدودة دون اتصال إنترنت أو أجهزة موثوقة.
التكيف الثقافي والسياقي: ضبط دقيق أو تطوير آليات استرجاع تسمح لنماذج الذكاء الاصطناعي اللغوية الكبيرة العالمية بفهم والرجوع إلى المواد التعليمية الفيتنامية المحلية والتاريخ والثقافة بشكل أفضل.

10. المراجع

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.