مقایسه عملکرد ChatGPT، Bing Chat و Bard بر روی مجموعه داده انگلیسی VNHSGE

1. مقدمه

این مقاله مقایسه عملکرد سه مدل زبانی بزرگ (LLM) برجسته—ChatGPT شرکت OpenAI (GPT-3.5)، Bing Chat شرکت مایکروسافت و Bard شرکت گوگل—را بر روی مجموعه داده امتحان نهایی انگلیسی دبیرستان ویتنام (VNHSGE) ارائه می‌دهد. هدف این مطالعه ارزیابی قابلیت‌های آن‌ها در چارچوب خاص آموزش زبان انگلیسی در دبیرستان‌های ویتنام است، به ویژه با توجه به این که دسترسی رسمی به ChatGPT در ویتنام وجود ندارد. این پژوهش به سه پرسش کلیدی در مورد عملکرد مدل‌ها، مقایسه با دانش‌آموزان انسانی و کاربردهای بالقوه مدل‌های زبانی بزرگ در این محیط آموزشی می‌پردازد.

2. کارهای مرتبط

مقاله خود را در بستر گسترده‌تر ادغام هوش مصنوعی در آموزش قرار می‌دهد و پتانسیل تحول‌آفرین مدل‌های زبانی بزرگ مانند معماری‌های BERT و GPT را برجسته می‌کند.

2.1 مدل‌های زبانی بزرگ

مدل‌های زبانی بزرگ که با معماری‌های ترنسفورمر قدرت می‌گیرند، پتانسیل قابل توجهی در کاربردهای آموزشی، از جمله یادگیری شخصی‌شده، توسعه محتوا و ترجمه زبان نشان داده‌اند. قابلیت‌های مکالمه‌ای شبه‌انسانی آن‌ها، آن‌ها را برای دستیاران مجازی و سیستم‌های پشتیبانی یادگیری آنلاین مناسب می‌سازد.

3. روش‌شناسی

روش اصلی شامل ارائه مجموعه داده انگلیسی VNHSGE به سه مدل زبانی بزرگ است. این مجموعه داده احتمالاً شامل سوالات آزمون استاندارد شده‌ای است که مهارت زبان انگلیسی در سطح دبیرستان را ارزیابی می‌کند. عملکرد با دقت پاسخ‌های مدل‌ها در مقایسه با کلید پاسخ رسمی اندازه‌گیری می‌شود.

4. نتایج آزمایش

عملکرد Bing Chat

92.4%

دقت بر روی مجموعه داده انگلیسی VNHSGE

عملکرد Google Bard

86.0%

دقت بر روی مجموعه داده انگلیسی VNHSGE

عملکرد ChatGPT (GPT-3.5)

79.2%

دقت بر روی مجموعه داده انگلیسی VNHSGE

یافته‌های کلیدی:

رتبه‌بندی عملکرد: Microsoft Bing Chat (92.4%) از هر دو Google Bard (86%) و OpenAI ChatGPT (79.2%) بهتر عمل کرد.
پیامد عملی: Bing Chat و Bard به عنوان جایگزین‌های عملی برای ChatGPT در آموزش زبان انگلیسی در ویتنام، که دسترسی به ChatGPT محدود است، معرفی می‌شوند.
مقایسه با انسان: هر سه مدل زبانی بزرگ از میانگین عملکرد دانش‌آموزان دبیرستانی ویتنام در همان آزمون مهارت انگلیسی فراتر رفتند که نشان‌دهنده پتانسیل آن‌ها به عنوان منابع دانشی برتر یا ابزارهای کمک‌آموزشی است.

توضیح نمودار: یک نمودار میله‌ای می‌تواند به طور موثری این سلسله مراتب عملکرد را به تصویر بکشد، که محور y دقت (%) و محور x سه مدل زبانی بزرگ را نشان می‌دهد. میله مربوط به Bing Chat بلندترین خواهد بود، سپس Bard و پس از آن ChatGPT. یک خط معیار جداگانه می‌تواند میانگین نمره دانش‌آموز ویتنامی را برای مقایسه مستقیم نشان دهد.

5. بحث

نتایج، پتانسیل قابل توجه مدل‌های زبانی بزرگ تجاری موجود را به عنوان ابزارهایی برای آموزش زبان انگلیسی نشان می‌دهد. عملکرد برتر Bing Chat ممکن است به دلیل ادغام آن با یک موتور جستجو باشد که دسترسی به اطلاعات به‌روزتر یا خاص‌تر زمینه را فراهم می‌کند. این واقعیت که همه مدل‌ها از دانش‌آموزان انسانی بهتر عمل کردند، نشان‌دهنده یک تغییر پارادایم است، جایی که هوش مصنوعی می‌تواند نه تنها به عنوان یک دستیار، بلکه به عنوان یک مرجع با صلاحیت بالا عمل کند و به طور بالقوه آموزش را شخصی‌سازی کرده و بازخورد فوری و دقیق ارائه دهد.

6. تحلیل اصلی و تفسیر کارشناسی

بینش اصلی: این مقاله صرفاً یک معیار سنجش نیست؛ یک سیگنال بازار است. در منطقه‌ای (ویتنام) که دسترسی به مدل پرچم‌دار (ChatGPT) محدود است، این پژوهش به طور پیش‌دستانه جایگزین‌های کاربردی (Bing Chat, Bard) را شناسایی و اعتبارسنجی می‌کند و رویکردی عمل‌گرا و مبتنی بر کاربرد اولیه را در پذیرش هوش مصنوعی در آموزش آشکار می‌سازد. یافته‌ای که نشان می‌دهد همه مدل‌های زبانی بزرگ از میانگین عملکرد دانش‌آموزان پیشی گرفته‌اند، صرفاً یک نکته آکادمیک نیست—بلکه یک نیروی مختل‌کننده است که نشان می‌دهد نقش هوش مصنوعی ممکن است از یک ابزار مکمل به یک عامل آموزشی اولیه یا معیار سنجش تکامل یابد.

جریان منطقی و نقاط قوت: روش‌شناسی مستقیم و تأثیرگذار است: استفاده از یک آزمون ملی شناخته شده و با اهمیت بالا به عنوان معیار ارزیابی. این امر برای مربیان و سیاست‌گذاران بلافاصله اعتبار مرتبط و قابل درک فراهم می‌کند. تمرکز بر دسترسی («آنچه واقعاً در دسترس است») به جای برتری نظری، یک نقطه قوت عمده است که پژوهش را بلافاصله قابل اجرا می‌سازد. این با روندهای ذکر شده توسط مؤسساتی مانند مؤسسه هوش مصنوعی انسان‌محور استنفورد همسو است که بر ارزیابی هوش مصنوعی در زمینه‌های واقعی و محدود تأکید می‌کنند.

نقاط ضعف و شکاف‌های انتقادی: تحلیل در سطح سطحی است. این مقاله نمرات را گزارش می‌دهد اما اطلاعات کمی در مورد ماهیت خطاها ارائه می‌دهد. آیا مدل‌ها در دستور زبان، درک مطلب یا ظرافت‌های فرهنگی شکست خوردند؟ این ارزیابی جعبه سیاه، بازتابی از یک محدودیت در خود این حوزه است. علاوه بر این، مقایسه با نمره «میانگین» دانش‌آموز از نظر آماری سطحی است. یک تحلیل قوی‌تر، مشابه نظریه پاسخ به آیتم مورد استفاده در روان‌سنجی، می‌تواند مهارت مدل را به سطوح مهارت خاص در آزمون نگاشت دهد. این مقاله همچنین به طور کامل از مسئله حیاتی چگونگی ادغام این ابزارها اجتناب می‌کند. صرف داشتن یک هوش مصنوعی با نمره بالا به معنای پداگوژی مؤثر نیست، چالشی که به طور گسترده در مجله بین‌المللی هوش مصنوعی در آموزش مستند شده است.

بینش‌های قابل اجرا: برای مربیان در بازارهای مشابه با دسترسی محدود، این مقاله یک راهنما است: 1) معیارسنجی محلی: به تبلیغات جهانی تکیه نکنید؛ ابزارهای موجود را در برابر برنامه درسی خاص خود آزمایش کنید. 2) فراتر از رهبر نگاه کنید: مدل‌های رقیب ممکن است عملکرد کافی یا به لحاظ زمینه‌ای بهتری ارائه دهند. 3) بر «چگونگی» تمرکز کنید: فاز پژوهشی فوری بعدی باید از این که آیا مدل‌های زبانی بزرگ کار می‌کنند به سمت چگونگی استقرار مسئولانه آن‌ها تغییر کند—طراحی دستورالعمل‌هایی که تفکر انتقادی را به جای بازیابی پاسخ تشویق می‌کنند، ایجاد چارچوب‌هایی برای ارزیابی تقویت‌شده با هوش مصنوعی و پرداختن به برابری در دسترسی. پیروزی واقعی نمره آزمون بالاتر هوش مصنوعی نخواهد بود، بلکه بهبود نتایج یادگیری انسانی است.

7. جزئیات فنی و چارچوب ریاضی

در حالی که مقاله به معماری مدل‌ها نمی‌پردازد، عملکرد را می‌توان از طریق لنز احتمال و دقت کار مفهوم‌سازی کرد. معیار اصلی ارزیابی دقت ($Acc$) است که به عنوان نسبت موارد پاسخ داده شده صحیح به تعداد کل موارد ($N$) تعریف می‌شود.

$Acc = \frac{\text{تعداد پاسخ‌های صحیح}}{N} \times 100\%$

برای درک ظریف‌تر، می‌توان عملکرد یک مدل زبانی بزرگ را در یک مورد آزمون چندگزینه‌ای به عنوان یک توزیع احتمال بر روی پاسخ‌های ممکن مدل کرد. اجازه دهید احتمال انتخاب پاسخ صحیح $c$ توسط مدل از مجموعه گزینه‌های $O$ برابر با $P_M(c | q, \theta)$ باشد، که در آن $q$ سوال و $\theta$ پارامترهای مدل و هر زمینه بازیابی شده (به ویژه مرتبط با افزایش جستجوی Bing Chat) را نشان می‌دهد. نمره نهایی تجمیعی از این احتمالات در تمامی موارد است. شکاف عملکرد بین مدل‌ها نشان‌دهنده تفاوت‌های قابل توجه در بازنمایی‌های داخلی آن‌ها $\theta$ یا مکانیسم‌های افزایش بازیابی $R(q)$ آن‌ها برای تولید $P_M$ است.

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. چارچوب تحلیل: یک مطالعه موردی غیرکد

سناریو: رئیس بخش انگلیسی در هانوی می‌خواهد ابزارهای هوش مصنوعی را برای پشتیبانی از دانش‌آموزان پایه دوازدهم ارزیابی کند.

کاربرد چارچوب:

تعریف هدف محلی: بهبود عملکرد دانش‌آموزان در بخش‌های دستور زبان و درک مطلب آزمون VNHSGE.
شناسایی ابزار و بررسی دسترسی: فهرست ابزارهای موجود: Bing Chat (قابل دسترس)، Google Bard (قابل دسترس)، ChatGPT (نیاز به VPN دارد، به طور رسمی پشتیبانی نمی‌شود). بر اساس یافته‌های این مقاله، دو مورد اول را اولویت‌بندی کنید.
معیارسنجی دقیق: فقط از آزمون‌های کامل گذشته استفاده نکنید. یک آزمون تشخیصی متمرکز ایجاد کنید:
- زیرمجموعه الف: 20 سوال دستور زبان (زمان، حروف اضافه).
- زیرمجموعه ب: 20 سوال درک مطلب.
- زیرمجموعه‌های الف و ب را به Bing Chat و Bard ارائه دهید. نه تنها دقت، بلکه استدلال ارائه شده در پاسخ‌های آن‌ها را ثبت کنید.
تحلیل خطا و نگاشت: خطاهای هر هوش مصنوعی را دسته‌بندی کنید. به عنوان مثال: «Bing Chat در 3 از 5 سوال مربوط به وجه التزامی شکست خورد؛ Bard برای سوالات استنباطی استدلال مختصر اما گاهی ناقص ارائه داد.»
طراحی ادغام: بر اساس تحلیل: از Bing Chat برای توضیح تمرینات دستور زبان به دلیل دقت بالاتر استفاده کنید. از پاسخ‌های Bard به عنوان «نمونه پاسخ» برای درک مطلب استفاده کنید، اما یک برگه کار دانش‌آموزی طراحی کنید که می‌پرسد: «خلاصه Bard را با خلاصه خود مقایسه کنید. چه چیزی را از قلم انداخت؟» این امر ارزیابی انتقادی را به جای پذیرش منفعلانه ترویج می‌دهد.

این چارچوب فراتر از «کدام هوش مصنوعی بهتر است» به سمت «چگونه می‌توانیم از نقاط قوت هر هوش مصنوعی به طور استراتژیک در محدودیت‌های پداگوژیک خود استفاده کنیم» حرکت می‌کند.

9. کاربردهای آینده و جهت‌های پژوهشی

کاربردهای فوری:

سیستم‌های تدریس خصوصی شخصی‌شده: استقرار Bing Chat یا Bard به عنوان هسته اصلی معلمان خصوصی هوش مصنوعی که تمرین و توضیح بر اساس تقاضا و متناسب با برنامه درسی VNHSGE ارائه می‌دهند.
تولید خودکار مواد آموزشی: استفاده از این مدل‌های زبانی بزرگ برای ایجاد سوالات تمرینی، انشاهای نمونه و توضیحات ساده شده از متون پیچیده همسو با برنامه درسی ملی.
ابزار پشتیبانی معلم: کمک به معلمان در نمره‌دهی، ارائه بازخورد بر روی نوشته‌های دانش‌آموزان و ایجاد ایده‌های طرح درس.

جهت‌های پژوهشی حیاتی:

مهندسی دستورالعمل برای پداگوژی: پژوهش سیستماتیک در طراحی دستورالعمل‌هایی که مدل‌های زبانی بزرگ را مجبور به توضیح استدلال، شناسایی سوءتفاهم‌های دانش‌آموزی یا داربست‌سازی یادگیری می‌کنند، نه فقط دادن پاسخ.
مطالعات تأثیر طولی: آیا استفاده از یک معلم خصوصی هوش مصنوعی واقعاً نتایج یادگیری دانش‌آموزان و نمرات آزمون را در طول یک ترم یا سال بهبود می‌بخشد؟ مطالعات کنترل شده مورد نیاز است.
ارزیابی چندوجهی: آزمون‌های با اهمیت بالا در آینده ممکن است شامل بخش شفاهی باشند. ارزیابی قابلیت‌های تشخیص و تولید گفتار مدل‌های زبانی بزرگ در یک زمینه آموزشی، مرز بعدی است.
برابری و دسترسی: پژوهش در مورد کاهش خطر گسترش شکاف دیجیتال—اطمینان از این که مزایا به دانش‌آموزان در مدارس کم‌منابع بدون اینترنت یا دستگاه‌های قابل اعتماد می‌رسد.
انطباق فرهنگی و زمینه‌ای: تنظیم دقیق یا توسعه مکانیسم‌های بازیابی که به مدل‌های زبانی بزرگ جهانی اجازه می‌دهد تا مواد آموزشی، تاریخ و فرهنگ محلی ویتنام را بهتر درک و ارجاع دهند.

10. منابع

Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.