1. مقدمه
این مقاله مقایسه عملکرد سه مدل زبانی بزرگ (LLM) برجسته—ChatGPT شرکت OpenAI (GPT-3.5)، Bing Chat شرکت مایکروسافت و Bard شرکت گوگل—را بر روی مجموعه داده امتحان نهایی انگلیسی دبیرستان ویتنام (VNHSGE) ارائه میدهد. هدف این مطالعه ارزیابی قابلیتهای آنها در چارچوب خاص آموزش زبان انگلیسی در دبیرستانهای ویتنام است، به ویژه با توجه به این که دسترسی رسمی به ChatGPT در ویتنام وجود ندارد. این پژوهش به سه پرسش کلیدی در مورد عملکرد مدلها، مقایسه با دانشآموزان انسانی و کاربردهای بالقوه مدلهای زبانی بزرگ در این محیط آموزشی میپردازد.
2. کارهای مرتبط
مقاله خود را در بستر گستردهتر ادغام هوش مصنوعی در آموزش قرار میدهد و پتانسیل تحولآفرین مدلهای زبانی بزرگ مانند معماریهای BERT و GPT را برجسته میکند.
2.1 مدلهای زبانی بزرگ
مدلهای زبانی بزرگ که با معماریهای ترنسفورمر قدرت میگیرند، پتانسیل قابل توجهی در کاربردهای آموزشی، از جمله یادگیری شخصیشده، توسعه محتوا و ترجمه زبان نشان دادهاند. قابلیتهای مکالمهای شبهانسانی آنها، آنها را برای دستیاران مجازی و سیستمهای پشتیبانی یادگیری آنلاین مناسب میسازد.
3. روششناسی
روش اصلی شامل ارائه مجموعه داده انگلیسی VNHSGE به سه مدل زبانی بزرگ است. این مجموعه داده احتمالاً شامل سوالات آزمون استاندارد شدهای است که مهارت زبان انگلیسی در سطح دبیرستان را ارزیابی میکند. عملکرد با دقت پاسخهای مدلها در مقایسه با کلید پاسخ رسمی اندازهگیری میشود.
4. نتایج آزمایش
عملکرد Bing Chat
92.4%
دقت بر روی مجموعه داده انگلیسی VNHSGE
عملکرد Google Bard
86.0%
دقت بر روی مجموعه داده انگلیسی VNHSGE
عملکرد ChatGPT (GPT-3.5)
79.2%
دقت بر روی مجموعه داده انگلیسی VNHSGE
یافتههای کلیدی:
- رتبهبندی عملکرد: Microsoft Bing Chat (92.4%) از هر دو Google Bard (86%) و OpenAI ChatGPT (79.2%) بهتر عمل کرد.
- پیامد عملی: Bing Chat و Bard به عنوان جایگزینهای عملی برای ChatGPT در آموزش زبان انگلیسی در ویتنام، که دسترسی به ChatGPT محدود است، معرفی میشوند.
- مقایسه با انسان: هر سه مدل زبانی بزرگ از میانگین عملکرد دانشآموزان دبیرستانی ویتنام در همان آزمون مهارت انگلیسی فراتر رفتند که نشاندهنده پتانسیل آنها به عنوان منابع دانشی برتر یا ابزارهای کمکآموزشی است.
توضیح نمودار: یک نمودار میلهای میتواند به طور موثری این سلسله مراتب عملکرد را به تصویر بکشد، که محور y دقت (%) و محور x سه مدل زبانی بزرگ را نشان میدهد. میله مربوط به Bing Chat بلندترین خواهد بود، سپس Bard و پس از آن ChatGPT. یک خط معیار جداگانه میتواند میانگین نمره دانشآموز ویتنامی را برای مقایسه مستقیم نشان دهد.
5. بحث
نتایج، پتانسیل قابل توجه مدلهای زبانی بزرگ تجاری موجود را به عنوان ابزارهایی برای آموزش زبان انگلیسی نشان میدهد. عملکرد برتر Bing Chat ممکن است به دلیل ادغام آن با یک موتور جستجو باشد که دسترسی به اطلاعات بهروزتر یا خاصتر زمینه را فراهم میکند. این واقعیت که همه مدلها از دانشآموزان انسانی بهتر عمل کردند، نشاندهنده یک تغییر پارادایم است، جایی که هوش مصنوعی میتواند نه تنها به عنوان یک دستیار، بلکه به عنوان یک مرجع با صلاحیت بالا عمل کند و به طور بالقوه آموزش را شخصیسازی کرده و بازخورد فوری و دقیق ارائه دهد.
6. تحلیل اصلی و تفسیر کارشناسی
بینش اصلی: این مقاله صرفاً یک معیار سنجش نیست؛ یک سیگنال بازار است. در منطقهای (ویتنام) که دسترسی به مدل پرچمدار (ChatGPT) محدود است، این پژوهش به طور پیشدستانه جایگزینهای کاربردی (Bing Chat, Bard) را شناسایی و اعتبارسنجی میکند و رویکردی عملگرا و مبتنی بر کاربرد اولیه را در پذیرش هوش مصنوعی در آموزش آشکار میسازد. یافتهای که نشان میدهد همه مدلهای زبانی بزرگ از میانگین عملکرد دانشآموزان پیشی گرفتهاند، صرفاً یک نکته آکادمیک نیست—بلکه یک نیروی مختلکننده است که نشان میدهد نقش هوش مصنوعی ممکن است از یک ابزار مکمل به یک عامل آموزشی اولیه یا معیار سنجش تکامل یابد.
جریان منطقی و نقاط قوت: روششناسی مستقیم و تأثیرگذار است: استفاده از یک آزمون ملی شناخته شده و با اهمیت بالا به عنوان معیار ارزیابی. این امر برای مربیان و سیاستگذاران بلافاصله اعتبار مرتبط و قابل درک فراهم میکند. تمرکز بر دسترسی («آنچه واقعاً در دسترس است») به جای برتری نظری، یک نقطه قوت عمده است که پژوهش را بلافاصله قابل اجرا میسازد. این با روندهای ذکر شده توسط مؤسساتی مانند مؤسسه هوش مصنوعی انسانمحور استنفورد همسو است که بر ارزیابی هوش مصنوعی در زمینههای واقعی و محدود تأکید میکنند.
نقاط ضعف و شکافهای انتقادی: تحلیل در سطح سطحی است. این مقاله نمرات را گزارش میدهد اما اطلاعات کمی در مورد ماهیت خطاها ارائه میدهد. آیا مدلها در دستور زبان، درک مطلب یا ظرافتهای فرهنگی شکست خوردند؟ این ارزیابی جعبه سیاه، بازتابی از یک محدودیت در خود این حوزه است. علاوه بر این، مقایسه با نمره «میانگین» دانشآموز از نظر آماری سطحی است. یک تحلیل قویتر، مشابه نظریه پاسخ به آیتم مورد استفاده در روانسنجی، میتواند مهارت مدل را به سطوح مهارت خاص در آزمون نگاشت دهد. این مقاله همچنین به طور کامل از مسئله حیاتی چگونگی ادغام این ابزارها اجتناب میکند. صرف داشتن یک هوش مصنوعی با نمره بالا به معنای پداگوژی مؤثر نیست، چالشی که به طور گسترده در مجله بینالمللی هوش مصنوعی در آموزش مستند شده است.
بینشهای قابل اجرا: برای مربیان در بازارهای مشابه با دسترسی محدود، این مقاله یک راهنما است: 1) معیارسنجی محلی: به تبلیغات جهانی تکیه نکنید؛ ابزارهای موجود را در برابر برنامه درسی خاص خود آزمایش کنید. 2) فراتر از رهبر نگاه کنید: مدلهای رقیب ممکن است عملکرد کافی یا به لحاظ زمینهای بهتری ارائه دهند. 3) بر «چگونگی» تمرکز کنید: فاز پژوهشی فوری بعدی باید از این که آیا مدلهای زبانی بزرگ کار میکنند به سمت چگونگی استقرار مسئولانه آنها تغییر کند—طراحی دستورالعملهایی که تفکر انتقادی را به جای بازیابی پاسخ تشویق میکنند، ایجاد چارچوبهایی برای ارزیابی تقویتشده با هوش مصنوعی و پرداختن به برابری در دسترسی. پیروزی واقعی نمره آزمون بالاتر هوش مصنوعی نخواهد بود، بلکه بهبود نتایج یادگیری انسانی است.
7. جزئیات فنی و چارچوب ریاضی
در حالی که مقاله به معماری مدلها نمیپردازد، عملکرد را میتوان از طریق لنز احتمال و دقت کار مفهومسازی کرد. معیار اصلی ارزیابی دقت ($Acc$) است که به عنوان نسبت موارد پاسخ داده شده صحیح به تعداد کل موارد ($N$) تعریف میشود.
$Acc = \frac{\text{تعداد پاسخهای صحیح}}{N} \times 100\%$
برای درک ظریفتر، میتوان عملکرد یک مدل زبانی بزرگ را در یک مورد آزمون چندگزینهای به عنوان یک توزیع احتمال بر روی پاسخهای ممکن مدل کرد. اجازه دهید احتمال انتخاب پاسخ صحیح $c$ توسط مدل از مجموعه گزینههای $O$ برابر با $P_M(c | q, \theta)$ باشد، که در آن $q$ سوال و $\theta$ پارامترهای مدل و هر زمینه بازیابی شده (به ویژه مرتبط با افزایش جستجوی Bing Chat) را نشان میدهد. نمره نهایی تجمیعی از این احتمالات در تمامی موارد است. شکاف عملکرد بین مدلها نشاندهنده تفاوتهای قابل توجه در بازنماییهای داخلی آنها $\theta$ یا مکانیسمهای افزایش بازیابی $R(q)$ آنها برای تولید $P_M$ است.
$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$
$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$
8. چارچوب تحلیل: یک مطالعه موردی غیرکد
سناریو: رئیس بخش انگلیسی در هانوی میخواهد ابزارهای هوش مصنوعی را برای پشتیبانی از دانشآموزان پایه دوازدهم ارزیابی کند.
کاربرد چارچوب:
- تعریف هدف محلی: بهبود عملکرد دانشآموزان در بخشهای دستور زبان و درک مطلب آزمون VNHSGE.
- شناسایی ابزار و بررسی دسترسی: فهرست ابزارهای موجود: Bing Chat (قابل دسترس)، Google Bard (قابل دسترس)، ChatGPT (نیاز به VPN دارد، به طور رسمی پشتیبانی نمیشود). بر اساس یافتههای این مقاله، دو مورد اول را اولویتبندی کنید.
- معیارسنجی دقیق: فقط از آزمونهای کامل گذشته استفاده نکنید. یک آزمون تشخیصی متمرکز ایجاد کنید:
- زیرمجموعه الف: 20 سوال دستور زبان (زمان، حروف اضافه).
- زیرمجموعه ب: 20 سوال درک مطلب.
- زیرمجموعههای الف و ب را به Bing Chat و Bard ارائه دهید. نه تنها دقت، بلکه استدلال ارائه شده در پاسخهای آنها را ثبت کنید.
- تحلیل خطا و نگاشت: خطاهای هر هوش مصنوعی را دستهبندی کنید. به عنوان مثال: «Bing Chat در 3 از 5 سوال مربوط به وجه التزامی شکست خورد؛ Bard برای سوالات استنباطی استدلال مختصر اما گاهی ناقص ارائه داد.»
- طراحی ادغام: بر اساس تحلیل: از Bing Chat برای توضیح تمرینات دستور زبان به دلیل دقت بالاتر استفاده کنید. از پاسخهای Bard به عنوان «نمونه پاسخ» برای درک مطلب استفاده کنید، اما یک برگه کار دانشآموزی طراحی کنید که میپرسد: «خلاصه Bard را با خلاصه خود مقایسه کنید. چه چیزی را از قلم انداخت؟» این امر ارزیابی انتقادی را به جای پذیرش منفعلانه ترویج میدهد.
این چارچوب فراتر از «کدام هوش مصنوعی بهتر است» به سمت «چگونه میتوانیم از نقاط قوت هر هوش مصنوعی به طور استراتژیک در محدودیتهای پداگوژیک خود استفاده کنیم» حرکت میکند.
9. کاربردهای آینده و جهتهای پژوهشی
کاربردهای فوری:
- سیستمهای تدریس خصوصی شخصیشده: استقرار Bing Chat یا Bard به عنوان هسته اصلی معلمان خصوصی هوش مصنوعی که تمرین و توضیح بر اساس تقاضا و متناسب با برنامه درسی VNHSGE ارائه میدهند.
- تولید خودکار مواد آموزشی: استفاده از این مدلهای زبانی بزرگ برای ایجاد سوالات تمرینی، انشاهای نمونه و توضیحات ساده شده از متون پیچیده همسو با برنامه درسی ملی.
- ابزار پشتیبانی معلم: کمک به معلمان در نمرهدهی، ارائه بازخورد بر روی نوشتههای دانشآموزان و ایجاد ایدههای طرح درس.
جهتهای پژوهشی حیاتی:
- مهندسی دستورالعمل برای پداگوژی: پژوهش سیستماتیک در طراحی دستورالعملهایی که مدلهای زبانی بزرگ را مجبور به توضیح استدلال، شناسایی سوءتفاهمهای دانشآموزی یا داربستسازی یادگیری میکنند، نه فقط دادن پاسخ.
- مطالعات تأثیر طولی: آیا استفاده از یک معلم خصوصی هوش مصنوعی واقعاً نتایج یادگیری دانشآموزان و نمرات آزمون را در طول یک ترم یا سال بهبود میبخشد؟ مطالعات کنترل شده مورد نیاز است.
- ارزیابی چندوجهی: آزمونهای با اهمیت بالا در آینده ممکن است شامل بخش شفاهی باشند. ارزیابی قابلیتهای تشخیص و تولید گفتار مدلهای زبانی بزرگ در یک زمینه آموزشی، مرز بعدی است.
- برابری و دسترسی: پژوهش در مورد کاهش خطر گسترش شکاف دیجیتال—اطمینان از این که مزایا به دانشآموزان در مدارس کممنابع بدون اینترنت یا دستگاههای قابل اعتماد میرسد.
- انطباق فرهنگی و زمینهای: تنظیم دقیق یا توسعه مکانیسمهای بازیابی که به مدلهای زبانی بزرگ جهانی اجازه میدهد تا مواد آموزشی، تاریخ و فرهنگ محلی ویتنام را بهتر درک و ارجاع دهند.
10. منابع
- Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
- OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
- Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
- Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
- Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
- International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
- Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.