فهرست مطالب
1. مقدمه
سوالات تکمیل جمله (SC) ابزاری اساسی در ارزیابی مهارت انگلیسی به عنوان زبان دوم (ESL) هستند. این سوالات یک جمله با یک یا چند جای خالی و مجموعهای از کلمات یا عبارات نامزد ارائه میدهند. خودکارسازی حل این سوالات مزایای قابل توجهی برای زبانآموزان (بازخورد فوری)، مربیان (ارزیابی کیفیت سوال) و توسعه سیستمهای هوشمند آموزشی فراهم میکند.
رویکردهای محاسباتی قبلی، مانند مدلهای زبانی n-gram یا مدلهای زبانی تخصصی جای خالی، در محیطهای آموزشی واقعی با چالشهایی مواجه هستند: گزینههای گمراهکننده بسیار پیچیده طراحی شده توسط متخصصان، نیاز به دانش زبانی عمیق (دستور زبان، نحو، معناشناسی) و تعداد متغیر جای خالیها و توکنها برای هر جای خالی.
این کار یک چارچوب عصبی را پیشنهاد میدهد که از مدلهای زبانی در مقیاس بزرگ از پیش آموزشدیده برای مقابله با این چالشها استفاده میکند و عملکرد برتر را روی یک مجموعه داده واقعی ESL در سطح K-12 نشان میدهد.
2. رویکرد ما
2.1 فرمولبندی مسئله
یک سوال SC به عنوان یک تاپل $(q, O)$ تعریف میشود، که در آن $q$ جملهای با $m$ جای خالی است که با توکنهای `[MASK]` نشان داده شدهاند، و $O = \{o_1, o_2, ..., o_n\}$ مجموعه $n$ گزینه نامزد (معمولاً ۳ تا ۵) است. هر گزینه $o_i$ دنبالهای از توکنهاست که برای پر کردن همه جای خالیها به صورت جمعی در نظر گرفته شده است. هدف انتخاب گزینه $o^* \in O$ است که جمله تکمیل شده را معتبرترین میسازد.
2.2 معماری مدل
هسته این رویکرد یک مدل دنباله به دنباله مبتنی بر معماری ترنسفورمر است که با هدف رمزگذار خودکار نویززدایی (مانند BART یا T5) از پیش آموزش دیده است. مدل برای وظیفه SC تنظیم دقیق شده است. برای یک سوال $q$ و یک گزینه $o_i$، مدل وظیفه بازسازی جمله اصلی و کامل را بر عهده دارد.
ورودی به رمزگذار، دنباله مخدوش شده (سوال با جای خالیها) است. رمزگشا بر اساس این شرطگذاری شده و باید جمله اصلی را تولید کند. گزینه $o_i$ در جای خالیهای $q$ قرار میگیرد تا دنباله هدف برای رمزگشا ایجاد شود. عملکرد مدل با لگاریتم منفی درستنمایی تولید دنباله هدف با توجه به ورودی امتیازدهی میشود.
2.3 آموزش و استنتاج
در طول آموزش، مدل یاد میگیرد که جملات را از نسخههای ماسک شده آنها بازسازی کند. برای استنتاج، با توجه به یک سوال $q$ و گزینههای آن $O$، مدل یک امتیاز $s_i$ برای هر گزینه $o_i$ محاسبه میکند:
$$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{ از یک مجموعه داده واقعی جمعآوری شده از یک پلتفرم آموزشی آنلاین K-12 استفاده شد. این مجموعه شامل هزاران سوال SC است که توسط متخصصان آموزش انگلیسی برای زبانآموزان ESL چینی ایجاد شده است. این مجموعه داده شامل سوالاتی با ۱ تا ۳ جای خالی و گزینههای گمراهکننده با کیفیت بالا و مشابه از نظر معنایی است. منبع: پلتفرم آنلاین واقعی K-12 تعداد سوالات: چندین هزار تعداد جای خالی در هر سوال: ۱ تا ۳ تعداد گزینه در هر سوال: ۳ تا ۵ مدل پیشنهادی با چندین مدل پایه قوی مقایسه شد:
3. آزمایشها و نتایج
3.1 مجموعه داده
آمار مجموعه داده
3.2 مدلهای پایه
3.3 نتایج اصلی
مدل دنباله به دنباله از پیش آموزشدیده پیشنهادی، از نظر دقت پیشبینی در مجموعه آزمون نگهداشته شده، به طور قابل توجهی از تمام مدلهای پایه بهتر عمل کرد. مزیت کلیدی ناشی از پیشآموزش آن روی پیکرههای متنی عظیم است که به آن دانش زبانی عمیق و دانش جهانی حیاتی برای رفع ابهام از گزینههای گمراهکننده ظریف میبخشد. فرمولبندی دنباله به دنباله همچنین به طور طبیعی چندین جای خالی و گزینههای چندتوکنی را مدیریت میکند.
3.4 تحلیل دقت-بازخوانی
مقاله یک تحلیل مبادله دقت-بازخوانی برای بحث در مورد استقرار عملی انجام داد. با تنظیم آستانه امتیاز برای پذیرش یک پاسخ، سیستم میتواند برای دقت بالا (ارائه بازخورد فقط زمانی که بسیار مطمئن است، به حداقل رساندن خطاها) یا بازخوانی بالا (تلاش برای پاسخ به سوالات بیشتر، احتمالاً با اشتباهات بیشتر) تنظیم شود. این امر برای کاربردهای آموزشی واقعی که هزینه بازخورد نادرست بالا است، حیاتی است.
4. بینشهای کلیدی و تحلیل
بینش اصلی: پیشرفت بنیادی مقاله صرفاً اعمال یک مدل از پیش آموزشدیده روی یک وظیفه جدید نیست؛ بلکه تشخیص این است که هدف نویززدایی دنباله به دنباله یک نماینده تقریباً کامل برای فرآیند شناختی پشت حل سوالات SC است. مدل صرفاً یک کلمه را انتخاب نمیکند؛ بلکه به طور ذهنی جمله را "تکمیل" میکند و برای انسجام بررسی میکند - فرآیندی که با بازسازی جمله کامل از یک نسخه ماسک شده منعکس میشود. این رویکردی ظریفتر و قدرتمندتر از صرفاً استفاده از یک مدل زبانی ماسک شده برای امتیازدهی توکنهای فردی است که وابستگیهای متقابل بین چندین جای خالی را درک نمیکند.
جریان منطقی: استدلال به طور قانعکنندهای ساده است: ۱) سوالات ESL واقعی به دلیل گزینههای گمراهکننده طراحی شده توسط متخصصان و محدودیتهای زبانی پیچیده دشوار هستند. ۲) روشهای سنتی و حتی عصبی اولیه فاقد درک ظریف برای مقابله با این هستند. ۳) مدلهای زبانی در مقیاس بزرگ از پیش آموزشدیده، به ویژه آنهایی که با هدف نویززدایی آموزش دیدهاند (مانند BART یا T5)، این درک ظریف را دارند. ۴) بنابراین، قالببندی SC به عنوان یک وظیفه بازسازی دنباله با استفاده از این مدلها باید نتایج پیشرفتهای به همراه داشته باشد. آزمایشها به طور محکمی این جریان را تأیید میکنند.
نقاط قوت و ضعف: نقطه قوت اصلی، ظرافت مفهومی و موفقیت تجربی روش است. استفاده از یک مجموعه داده واقعی K-12، نه یک پیکره آکادمیک پاکشده، اعتبار عملی فوقالعادهای میافزاید. تحلیل دقت-بازخوانی نشاندهنده ملاحظه دقیق برای استقرار است. ضعف اصلی، که در بسیاری از مقالات هوش مصنوعی در آموزش مشترک است، ماهیت جعبه سیاه راهحل است. این راهحل بازخورد قابل توضیح ارائه نمیدهد - یک دانشآموز "گزینه D صحیح است" را دریافت میکند اما نه "چون 'must' نشاندهنده قطعیت منطقی در بند اول است، و 'can't' نفی صحیح در بند دوم بر اساس شواهد 'hates black color' است." همانطور که در مرور ۲۰۲۲ "هوش مصنوعی قابل توضیح برای آموزش" (XAIED) ذکر شده است، این فقدان تفسیرپذیری، کاربرد آموزشی مستقیم را محدود میکند. علاوه بر این، عملکرد مدل ذاتاً به دادههای پیشآموزش آن وابسته است که ممکن است حاوی سوگیری باشد یا پوشش الگوهای خطای خاص ESL را نداشته باشد.
بینشهای عملی: برای شرکتهای فناوری آموزشی، این تحقیق یک نقشه راه آماده است. اولین قدم تنظیم دقیق یک مدل مانند T5 یا BART روی بانکهای سوال اختصاصی است. با این حال، مزیت رقابتی واقعی صرفاً از دقت حاصل نمیشود، بلکه از قابل توضیح بودن حاصل میشود. تکرار بعدی باید تکنیکهایی از هوش مصنوعی تفسیرپذیر را ادغام کند - شاید با استفاده از وزنهای توجه برای برجسته کردن بخشهای جمله مرتبطترین با پاسخ انتخاب شده یا تولید توجیهات زبان طبیعی. ثانیاً، کاربرد اصلی این فناوری در آزمونهای پرریسک نیست، بلکه در تمرین و ارزیابی تکوینی است. ادغام آن در پلتفرمهای یادگیری سازگار برای تولید سوالات تمرینی بینهایت و شخصیسازی شده (با ماسک کردن کلمات در متون معتبر) یک جهت منطقی و باارزش است، که از یک حلکننده به یک تولیدکننده حرکت میکند، همانطور که در مقدمه اشاره شده است.
5. جزئیات فنی
مدل از چارچوب رمزگذار-رمزگشای معماری ترنسفورمر استفاده میکند. هدف پیشآموزش حیاتی است. برای مدلی مانند BART، با مخدوش کردن متن با یک تابع نویزدهی دلخواه (مانند ماسک کردن توکن، جابجایی جمله، چرخش سند) آموزش میبیند و سپس یاد میگیرد متن اصلی را بازسازی کند. این آن را برای وظیفه SC ایدهآل میسازد، که شکلی کنترلشده از مخدوشسازی و بازسازی متن است.
هدف تنظیم دقیق، به حداقل رساندن تابع زیان آنتروپی متقاطع بین توزیع خروجی رمزگشا و دنباله هدف (جمله تکمیل شده با گزینه صحیح) است. برای یک دسته از دادهها، تابع زیان به صورت زیر است:
$$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{ سناریو: ارزیابی یک مدل نامزد برای یک وظیفه SC. کاربرد چارچوب:
6. مثال چارچوب تحلیل
این چارچوب فراتر از دقت ساده به سمت درک تشخیصی از قابلیتهای دانشآموز و مدل حرکت میکند.
7. کاربردها و جهتهای آینده
- ادغام هوش مصنوعی قابل توضیح (XAI): حیاتیترین جهت، تکامل از یک "حلکننده جعبه سیاه" به یک "مربی قابل توضیح" است. مدلهای آینده باید استدلالها را تولید کنند، شواهد کلیدی جمله را برجسته کنند یا حتی قاعده دستوری خاص مورد آزمایش را شناسایی کنند.
- تولید گزینه گمراهکننده شخصیسازی شده: مدل میتواند برای تولید گزینههای گمراهکننده معقول اما نادرست متناسب با الگوهای خطای رایج یک دانشآموز استفاده شود و تمرین فوقشخصیسازی شده ایجاد کند.
- تولید خودکار سوال (AQG): فرآیند را معکوس کنید. با توجه به یک متن، مدل میتواند کلمات کلیدی برای ماسک کردن را شناسایی کند و گزینههای گمراهکننده معقول تولید کند، و به طور خودکار سوالات SC جدید برای بانکهای تمرین ایجاد کند و تولید محتوا را به طور گسترده مقیاسدهی کند.
- گسترش چندوجهی: برای یادگیرندگان جوانتر یا زمینههای خاص، سوالات SC ممکن است شامل تصاویر باشند. کار آینده میتواند شامل مدلهای از پیش آموزشدیده چندوجهی (مانند VL-T5) برای حل یا تولید سوالات ترکیبی از سرنخهای متنی و تصویری باشد.
- انتقال بینزبانی: اعمال چارچوب به زبانهای دیگر با استفاده از مدلهای از پیش آموزشدیده چندزبانه (مانند mT5)، کمک به زبانآموزان ESL که زبان اول آنها چینی نیست.
8. مراجع
- Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
- Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
- Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
- Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
- Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
- Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.