حل سوالات تکمیل جمله‌ی ESL با استفاده از مدل‌های زبانی عصبی از پیش آموزش‌دیده

فهرست مطالب

1. مقدمه

سوالات تکمیل جمله (SC) ابزاری اساسی در ارزیابی مهارت انگلیسی به عنوان زبان دوم (ESL) هستند. این سوالات یک جمله با یک یا چند جای خالی و مجموعه‌ای از کلمات یا عبارات نامزد ارائه می‌دهند. خودکارسازی حل این سوالات مزایای قابل توجهی برای زبان‌آموزان (بازخورد فوری)، مربیان (ارزیابی کیفیت سوال) و توسعه سیستم‌های هوشمند آموزشی فراهم می‌کند.

رویکردهای محاسباتی قبلی، مانند مدل‌های زبانی n-gram یا مدل‌های زبانی تخصصی جای خالی، در محیط‌های آموزشی واقعی با چالش‌هایی مواجه هستند: گزینه‌های گمراه‌کننده بسیار پیچیده طراحی شده توسط متخصصان، نیاز به دانش زبانی عمیق (دستور زبان، نحو، معناشناسی) و تعداد متغیر جای خالی‌ها و توکن‌ها برای هر جای خالی.

این کار یک چارچوب عصبی را پیشنهاد می‌دهد که از مدل‌های زبانی در مقیاس بزرگ از پیش آموزش‌دیده برای مقابله با این چالش‌ها استفاده می‌کند و عملکرد برتر را روی یک مجموعه داده واقعی ESL در سطح K-12 نشان می‌دهد.

2. رویکرد ما

2.1 فرمول‌بندی مسئله

یک سوال SC به عنوان یک تاپل $(q, O)$ تعریف می‌شود، که در آن $q$ جمله‌ای با $m$ جای خالی است که با توکن‌های `[MASK]` نشان داده شده‌اند، و $O = \{o_1, o_2, ..., o_n\}$ مجموعه $n$ گزینه نامزد (معمولاً ۳ تا ۵) است. هر گزینه $o_i$ دنباله‌ای از توکن‌هاست که برای پر کردن همه جای خالی‌ها به صورت جمعی در نظر گرفته شده است. هدف انتخاب گزینه $o^* \in O$ است که جمله تکمیل شده را معتبرترین می‌سازد.

2.2 معماری مدل

هسته این رویکرد یک مدل دنباله به دنباله مبتنی بر معماری ترنسفورمر است که با هدف رمزگذار خودکار نویززدایی (مانند BART یا T5) از پیش آموزش دیده است. مدل برای وظیفه SC تنظیم دقیق شده است. برای یک سوال $q$ و یک گزینه $o_i$، مدل وظیفه بازسازی جمله اصلی و کامل را بر عهده دارد.

ورودی به رمزگذار، دنباله مخدوش شده (سوال با جای خالی‌ها) است. رمزگشا بر اساس این شرط‌گذاری شده و باید جمله اصلی را تولید کند. گزینه $o_i$ در جای خالی‌های $q$ قرار می‌گیرد تا دنباله هدف برای رمزگشا ایجاد شود. عملکرد مدل با لگاریتم منفی درست‌نمایی تولید دنباله هدف با توجه به ورودی امتیازدهی می‌شود.

2.3 آموزش و استنتاج

در طول آموزش، مدل یاد می‌گیرد که جملات را از نسخه‌های ماسک شده آن‌ها بازسازی کند. برای استنتاج، با توجه به یک سوال $q$ و گزینه‌های آن $O$، مدل یک امتیاز $s_i$ برای هر گزینه $o_i$ محاسبه می‌کند: $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. آزمایش‌ها و نتایج

3.1 مجموعه داده

از یک مجموعه داده واقعی جمع‌آوری شده از یک پلتفرم آموزشی آنلاین K-12 استفاده شد. این مجموعه شامل هزاران سوال SC است که توسط متخصصان آموزش انگلیسی برای زبان‌آموزان ESL چینی ایجاد شده است. این مجموعه داده شامل سوالاتی با ۱ تا ۳ جای خالی و گزینه‌های گمراه‌کننده با کیفیت بالا و مشابه از نظر معنایی است.

آمار مجموعه داده

منبع: پلتفرم آنلاین واقعی K-12

تعداد سوالات: چندین هزار

تعداد جای خالی در هر سوال: ۱ تا ۳

تعداد گزینه در هر سوال: ۳ تا ۵

3.2 مدل‌های پایه

مدل پیشنهادی با چندین مدل پایه قوی مقایسه شد:

مدل زبانی N-gram: یک مدل آماری سنتی که روی یک پیکره بزرگ آموزش دیده است.
مدل زبانی جای خالی [Shen و همکاران]: یک مدل زبانی تکراری تخصصی برای پر کردن جای خالی‌ها.
مدل زبانی ماسک شده (مانند BERT): استفاده از یک مدل زبانی ماسک شده از پیش آموزش‌دیده برای امتیازدهی احتمال توکن‌های گزینه در موقعیت‌های جای خالی.
مدل زبانی دنباله به دنباله (بدون پیش‌آموزش): یک مدل ترنسفورمر استاندارد که از ابتدا روی وظیفه SC آموزش دیده است.

3.3 نتایج اصلی

مدل دنباله به دنباله از پیش آموزش‌دیده پیشنهادی، از نظر دقت پیش‌بینی در مجموعه آزمون نگه‌داشته شده، به طور قابل توجهی از تمام مدل‌های پایه بهتر عمل کرد. مزیت کلیدی ناشی از پیش‌آموزش آن روی پیکره‌های متنی عظیم است که به آن دانش زبانی عمیق و دانش جهانی حیاتی برای رفع ابهام از گزینه‌های گمراه‌کننده ظریف می‌بخشد. فرمول‌بندی دنباله به دنباله همچنین به طور طبیعی چندین جای خالی و گزینه‌های چندتوکنی را مدیریت می‌کند.

3.4 تحلیل دقت-بازخوانی

مقاله یک تحلیل مبادله دقت-بازخوانی برای بحث در مورد استقرار عملی انجام داد. با تنظیم آستانه امتیاز برای پذیرش یک پاسخ، سیستم می‌تواند برای دقت بالا (ارائه بازخورد فقط زمانی که بسیار مطمئن است، به حداقل رساندن خطاها) یا بازخوانی بالا (تلاش برای پاسخ به سوالات بیشتر، احتمالاً با اشتباهات بیشتر) تنظیم شود. این امر برای کاربردهای آموزشی واقعی که هزینه بازخورد نادرست بالا است، حیاتی است.

4. بینش‌های کلیدی و تحلیل

بینش اصلی: پیشرفت بنیادی مقاله صرفاً اعمال یک مدل از پیش آموزش‌دیده روی یک وظیفه جدید نیست؛ بلکه تشخیص این است که هدف نویززدایی دنباله به دنباله یک نماینده تقریباً کامل برای فرآیند شناختی پشت حل سوالات SC است. مدل صرفاً یک کلمه را انتخاب نمی‌کند؛ بلکه به طور ذهنی جمله را "تکمیل" می‌کند و برای انسجام بررسی می‌کند - فرآیندی که با بازسازی جمله کامل از یک نسخه ماسک شده منعکس می‌شود. این رویکردی ظریف‌تر و قدرتمندتر از صرفاً استفاده از یک مدل زبانی ماسک شده برای امتیازدهی توکن‌های فردی است که وابستگی‌های متقابل بین چندین جای خالی را درک نمی‌کند.

جریان منطقی: استدلال به طور قانع‌کننده‌ای ساده است: ۱) سوالات ESL واقعی به دلیل گزینه‌های گمراه‌کننده طراحی شده توسط متخصصان و محدودیت‌های زبانی پیچیده دشوار هستند. ۲) روش‌های سنتی و حتی عصبی اولیه فاقد درک ظریف برای مقابله با این هستند. ۳) مدل‌های زبانی در مقیاس بزرگ از پیش آموزش‌دیده، به ویژه آن‌هایی که با هدف نویززدایی آموزش دیده‌اند (مانند BART یا T5)، این درک ظریف را دارند. ۴) بنابراین، قالب‌بندی SC به عنوان یک وظیفه بازسازی دنباله با استفاده از این مدل‌ها باید نتایج پیشرفته‌ای به همراه داشته باشد. آزمایش‌ها به طور محکمی این جریان را تأیید می‌کنند.

نقاط قوت و ضعف: نقطه قوت اصلی، ظرافت مفهومی و موفقیت تجربی روش است. استفاده از یک مجموعه داده واقعی K-12، نه یک پیکره آکادمیک پاک‌شده، اعتبار عملی فوق‌العاده‌ای می‌افزاید. تحلیل دقت-بازخوانی نشان‌دهنده ملاحظه دقیق برای استقرار است. ضعف اصلی، که در بسیاری از مقالات هوش مصنوعی در آموزش مشترک است، ماهیت جعبه سیاه راه‌حل است. این راه‌حل بازخورد قابل توضیح ارائه نمی‌دهد - یک دانش‌آموز "گزینه D صحیح است" را دریافت می‌کند اما نه "چون 'must' نشان‌دهنده قطعیت منطقی در بند اول است، و 'can't' نفی صحیح در بند دوم بر اساس شواهد 'hates black color' است." همانطور که در مرور ۲۰۲۲ "هوش مصنوعی قابل توضیح برای آموزش" (XAIED) ذکر شده است، این فقدان تفسیرپذیری، کاربرد آموزشی مستقیم را محدود می‌کند. علاوه بر این، عملکرد مدل ذاتاً به داده‌های پیش‌آموزش آن وابسته است که ممکن است حاوی سوگیری باشد یا پوشش الگوهای خطای خاص ESL را نداشته باشد.

بینش‌های عملی: برای شرکت‌های فناوری آموزشی، این تحقیق یک نقشه راه آماده است. اولین قدم تنظیم دقیق یک مدل مانند T5 یا BART روی بانک‌های سوال اختصاصی است. با این حال، مزیت رقابتی واقعی صرفاً از دقت حاصل نمی‌شود، بلکه از قابل توضیح بودن حاصل می‌شود. تکرار بعدی باید تکنیک‌هایی از هوش مصنوعی تفسیرپذیر را ادغام کند - شاید با استفاده از وزن‌های توجه برای برجسته کردن بخش‌های جمله مرتبط‌ترین با پاسخ انتخاب شده یا تولید توجیهات زبان طبیعی. ثانیاً، کاربرد اصلی این فناوری در آزمون‌های پرریسک نیست، بلکه در تمرین و ارزیابی تکوینی است. ادغام آن در پلتفرم‌های یادگیری سازگار برای تولید سوالات تمرینی بی‌نهایت و شخصی‌سازی شده (با ماسک کردن کلمات در متون معتبر) یک جهت منطقی و باارزش است، که از یک حل‌کننده به یک تولیدکننده حرکت می‌کند، همانطور که در مقدمه اشاره شده است.

5. جزئیات فنی

مدل از چارچوب رمزگذار-رمزگشای معماری ترنسفورمر استفاده می‌کند. هدف پیش‌آموزش حیاتی است. برای مدلی مانند BART، با مخدوش کردن متن با یک تابع نویزدهی دلخواه (مانند ماسک کردن توکن، جابجایی جمله، چرخش سند) آموزش می‌بیند و سپس یاد می‌گیرد متن اصلی را بازسازی کند. این آن را برای وظیفه SC ایده‌آل می‌سازد، که شکلی کنترل‌شده از مخدوش‌سازی و بازسازی متن است.

هدف تنظیم دقیق، به حداقل رساندن تابع زیان آنتروپی متقاطع بین توزیع خروجی رمزگشا و دنباله هدف (جمله تکمیل شده با گزینه صحیح) است. برای یک دسته از داده‌ها، تابع زیان به صورت زیر است: $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. مثال چارچوب تحلیل

سناریو: ارزیابی یک مدل نامزد برای یک وظیفه SC.

کاربرد چارچوب:

تجزیه وظیفه: سوال SC را تجزیه کنید: تعداد جای خالی‌ها، نقش دستوری یا نحوی مورد نیاز برای هر یک، و رابطه معنایی بین سرنخ‌های جمله و پاسخ صحیح را شناسایی کنید.
امتیازدهی مدل: برای هر گزینه، از مدل برای محاسبه امتیاز دنباله $s_i$ استفاده کنید. به عنوان مثال، برای سوال "He _ to the store yesterday،" با گزینه‌های {go, went, goes}، مدل دنباله "He went to the store yesterday" را به دلیل تطابق صحیح زمان گذشته بالاترین امتیاز می‌دهد.
تحلیل خطا: اگر مدل شکست خورد، حالت شکست را تحلیل کنید. آیا "go" را انتخاب کرد؟ این نشان‌دهنده ضعف در درک زمان دستوری است. آیا "goes" را انتخاب کرد؟ این نشان‌دهنده ضعف در تطابق فاعل-فعل است. این تحلیل، جمع‌آوری داده بیشتر یا تنظیم مدل را هدایت می‌کند.
ارزیابی قدرت گزینه گمراه‌کننده: از توزیع امتیاز مدل در بین گزینه‌ها استفاده کنید. یک امتیاز بالا برای پاسخ صحیح و امتیازهای بسیار پایین برای گزینه‌های گمراه‌کننده نشان‌دهنده یک سوال آسان است. اگر دو گزینه امتیازهای مشابه و بالایی داشته باشند، نشان‌دهنده یک گزینه گمراه‌کننده با کیفیت بالا و گیج‌کننده است که برای ارزیابی تشخیصی ارزشمند است.

این چارچوب فراتر از دقت ساده به سمت درک تشخیصی از قابلیت‌های دانش‌آموز و مدل حرکت می‌کند.

7. کاربردها و جهت‌های آینده

ادغام هوش مصنوعی قابل توضیح (XAI): حیاتی‌ترین جهت، تکامل از یک "حل‌کننده جعبه سیاه" به یک "مربی قابل توضیح" است. مدل‌های آینده باید استدلال‌ها را تولید کنند، شواهد کلیدی جمله را برجسته کنند یا حتی قاعده دستوری خاص مورد آزمایش را شناسایی کنند.
تولید گزینه گمراه‌کننده شخصی‌سازی شده: مدل می‌تواند برای تولید گزینه‌های گمراه‌کننده معقول اما نادرست متناسب با الگوهای خطای رایج یک دانش‌آموز استفاده شود و تمرین فوق‌شخصی‌سازی شده ایجاد کند.
تولید خودکار سوال (AQG): فرآیند را معکوس کنید. با توجه به یک متن، مدل می‌تواند کلمات کلیدی برای ماسک کردن را شناسایی کند و گزینه‌های گمراه‌کننده معقول تولید کند، و به طور خودکار سوالات SC جدید برای بانک‌های تمرین ایجاد کند و تولید محتوا را به طور گسترده مقیاس‌دهی کند.
گسترش چندوجهی: برای یادگیرندگان جوان‌تر یا زمینه‌های خاص، سوالات SC ممکن است شامل تصاویر باشند. کار آینده می‌تواند شامل مدل‌های از پیش آموزش‌دیده چندوجهی (مانند VL-T5) برای حل یا تولید سوالات ترکیبی از سرنخ‌های متنی و تصویری باشد.
انتقال بین‌زبانی: اعمال چارچوب به زبان‌های دیگر با استفاده از مدل‌های از پیش آموزش‌دیده چندزبانه (مانند mT5)، کمک به زبان‌آموزان ESL که زبان اول آن‌ها چینی نیست.

8. مراجع

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.