حل أسئلة إكمال الجمل في اللغة الإنجليزية كلغة ثانية عبر نماذج اللغة العصبية المدربة مسبقًا

جدول المحتويات

1. المقدمة

تُعد أسئلة إكمال الجمل أداة أساسية في تقييم الكفاءة في اللغة الإنجليزية كلغة ثانية. تقدم هذه الأسئلة جملة تحتوي على فراغ واحد أو أكثر ومجموعة من الكلمات أو العبارات المرشحة. يقدم أتمتة حل هذه الأسئلة فوائد كبيرة لمتعلمي اللغة (التغذية الراجعة الفورية)، والمعلمين (تقييم جودة الأسئلة)، وتطوير أنظمة التدريس الذكية.

تواجه المناهج الحسابية السابقة، مثل نماذج اللغة ذات n-gram أو نماذج اللغة المتخصصة لملء الفراغات، تحديات في بيئات التعليم الواقعية: المشتتات شديدة التعقيد التي يصممها المحترفون، والحاجة إلى معرفة لغوية عميقة (قواعد النحو، والتركيب النحوي، والدلالات)، وعدد الفراغات المتغير وعدد الرموز لكل فراغ.

يقترح هذا العمل إطارًا عصبيًا يستفيد من نماذج اللغة واسعة النطاق المدربة مسبقًا لمعالجة هذه التحديات، ويُظهر أداءً متفوقًا على مجموعة بيانات حقيقية لطلاب اللغة الإنجليزية كلغة ثانية في مراحل التعليم الأساسي والثانوي.

2. منهجيتنا

2.1 صياغة المشكلة

يُعرّف سؤال إكمال الجمل على أنه مجموعة مرتبة $(q, O)$، حيث $q$ هي الجملة التي تحتوي على $m$ فراغًا يُشار إليها برموز `[MASK]`، و $O = \{o_1, o_2, ..., o_n\}$ هي مجموعة $n$ من الخيارات المرشحة (عادةً 3-5). كل خيار $o_i$ هو سلسلة من الرموز يُقصد بها ملء جميع الفراغات معًا. الهدف هو اختيار الخيار $o^* \in O$ الذي يجعل الجملة المكتملة أكثر منطقية.

2.2 بنية النموذج

جوهر المنهجية هو نموذج من تسلسل إلى تسلسل يعتمد على بنية المحولات (Transformer)، تم تدريبه مسبقًا باستخدام هدف تشفير تلقائي لإزالة الضوضاء (مثل BART أو T5). يتم ضبط النموذج بدقة لمهمة إكمال الجمل. بالنسبة لسؤال معين $q$ وخيار $o_i$، تتمثل مهمة النموذج في إعادة بناء الجملة الأصلية الكاملة.

مدخلات المُشفر هي التسلسل المشوه (السؤال مع الفراغات). يتم تهيئة وحدة فك التشفير بناءً على هذا التسلسل ويجب أن تولد الجملة الأصلية. يتم إدخال الخيار $o_i$ في فراغات $q$ لإنشاء التسلسل الهدف لوحدة فك التشفير. يتم تقييم أداء النموذج من خلال الاحتمال اللوغاريتمي السالب لتوليد التسلسل الهدف بالنظر إلى المدخلات.

2.3 التدريب والاستدلال

أثناء التدريب، يتعلم النموذج إعادة بناء الجمل من نسخها المقنعة. للاستدلال، بالنظر إلى سؤال $q$ وخياراته $O$، يحسب النموذج درجة $s_i$ لكل خيار $o_i$: $$s_i = -\sum_{t=1}^{T} \log P(w_t | w_{

3. التجارب والنتائج

3.1 مجموعة البيانات

تم استخدام مجموعة بيانات حقيقية تم جمعها من منصة تعليمية عبر الإنترنت لمراحل التعليم الأساسي والثانوي. تحتوي على آلاف أسئلة إكمال الجمل التي أنشأها محترفو تدريس اللغة الإنجليزية لمتعلمي اللغة الإنجليزية كلغة ثانية من الصينيين. تتميز مجموعة البيانات بأسئلة تحتوي على 1-3 فراغات ومشتتات عالية الجودة ومتشابهة دلاليًا.

إحصائيات مجموعة البيانات

المصدر: منصة تعليمية حقيقية عبر الإنترنت لمراحل التعليم الأساسي والثانوي

عدد الأسئلة: عدة آلاف

الفراغات لكل سؤال: من 1 إلى 3

الخيارات لكل سؤال: من 3 إلى 5

3.2 النماذج الأساسية للمقارنة

تمت مقارنة النموذج المقترح بعدة نماذج أساسية قوية:

نموذج اللغة ذو n-gram: نموذج إحصائي تقليدي تم تدريبه على مجموعة نصية كبيرة.
نموذج اللغة للفراغات [Shen et al.]: نموذج لغة تكراري متخصص لملء الفراغات.
نموذج اللغة المقنع (مثل BERT): استخدام نموذج لغة مقنع مدرب مسبقًا لتقييم احتمالية رموز الخيار في مواقع الفراغات.
نموذج اللغة من تسلسل إلى تسلسل (غير مدرب مسبقًا): نموذج محولات قياسي تم تدريبه من الصفر على مهمة إكمال الجمل.

3.3 النتائج الرئيسية

تفوق نموذج التسلسل إلى التسلسل المدرب مسبقًا المقترح بشكل كبير على جميع النماذج الأساسية من حيث دقة التنبؤ على مجموعة الاختبار المحجوزة. تنبع الميزة الرئيسية من تدريبه المسبق على مجموعات نصية ضخمة، مما يمنحه معرفة لغوية وعالمية عميقة ضرورية للتمييز بين المشتتات الدقيقة. كما أن صياغة التسلسل إلى التسلسل تتعامل بشكل طبيعي مع الفراغات المتعددة والخيارات متعددة الرموز.

3.4 تحليل الدقة والاسترجاع

أجرت الورقة تحليلًا للمفاضلة بين الدقة والاسترجاع لمناقشة النشر العملي. من خلال ضبط عتبة الدرجة لقبول إجابة، يمكن ضبط النظام لتحقيق دقة عالية (تقديم تغذية راجعة فقط عندما يكون واثقًا جدًا، وتقليل الأخطاء) أو استرجاع عالٍ (محاولة الإجابة على المزيد من الأسئلة، ربما مع المزيد من الأخطاء). هذا أمر بالغ الأهمية للتطبيقات التعليمية الواقعية حيث تكون تكلفة التغذية الراجعة غير الصحيحة عالية.

4. الرؤى والتحليل الرئيسي

الرؤية الأساسية: الاختراق الأساسي للورقة ليس مجرد تطبيق نموذج مدرب مسبقًا على مهمة جديدة؛ بل هو إدراك أن هدف إزالة الضوضاء من تسلسل إلى تسلسل هو وكيل شبه مثالي للعملية المعرفية وراء حل أسئلة إكمال الجمل. النموذج لا يختار كلمة فحسب؛ بل هو "يكمل" الجملة ذهنيًا ويتحقق من تماسكها — وهي عملية تعكسها إعادة بناء الجملة الكاملة من نسخة مقنعة. هذه منهجية أكثر أناقة وقوة من مجرد استخدام نموذج لغة مقنع لتقييم الرموز الفردية، والذي يفشل في التقاط الاعتماد المتبادل بين الفراغات المتعددة.

التدفق المنطقي: الحجة بسيطة ومقنعة: 1) أسئلة اللغة الإنجليزية كلغة ثانية الواقعية صعبة بسبب المشتتات المصممة من قبل الخبراء والقيود اللغوية المعقدة. 2) تفتقر الطرق التقليدية وحتى العصبية المبكرة إلى الفهم الدقيق لمعالجة هذا. 3) نماذج اللغة واسعة النطاق المدربة مسبقًا، وتحديدًا تلك المدربة بهدف إزالة الضوضاء (مثل BART أو T5)، تمتلك هذا الفهم الدقيق. 4) لذلك، يجب أن يؤدي تأطير إكمال الجمل كعملية إعادة بناء تسلسل باستخدام هذه النماذج إلى نتائج متطورة. التجارب تؤكد بقوة هذا التدفق.

نقاط القوة والضعف: القوة الرئيسية هي الأناقة المفاهيمية والنجاح التجريبي للطريقة. يضيف استخدام مجموعة بيانات حقيقية لمراحل التعليم الأساسي والثانوي، وليس مجموعة أكاديمية منقحة، مصداقية عملية هائلة. يُظهر تحليل الدقة والاسترجاع اعتبارًا مدروسًا للنشر. العيب الأساسي، المشترك في العديد من أوراق الذكاء الاصطناعي في التعليم، هو طبيعة الصندوق الأسود للحل. لا يوفر تغذية راجعة قابلة للتفسير — يحصل الطالب على "D صحيحة" ولكن ليس "لأن 'must' تشير إلى اليقين المنطقي في الجملة الأولى، و 'can't' هي النفي الصحيح في الجملة الثانية بناءً على الدليل 'يكره اللون الأسود'." كما لوحظ في مراجعة عام 2022 "الذكاء الاصطناعي القابل للتفسير للتعليم" (XAIED)، فإن هذا النقص في القابلية للتفسير يحد من الفائدة التربوية المباشرة. علاوة على ذلك، يرتبط أداء النموذج بشكل أساسي ببيانات التدريب المسبق الخاصة به، والتي قد تحتوي على تحيزات أو تفتقر إلى تغطية أنماط أخطاء معينة في اللغة الإنجليزية كلغة ثانية.

رؤى قابلة للتنفيذ: بالنسبة لشركات تكنولوجيا التعليم، هذا البحث هو مخطط جاهز. الخطوة الأولى هي ضبط نموذج مثل T5 أو BART بدقة على بنوك الأسئلة الخاصة. ومع ذلك، لن يأتي الميزة التنافسية الحقيقية من مجرد الدقة بل من القابلية للتفسير. يجب أن تدمج التكرارية القادمة تقنيات من الذكاء الاصطناعي القابل للتفسير — ربما باستخدام أوزان الانتباه لتسليط الضوء على أجزاء الجملة الأكثر صلة بالإجابة المختارة أو توليد مبررات بلغة طبيعية. ثانيًا، التطبيق الأساسي لهذه التكنولوجيا ليس في الاختبارات عالية المخاطر بل في الممارسة والتقييم التكويني. دمجها في منصات التعلم التكيفي لتوليد أسئلة ممارسة لا نهائية ومخصصة (عن طريق إخفاء كلمات في نصوص أصلية) هو اتجاه منطقي وعالي القيمة، ينتقل من محلل إلى مُولد، كما تم التلميح إليه في المقدمة.

5. التفاصيل التقنية

يستفيد النموذج من إطار المُشفر/فك التشفير لبنية المحولات. هدف التدريب المسبق حاسم. بالنسبة لنموذج مثل BART، يتم تدريبه عن طريق تشويه النص بوظيفة ضوضاء عشوائية (مثل إخفاء الرموز، تبديل الجمل، تدوير المستند) ثم تعلم إعادة بناء النص الأصلي. هذا يجعله مثاليًا لمهمة إكمال الجمل، والتي هي شكل محكم من تشويه النص وإعادة بنائه.

هدف الضبط الدقيق هو تقليل فقدان الانتروبيا المتقاطعة بين توزيع مخرجات وحدة فك التشفير والتسلسل الهدف (الجملة المكتملة بالخيار الصحيح). بالنسبة لمجموعة من البيانات، دالة الخسارة هي: $$\mathcal{L} = -\frac{1}{N} \sum_{j=1}^{N} \sum_{t=1}^{T_j} \log P(w_t^{(j)} | w_{

6. مثال على إطار التحليل

السيناريو: تقييم نموذج مرشح لمهمة إكمال الجمل.

تطبيق الإطار:

تحليل المهمة: تحليل سؤال إكمال الجمل: تحديد عدد الفراغات، الدور النحوي أو التركيبي المطلوب لكل منها، والعلاقة الدلالية بين أدلة الجملة والإجابة الصحيحة.
تقييم النموذج: لكل خيار، استخدم النموذج لحساب درجة التسلسل $s_i$. على سبيل المثال، للسؤال "He _ to the store yesterday،" مع الخيارات {go, went, goes}، سيقيم النموذج التسلسل "He went to the store yesterday" بأعلى درجة بسبب اتفاق الزمن الماضي الصحيح.
تحليل الخطأ: إذا فشل النموذج، قم بتحليل نمط الفشل. هل اختار "go"؟ يشير هذا إلى ضعف في فهم الزمن النحوي. هل اختار "goes"؟ يشير هذا إلى ضعف في اتفاق الفاعل والفعل. يوجه هذا التحليل جمع المزيد من البيانات أو تعديل النموذج.
تقييم قوة المشتتات: استخدم توزيع درجات النموذج عبر الخيارات. تشير الدرجة العالية للإجابة الصحيحة والدرجات المنخفضة جدًا للمشتتات إلى سؤال سهل. إذا كان لخيارين درجات متشابهة وعالية، فهذا يشير إلى مشتت عالي الجودة ومربك، وهو ذو قيمة للتقييم التشخيصي.

ينتقل هذا الإطار من مجرد الدقة البسيطة إلى فهم تشخيصي لقدرات كل من الطالب والنموذج.

7. التطبيقات المستقبلية والاتجاهات

دمج الذكاء الاصطناعي القابل للتفسير (XAI): الاتجاه الأكثر أهمية هو التطور من محلل "صندوق أسود" إلى مدرس "قابل للتفسير". يجب أن تولد النماذج المستقبلية مبررات، أو تسلط الضوء على أدلة الجملة الرئيسية، أو حتى تحدد قاعدة القواعد النحوية المحددة التي يتم اختبارها.
توليد مشتتات مخصصة: يمكن استخدام النموذج لتوليد مشتتات معقولة ولكن غير صحيحة مصممة خصيصًا لأنماط الأخطاء الشائعة لدى الطالب، مما يخلق ممارسة فائقة التخصيص.
التوليد الآلي للأسئلة (AQG): عكس العملية. بالنظر إلى نص، يمكن للنموذج تحديد الكلمات الرئيسية لإخفائها وتوليد مشتتات معقولة، مما يخلق تلقائيًا أسئلة إكمال جمل جديدة لبنوك الممارسة، وتوسيع نطاق إنشاء المحتوى بشكل كبير.
التوسع متعدد الوسائط: بالنسبة للمتعلمين الصغار أو السياقات المحددة، قد تتضمن أسئلة إكمال الجمل صورًا. يمكن أن يشمل العمل المستقبلي نماذج مدربة مسبقًا متعددة الوسائط (مثل VL-T5) لحل أو توليد أسئلة تجمع بين أدلة نصية وبصرية.
النقل عبر اللغات: تطبيق الإطار على لغات أخرى من خلال الاستفادة من النماذج المدربة مسبقًا متعددة اللغات (مثل mT5)، مما يساعد متعلمي اللغة الإنجليزية كلغة ثانية الذين لغتهم الأم ليست الصينية.

8. المراجع

Liu, Q., Liu, T., Zhao, J., et al. (2021). Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models. arXiv:2107.07122.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
Lewis, M., Liu, Y., Goyal, N., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL.
Shen, L., Allauzen, C., & Ji, H. (2015). Blank Language Models. Proceedings of EMNLP.
Zweig, G., & Burges, C. J. (2012). A Challenge Set for Advancing Language Modeling. Proceedings of the NAACL-HLT Workshop.
Holstein, K., McLaren, B. M., & Aleven, V. (2022). Explainable AI for Education (XAIED). In The Handbook of Artificial Intelligence in Education.
Raffel, C., Shazeer, N., Roberts, A., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research.