انتخاب زبان

یادگیری زبان دوم در مدل‌های زبانی عصبی: یک دیدگاه زبان‌شناختی

تحلیلی از چگونگی یادگیری زبان دوم توسط مدل‌های زبانی عصبی، با بررسی انتقال بین‌زبانی، تأثیر زبان اول و تعمیم زبان‌شناختی.
learn-en.org | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - یادگیری زبان دوم در مدل‌های زبانی عصبی: یک دیدگاه زبان‌شناختی

1. مقدمه

این پژوهش، انتقال‌پذیری بین‌زبانی مدل‌های زبانی عصبی را از منظر یادگیری زبان دوم بررسی می‌کند. در حالی که تحقیقات پیشین بر یادگیری زبان اول متمرکز بوده‌اند، این مطالعه به چگونگی تأثیر دانش زبان اول بر کارایی یادگیری دستور زبان دوم می‌پردازد. سوال پژوهشی اصلی این است: یادگیری زبان اول در مدل‌های زبانی چگونه بر کارایی یادگیری دستور زبان دوم تأثیر می‌گذارد؟

انگیزه این کار از مشاهداتی ناشی می‌شود که نشان می‌دهد مدل‌های زبانی بزرگ انگلیسی، با حداقل داده آموزشی غیرانگلیسی، قابلیت ترجمه از خود نشان می‌دهند که حاکی از انتقال کارآمد بین‌زبانی است. با این حال، اکثر ارزیابی‌ها بر معیارهای کلی مانند پراکندگی یا دقت در وظایف پایین‌دستی متکی هستند. این مطالعه قصد دارد با تحلیل انتقال از منظر زبان‌شناختی و تمرکز بر یادگیری دانش دستوری و تمایلات انتقال زبانی، این شکاف را پر کند.

2. روش آزمایش

طرح آزمایشی، سناریویی شبیه‌سازی شده از یادگیری زبان دوم توسط انسان را بازتاب می‌دهد:

  1. پیش‌آموزش زبان اول (یادگیری زبان اول): آموزش یک مدل زبانی پوشیده تک‌زبانه بر روی یک زبان اول خاص (فرانسوی، آلمانی، روسی یا ژاپنی).
  2. آموزش زبان دوم (یادگیری زبان دوم): آموزش بیشتر مدل بر روی انگلیسی (زبان دوم) در محیط دو زبانه.
  3. ارزیابی: تحلیل تأثیر زبان اول بر زبان دوم از طریق آزمون قضاوت دستوری انگلیسی با استفاده از معیار BLiMP.

حجم داده آموزشی محدود شده است تا مقایسه بهتری با تمایلات یادگیری زبان دوم در انسان امکان‌پذیر شود. زبان‌های اول انتخاب شده، سطوح مختلف فاصله گونه‌شناختی و دشواری فرضی انتقال به انگلیسی را نمایندگی می‌کنند.

3. سوگیری‌های استقرایی روش‌های آموزش زبان دوم

آزمایش‌های اولیه، تنظیمات مختلف داده زبان دوم را بررسی کردند:

  • آموزش تنها بر روی متون تک‌زبانه زبان دوم (انگلیسی).
  • آموزش بر روی جفت‌های ترجمه زبان اول-زبان دوم.

یافته کلیدی: تغذیه جفت‌های ترجمه زبان اول-زبان دوم به مدل‌های زبانی، در مقایسه با تغذیه تنها متون تک‌زبانه زبان دوم در هر دو دوره، یادگیری دستور زبان دوم آن‌ها را کند کرد. این نشان می‌دهد که روش در معرض قرارگیری زبان دوم، تأثیر قابل توجهی بر کارایی یادگیری دارد.

4. تأثیر آموزش زبان اول بر یادگیری دستور زبان دوم

4.1 دانش زبان اول، تعمیم زبان دوم را تقویت می‌کند

مدل‌هایی که پیش‌آموزش زبان اول داشتند، در مقایسه با مدل‌هایی که از ابتدا بر روی زبان دوم آموزش دیده بودند، تعمیم زبان‌شناختی بهتری در زبان دوم نشان دادند. این نشان می‌دهد که دانش زبان‌شناختی قبلی (حتی در زبانی متفاوت)، یک سوگیری استقرایی مفید برای کسب ساختارهای زبانی جدید فراهم می‌کند.

4.2 انتخاب زبان اول بر عملکرد زبان دوم تأثیر می‌گذارد

زبان اول مبدأ، به طور قابل توجهی بر عملکرد تعمیم زبان دوم (انگلیسی) تأثیر گذاشت. مدل‌هایی با زبان اول فرانسوی یا آلمانی، عملکردی به مراتب بهتر از مدل‌هایی با زبان اول ژاپنی یا روسی داشتند. این سلسله مراتب با دشواری انتقال زبانی تعریف شده توسط انسان (چیزویک و میلر، ۲۰۰۴) همسو است، جایی که شباهت گونه‌شناختی (مانند زبان‌های ژرمنی/رومی به انگلیسی) انتقال را تسهیل می‌کند.

4.3 تأثیرات متفاوت بر انواع دستور زبان

پیش‌آموزش زبان اول، تأثیرات متفاوتی بر پدیده‌های دستوری مختلف در زبان دوم داشت:

  • دستیابی‌های بزرگتر: موارد صرفی و نحوی (مانند مطابقت فاعل-فعل، ترتیب کلمات).
  • دستیابی‌های کوچکتر: موارد معنایی و رابط معنایی-نحوی (مانند دامنه سور، بایندینگ).

این موضوع نشان می‌دهد که دانش نحوی انتزاعی ممکن است راحت‌تر از دانش خاص معنایی یا دانش رابط، منتقل شود.

5. فرآیند یادگیری زبان دوم

5.1 پیشرفت و ناکارآمدی داده

تحلیل مسیر یادگیری نشان داد که کسب دانش زبان دوم، تا زمانی که مدل کل مجموعه داده زبان دوم را بارها (مثلاً ۵۰ تا ۱۰۰ دوره) مشاهده نکرده بود، به طور قابل توجهی پیشرفت نکرد. این نشان‌دهنده درجه‌ای از ناکارآمدی داده در فرآیند یادگیری زبان دوم این مدل‌های زبانی است. علاوه بر این، مطالعه، تخریب دانش زبان اول را در طول آموزش زبان دوم مشاهده کرد که بر وجود یک مبادله و نیاز به تعادل بین دانش زبانی مبدأ و مقصد تأکید دارد.

6. بینش اصلی و دیدگاه تحلیلگر

بینش اصلی: این مقاله حقیقت مهم و اغلب نادیده گرفته‌شده‌ای را ارائه می‌دهد: مدل‌های زبانی عصبی، موتورهای آماری بی‌طرف نسبت به زبان نیستند. «زبان اول» آن‌ها، یک سوگیری ساختاری عمیق برجای می‌گذارد که کارایی و مسیر یادگیری «زبان دوم» را دیکته می‌کند. یافته‌ای که نشان می‌دهد جفت‌های ترجمه می‌توانند یادگیری دستور زبان دوم را مختل کنند، به ویژه ضد شهودی است و باور رایج در آموزش چندزبانه را به چالش می‌کشد.

جریان منطقی: این پژوهش به زیبایی زبان‌شناسی محاسباتی و نظریه یادگیری زبان دوم را به هم پیوند می‌دهد. با یک فرضیه واضح (زبان اول بر کارایی زبان دوم تأثیر می‌گذارد) شروع می‌کند، یک الگوی کنترل‌شده شبیه انسان (داده محدود، زبان‌های اول خاص) طراحی می‌کند، تغییرات آموزشی را به روشی منظم آزمایش می‌کند و در نهایت به تحلیل زبان‌شناختی ریزدانه ختم می‌شود. جریان از انتقال کلان (انتخاب زبان) به انتقال خرد (نوع دستور) از نظر منطقی مستحکم است.

نقاط قوت و ضعف: نقطه قوت اصلی، ریزدانه‌بندی زبان‌شناختی آن است. فراتر رفتن از معیارهای تجمیعی مانند دقت و تشریح عملکرد بر روی پدیده‌های نحوی BLiMP، یک دستاورد قابل توجه است که یادآور الگوی کاوشگری است که توسط آثاری مانند «BERT به چه چیزی نگاه می‌کند؟» (کلارک و همکاران، ۲۰۱۹) رایج شد. چارچوب مقایسه انسان-مدل زبانی نیز نوآورانه است. ضعف اصلی، مقیاس است. استفاده از مدل‌های زبانی کوچکتر (که با داده محدود مشخص می‌شود)، قابلیت اعمال مستقیم به مدل‌های زبانی بزرگ مدرن مانند GPT-4 یا LLaMA را محدود می‌کند، که قابلیت‌های بین‌زبانی چندتایی آن‌ها حیرت‌آور است. مطالعه این موضوع را تصدیق می‌کند اما همچنان یک شکاف باقی می‌ماند. علاوه بر این، «فراموشی فاجعه‌بار» زبان اول ذکر شده اما به طور عمیق تحلیل نشده است - یک فرصت از دست رفته.

بینش‌های قابل اجرا: برای متخصصان، این پژوهش توصیه می‌کند که از یک استراتژی یکسان برای همه زبان‌ها اجتناب شود. هنگام ساخت یک مدل برای یک زبان هدف، زبان(های) پیش‌آموزش را بر اساس شباهت گونه‌شناختی به صورت استراتژیک انتخاب کنید. به عنوان مثال، بهبود عملکرد زبان تایلندی ممکن است بیشتر از پیش‌آموزش بر روی زبان‌های مرتبط خانواده تای-کادای بهره ببرد تا صرفاً انگلیسی. یافته ناکارآمدی داده، نیاز به تحقیق در مورد رویکردهای مبتنی بر برنامه درسی یا فرا-یادگیری برای آموزش زبان دوم را طلب می‌کند، به جای آموزش ادامه‌ای با زور بی‌رویه. در نهایت، این حوزه باید تکنیک‌های یادگیری مستمر بهتری برای کاهش فراموشی زبان اول در طول یادگیری زبان دوم توسعه دهد، چالشی که در یادگیری چندوجهی نیز مشاهده می‌شود، همانطور که در آثاری مانند Flamingo (الایراچ و همکاران، ۲۰۲۲) دیده شده است.

7. جزئیات فنی و چارچوب ریاضی

هسته هدف مدل‌سازی زبان پوشیده مورد استفاده در پیش‌آموزش (دوولین و همکاران، ۲۰۱۹)، بیشینه‌سازی درست‌نمایی لگاریتمی بازسازی توکن‌های پوشیده است:

$\mathcal{L}_{MLM} = -\sum_{i \in M} \log P(x_i | \mathbf{x}_{\backslash M}; \theta)$

که در آن $M$ مجموعه اندیس‌های توکن پوشیده، $x_i$ توکن اصلی، $\mathbf{x}_{\backslash M}$ دنباله‌ای با توکن‌های $M$ پوشیده شده، و $\theta$ پارامترهای مدل هستند.

در مرحله یادگیری زبان دوم، پارامترهای مدل $\theta$ که از پیش‌آموزش زبان اول مقداردهی اولیه شده‌اند، بر روی ترکیبی از داده زبان اول و زبان دوم یا داده تنها زبان دوم بهینه‌سازی بیشتر می‌شوند. دستکاری کلیدی مطالعه، برنامه زمانی داده و ترکیب آن در این مرحله است که تابع زیان مؤثری که مدل بهینه‌سازی می‌کند را تغییر می‌دهد.

8. نتایج آزمایشی و توصیف نمودار

نتیجه کلیدی ۱ (شتاب‌دهی زبان اول): نمودار خطی (که توسط توصیف متنی اشاره شده است) دقت دستوری زبان دوم (بر روی BLiMP) را روی محور y در برابر دوره‌های آموزش زبان دوم روی محور x نشان می‌دهد. خطوط متعدد، مدل‌هایی با زبان‌های اول مختلف (فرانسوی، آلمانی، روسی، ژاپنی) و یک خط پایه بدون زبان اول (آموزش زبان دوم از ابتدا) را نشان می‌دهند. نمودار نشان می‌دهد که تمام مدل‌های پیش‌آموزش دیده با زبان اول، از خط پایه بالاتر شروع می‌کنند و سریع‌تر یاد می‌گیرند، و خطوط فرانسوی و آلمانی با شیب تندتر و ارتفاع بیشتری صعود می‌کنند.

نتیجه کلیدی ۲ (تفاوت نوع دستور): یک نمودار میله‌ای گروه‌بندی شده، دقت نهایی بر روی BLiMP را نمایش می‌دهد. محور x دارای دسته‌بندی‌های زیر است: صرف، نحو، معناشناسی، رابط معنایی-نحوی. برای هر دسته، دو میله وجود دارد: یکی برای «بدون پیش‌آموزش زبان اول» و یکی برای «با پیش‌آموزش زبان اول». اختلاف ارتفاع بین دو میله (دستیابی از زبان اول) به وضوح برای صرف و نحو بیشترین و برای معناشناسی کمترین خواهد بود.

9. چارچوب تحلیل: یک مثال موردی

مورد: تحلیل انتقال از زبان اول ژاپنی به زبان دوم انگلیسی برای مطابقت فاعل-فعل.

  1. ویژگی زبان‌شناختی: انگلیسی نیاز به مطابقت فاعل-فعل در شمار دارد (مثلاً «The dog runs» در مقابل «The dogs run»). ژاپنی فعل را برای مطابقت با فاعل نشانه‌گذاری نمی‌کند.
  2. فرضیه: یک مدل زبانی که بر روی ژاپنی (زبان اول) پیش‌آموزش دیده است، ممکن است در مقایسه با مدلی که بر روی فرانسوی (که دارای مطابقت است) پیش‌آموزش دیده، سوگیری اولیه ضعیف‌تری برای یادگیری این ویژگی مطابقت در انگلیسی داشته باشد.
  3. آزمایش کاوشگری: پس از آموزش زبان دوم، جفت‌های کمینه از BLiMP به مدل ارائه شود:
    • دستوری: «The key to the cabinets is on the table.»
    • غیردستوری: «The key to the cabinets are on the table.»
  4. معیار: مقایسه تخصیص درست‌نمایی مدل به شکل صحیح فعل در مقابل شکل ناصحیح. اختلاف احتمال کمتر برای مدل با زبان اول ژاپنی در مقابل مدل با زبان اول فرانسوی، فرضیه انتقال منفی از یک زبان اول فاقد مطابقت را تأیید می‌کند.

این چارچوب امکان جداسازی انتقال ویژگی‌های دستوری خاص بر اساس همترازی ساختاری زبان اول-زبان دوم را فراهم می‌کند.

10. کاربردها و جهت‌های آینده

  • مدل‌سازی زبان کم‌منبع کارآمد: انتخاب استراتژیک یک زبان «والد» پرمنبع و از نظر گونه‌شناختی مشابه برای پیش‌آموزش، قبل از تنظیم دقیق بر روی زبان کم‌منبع هدف واقعی، به منظور بهینه‌سازی کارایی داده.
  • ابزارهای یادگیری زبان شخصی‌سازی شده: توسعه مربیان هوش مصنوعی که استراتژی‌های تدریس را بر اساس زبان مادری یادگیرنده تطبیق می‌دهند و مناطق دشواری (مانند کاربرد حرف تعریف برای روسی‌زبانان) را همانطور که توسط الگوهای انتقال مدل زبانی اطلاع داده می‌شود، پیش‌بینی می‌کنند.
  • مدل‌های زبانی بزرگ چندزبانه تفسیرپذیر: استفاده از الگوی انتقال زبان اول-زبان دوم به عنوان یک تنظیم آزمایشی کنترل‌شده برای تفکیک و تجسم دانش زبان‌شناختی که در پارامترهای مدل ذخیره و منتقل می‌شود، به منظور پیشبرد تفسیرپذیری مدل.
  • اعتبارسنجی عصب‌زبان‌شناختی: همکاری با دانشمندان شناختی برای مقایسه مسیرهای یادگیری زبان دوم در مدل‌های زبانی (مانند الگوهای خطا، فلات‌های یادگیری) با داده‌های تصویربرداری مغزی یا رفتاری انسان، به منظور آزمون نظریه‌های محاسباتی یادگیری زبان.
  • مدل‌های چندزبانه پویا و بدون فراموشی: تحقیق در مورد الگوریتم‌های یادگیری مستمر که به یک مدل زبانی اجازه می‌دهد به ترتیب چندین زبان را بدون تخریب مهارت زبان قبلی کسب کند، به سمت هوش مصنوعی چندزبانه واقعی حرکت کند.

11. منابع

  1. Oba, M., Kuribayashi, T., Ouchi, H., & Watanabe, T. (2023). Second Language Acquisition of Neural Language Models. arXiv preprint arXiv:2306.02920.
  2. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
  3. Chiswick, B. R., & Miller, P. W. (2004). Linguistic Distance: A Quantitative Measure of the Distance Between English and Other Languages. Journal of Multilingual and Multicultural Development.
  4. Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP.
  5. Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
  6. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems.
  7. Papadimitriou, I., & Jurafsky, D. (2020). Pretraining on Non-English Data Improves Cross-lingual Generalization. Proceedings of the 1st Conference of the Asia-Pacific Chapter of the ACL.