فهرست مطالب
1 مقدمه
پیشرفت سریع مدلهای زبانی عصبی (LMs) علاقه به پتانسیل آنها به عنوان مدلهای شناختی فراگیری زبان انسانی را برانگیخته است. با این حال، شکافهای روششناختی قابل توجهی بین پارادایمهای ارزیابی مدلهای زبانی و روشهای جاافتاده پژوهش زبانشناسی وجود دارد. این مقاله بهطور انتقادی بررسی میکند که آیا رویکردهای معیارسازی کنونی بهطور کافی پیچیدگی ساختاری زبان انسانی را ثبت میکنند و آیا مدلهای زبانی آموزشدیده بر روی دادههایی در مقیاس کودک میتوانند واقعاً درک ما از فراگیری زبان را آگاه سازند.
مقایسه مقیاس داده
BERT: 3.3 میلیارد توکن در مقابل کودک: 10 میلیون کلمه در سال
شکاف ارزیابی
معیارهای مبتنی بر قالب در مقابل معیارهای ارزیابیشده توسط انسان
2 محدودیتهای روششناختی معیارهای ارزیابی کنونی
2.1 کاستیهای معیارهای مبتنی بر قالب
معیارهای ارزیابی نحوی کنونی از همگنی ساختاری رنج میبرند که قادر به نمایندگی از تنوع موجود در زبانشناسی نظری نیستند. رویکردهای مبتنی بر قالب در معیارهایی مانند BLiMP و SyntaxGmp فاقد ساختارهای دستوری ظریفی هستند که مشخصه فراگیری زبان طبیعی است. نویسندگان نشان میدهند که هنگام آزمایش بر روی دادههای در مقیاس کوچک که فراگیری زبان کودک را مدلسازی میکنند، مدلهای زبانی عملکردی بهتر از مدلهای پایه ساده ندارند، که پرسشهایی درباره قابلیتهای زبانی واقعی آنها برمیانگیزد.
2.2 مسائل عدم تطابق مقیاس داده
اختلاف در دادههای آموزشی بین مدلهای زبانی و فراگیران انسانی چالشی بنیادین ارائه میدهد. در حالی که مدلهایی مانند BERT بر روی میلیاردها توکن آموزش میبینند، کودکان زبان را با مواجهه تقریباً 10 میلیون کلمه در سال فرا میگیرند، با دایره واژگانی که در سهسالگی به صدها کلمه اندازهگیری میشود. این عدم تطابق مقیاس، مقایسه مستقیم بین عملکرد مدل زبانی و فراگیری زبان انسانی را تضعیف میکند.
3 چارچوب آزمایشی و نتایج
3.1 ارزیابی مجموعهداده LI-Adger
این مطالعه از مجموعهداده LI-Adger استفاده میکند، مجموعهای با دقت گردآوری شده که برای قابلیت پذیرش گرادیان توسط گویشوران بومی ارزیابی شده و بهطور خاص برای بررسی دانش دستوری ساختاری طراحی شده است. این مجموعهداده زمین آزمایشی دقیقتری نسبت به معیارهای مبتنی بر قالب فراهم میکند و بینشی ارائه میدهد که آیا مدلهای زبانی قضاوتهای دستوری ظریفی را که مشخصه شایستگی زبانی انسان است، ثبت میکنند یا خیر.
3.2 تحلیل مقایسه عملکرد
نتایج آزمایشی نشان میدهد که مدلهای زبانی جملات را به روشی ناسازگار با کاربران زبان انسانی در مجموعهداده LI-Adger ارزیابی میکنند. همانطور که در شکل 1 نشان داده شده است، مدلهایی شامل BabyBERTa، AO-CHILDES، AO-NEWSELA و Wikipedia-1 همگی انحرافات قابل توجهی از الگوهای عملکرد انسانی نشان میدهند که نشاندهنده تفاوتهای بنیادین در نحوه بازنمایی و پردازش اطلاعات نحوی توسط این مدلها است.
بینشهای کلیدی
- معیارهای کنونی مدلهای زبانی فاقد تنوع ساختاری برای ارزیابی شناختی مناسب هستند
- رویکردهای مبتنی بر قالب قادر به ثبت دانش دستوری ظریف نیستند
- مجموعهدادههای ارزیابیشده توسط انسان مانند LI-Adger شکاف عملکرد بین مدل زبانی و انسان را آشکار میکنند
- عدم تطابق مقیاس داده مقایسههای مستقیم فراگیری را تضعیف میکند
4 چارچوب فنی و مبانی ریاضی
ارزیابی مدلهای زبانی بر معیارهای مبتنی بر احتمال متکی است که چگونگی پیشبینی ساختارهای دستوری توسط مدلها را ارزیابی میکند. چارچوب ریاضی هستهای شامل محاسبه احتمال توالی جملات است:
$P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, w_2, ..., w_{i-1})$
که در آن $w_i$ کلمات در یک توالی را نشان میدهد، و توانایی مدل در تخصیص احتمالات بالاتر به جملات دستوری در مقابل جملات غیردستوری، به عنوان پایهای برای ارزیابی دانش نحوی عمل میکند. با این حال، این رویکرد در ثبت قضاوتهای ظریف قابلیت پذیرش که مشخصه شایستگی زبانی انسان است، محدودیت دارد.
5 چارچوب تحلیل: نمونه مطالعه موردی
مورد: ارزیابی مطابقت فاعل-فعل
چارچوب تحلیل شامل مقایسه عملکرد مدل زبانی بر روی جفتهای مینیمال است که پدیدههای دستوری خاصی را آزمایش میکنند. برای مثال، ارزیابی تخصیص احتمالات مدل به:
- دستوری: "گربههای روی میز خوابند"
- غیردستوری: "گربههای روی میز خواب است"
چارچوب ارزیابی میکند که آیا مدل بهطور مداوم احتمالات بالاتری به ساختارهای دستوری در محیطهای نحوی متنوع تخصیص میدهد یا خیر، و فراتر از ارزیابیهای ساده مبتنی بر قالب میرود تا دانش دستوری واقعی را آزمایش کند.
6 کاربردهای آتی و جهتهای پژوهشی
پژوهش آینده باید بر توسعه چارچوبهای ارزیابی متمرکز شود که بهتر با فرآیندهای فراگیری زبان انسانی همسو باشند. جهتهای کلیدی شامل:
- ایجاد معیارهایی با قضاوتهای گرادیان قابلیت پذیرش ارزیابیشده توسط انسان
- توسعه مدلهای آموزشدیده بر روی دادههای در مقیاس کودک با محدودیتهای ورودی واقعبینانه
- ادغام یادگیری چندوجهی برای شبیهسازی بهتر فراگیری زبان انسانی
- ایجاد معیارهای ارزیابی که مسیرهای رشدی را ثبت میکنند
تحلیل تخصصی: بینش هستهای، جریان منطقی، نقاط قوت و ضعف، بینشهای عملی
بینش هستهای
مقاله نقدی ویرانگر از روشهای ارزیابی کنونی مدلهای زبانی ارائه میدهد و نشان میدهد که چگونه معیارهای مبتنی بر قالب توهمی از شایستگی زبانی ایجاد میکنند که تحت آزمایشهای دقیق فرو میریزد. نویسندگان آشکار میکنند که آنچه ما اندازهگیری میکنیم دانش دستوری واقعی نیست، بلکه تشخیص الگو بر روی مجموعهدادههای محدود مصنوعی است.
جریان منطقی
استدلال با دقتی جراحیگونه پیش میرود: ابتدا نشان دادن ناکافی بودن معیارها، سپس نشان دادن اینکه چگونه مدلهای پایه ساده با مدلهای زبانی بر روی دادههای در مقیاس کودک برابرند، و در نهایت آشکار کردن شکاف عملکرد بر روی مجموعهدادههای ارزیابیشده توسط انسان. زنجیره منطقی شکستناپذیر است - اگر مدلهای زبانی نتوانند بر مدلهای ساده بر روی دادههای در مقیاس فراگیری برتری یابند و در دستوری بودن قضاوتشده توسط انسان شکست بخورند، ارزش آنها به عنوان مدلهای شناختی اساساً مورد سؤال است.
نقاط قوت و ضعف
نقاط قوت: نقد روششناختی درخشان و دیرزمانی است که انتظار میرفت. با آشکار کردن فقر ساختاری معیارهای کنونی، نویسندگان این حوزه را وادار به مواجهه با حقایق ناراحتکننده میکنند. استفاده آنها از مجموعهدادههای ارزیابیشده توسط انسان گامی حیاتی به سوی ارزیابی معنادارتر است.
نقاط ضعف: مقاله از ارائه معیارهای جایگزین مشخص کوتاه میآید و پژوهشگران را با انتقاد اما راهنمایی سازنده محدود رها میکند. علاوه بر این، در حالی که آنها مسئله مقیاس داده را شناسایی میکنند، بهطور کافی به این سؤال نمیپردازند که آیا معماریهای کنونی میتوانند هرگز از دادههای در مقیاس کودک یاد بگیرند، صرف نظر از روشهای ارزیابی.
بینشهای عملی
تیمهای پژوهشی باید فوراً معیارهای مبتنی بر قالب را برای ارزیابی نحوی کنار گذاشته و به مجموعهدادههای قضاوتشده توسط انسان روی آورند. این حوزه نیازمند مجموعههای استاندارد و در مقیاس بزرگ از قضاوتهای گرادیان قابلیت پذیرش مشابه رویکرد LI-Adger است. بهطور بنیادیتر، ما باید بازبینی کنیم که آیا معماریهای کنونی مدلهای زبانی حتی قادر به ثبت دانش دستوری شبهانسانی هستند یا خیر، یا اینکه به رویکردهای کاملاً متفاوتی برای مدلسازی شناختی محاسباتی نیاز داریم.
7 منابع
- Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. arXiv:1912.00582
- Linzen, T., & Baroni, M. (2021). Syntactic Structure from Deep Learning. Annual Review of Linguistics
- Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. arXiv:2106.02144
- Chowdhury, S. R., & Zamparelli, R. (2018). RNN Simulations of Grammaticality Judgments on Long-distance Dependencies. Proceedings of COLING
- Goodfellow, I., et al. (2014). Generative Adversarial Networks. Advances in Neural Information Processing Systems