ارزیابی مدل‌های زبانی عصبی به عنوان مدل‌های شناختی فراگیری زبان

1 مقدمه

این مقاله به‌طور انتقادی روند فزاینده استفاده از مدل‌های زبانی عصبی (LMs) به عنوان جایگزینی برای نظریه‌های فراگیری زبان انسان را بررسی می‌کند. در حالی که مدل‌های زبانی عصبی در وظایف مختلف پردازش زبان طبیعی موفقیت‌های چشمگیری داشته‌اند، ارتباط آن‌ها به عنوان مدل‌های شناختی به دلیل تفاوت‌های بنیادین در مقیاس و ماهیت داده‌های آموزشی در مقایسه با یادگیری زبان کودک زیر سؤال رفته است.

نویسندگان استدلال می‌کنند که معیارهای ارزیابی نحوی رایج (مانند BLiMP و SyntaxGym) ممکن است فاقد تنوع ساختاری و اعتبار روان‌شناختی لازم برای ارزیابی این موضوع باشند که آیا مدل‌های زبانی عصبی زبان را به شیوه‌ای شبیه انسان فرا می‌گیرند یا خیر. آن‌ها از استفاده از مجموعه‌داده‌های دقیق‌تر و تنظیم‌شده زبان‌شناختی مانند مجموعه‌داده LI-Adger که حاوی قضاوت‌های پذیرش گرادیانی از سوی گویشوران بومی است، دفاع می‌کنند.

1.1 پیامدها برای فراگیری زبان؟

این بخش نابرابری شدید داده‌ها را برجسته می‌کند: مدل‌هایی مانند BERT بر روی میلیاردها نشانه (توکن) آموزش می‌بینند، در حالی که یک کودک در سال تنها حدود ۱۰ میلیون کلمه دریافت می‌کند. کارهای اخیر تلاش کرده‌اند این شکاف را با آموزش مدل‌ها بر روی گفتار معطوف به کودک (CDS) در مقیاسی شبیه‌تر به انسان (مثلاً ۵ میلیون توکن) پر کنند. سؤال محوری این است که آیا مدل‌های آموزش‌دیده بر روی چنین ورودی "تقلیل‌یافته‌ای" همچنان می‌توانند در معیارهای رفتاری عملکرد خوبی داشته باشند و بنابراین به عنوان مدل‌های شناختی معتبر عمل کنند.

2 بینش اصلی: سراب معیارسنجی

تز اصلی مقاله چالشی مستقیم به رضایت جامعه پردازش زبان طبیعی است. عملکرد چشمگیر در معیارهای قالب‌بندی‌شده و مصنوعی مانند BLiMP توهمی از شایستگی دستوری ایجاد می‌کند. نویسندگان این را به عنوان یک دستاورد روش‌شناختی آشکار می‌کنند. هنگامی که مدل‌های زبانی عصبی بر روی مجموعه‌داده LI-Adger — مجموعه‌ای با دقت ساخته‌شده از جفت‌های کمینه که توسط زبان‌شناسان نظری برای بررسی اصول نحوی خاص طراحی شده‌اند — آزمایش می‌شوند، ارزیابی‌های آن‌ها به‌طور قابل‌توجهی از قضاوت‌های انسانی فاصله می‌گیرد. این فقط یک شکاف عملکردی نیست؛ بلکه شواهدی از یک ناهمخوانی بنیادین بازنمایی است. مدل‌های زبانی عصبی ممکن است در حال یادگیری الگوهای آماری سطحی باشند که به طور تصادفی با قالب‌های نحوی ساده همسو می‌شوند، نه ساختارهای انتزاعی و سلسله‌مراتبی که زیربنای دستور زبان انسان هستند.

3 جریان منطقی: از نابرابری داده تا نقد روش‌شناختی

استدلال با دقتی جراحی‌گونه پیش می‌رود. نخست، شکاف انکارناپذیر مقیاس داده بین آموزش مدل زبانی و فراگیری کودک را برقرار می‌کند و پژوهش "آموزش در مقیاس کوچک" را به عنوان یک اصلاح ضروری اما ناکافی قاب‌بندی می‌کند. دوم، نشان می‌دهد که حتی در این زمین بازی برابر (داده کم)، مدل‌های زبانی عصبی می‌توانند با خط‌مبناهای ساده‌تری مطابقت داشته باشند و ارزش شناختی افزوده آن‌ها را زیر سؤال می‌برد. نقطه عطف منطقی، نقد طراحی معیار است: وظایف قالب‌بندی‌شده فاقد "تنوع ساختاری" پرسش‌های زبانی واقعی هستند. شواهد قطعی و محکوم‌کننده نهایی از آزمون LI-Adger می‌آید، جایی که عملکرد مدل زبانی عصبی به‌طور صریح با شهود زبانی انسان در تضاد است. جریان به این صورت است: بیان مسئله (ناهمخوانی داده) -> راه‌حل تلاش‌شده (آموزش در مقیاس کوچک) -> آشکارسازی مسئله عمیق‌تر (ارزیابی ناقص) -> شواهد متقابل قطعی.

4 نقاط قوت و ضعف: تشریحی انتقادی

نقاط قوت: بزرگ‌ترین نقطه قوت مقاله، دقت روش‌شناختی و پایه‌گذاری بین‌رشته‌ای آن است. این مقاله فقط انتقاد نمی‌کند؛ بلکه یک جایگزین برتر (LI-Adger) ارائه می‌دهد. با پیوند دادن ارزیابی به زبان‌شناسی نظری هسته‌ای و روان‌زبان‌شناسی، معیار آنچه که شواهدی از دانش "شبه‌انسانی" را تشکیل می‌دهد را بالا می‌برد. تمرکز بر مقیاس داده نیز پیش‌بینانه است و با روندهای گسترده‌تر در یادگیری ماشین کارآمد همسو می‌شود.

نقاط ضعف و کاستی‌ها: تحلیل، اگرچه تیزبین است، به طور بالقوه شکست را بزرگنمایی می‌کند. آیا واگرایی در LI-Adger تمام شباهت‌های بین یادگیری مدل زبانی عصبی و فراگیری را بی‌اعتبار می‌کند؟ شاید نه. مقاله می‌توانست بیشتر به این بپردازد که مدل‌های زبانی عصبی چه چیزهایی را درست درک می‌کنند و چرا. علاوه بر این، به شدت بر دانش نحوی تکیه می‌کند؛ یک مدل شناختی کامل باید جنبه‌های معنایی، کاربردشناختی و یادگیری اجتماعی را نیز در نظر بگیرد. درخواست برای "داده واقعی‌تر" معتبر است اما به‌اندازه کافی مشخص نیست — چگونه ماهیت چندوجهی، تعاملی و پرخطای ورودی معطوف به کودک را مدل‌سازی کنیم؟

5 بینش‌های عملی: مسیری به پیش

برای پژوهشگران، دستورالعمل روشن است: راحتی معیارهای آسان را رها کنید. منابع زبان‌شناسی نظری (مانند پارادایم LI-Adger) و روان‌شناسی رشد را در مجموعه‌های ارزیابی ادغام کنید. اولویت را به ایجاد "معیارهای شناختی" بدهید که ویژگی‌های بارز یادگیری زبان انسان را آزمایش می‌کنند: تعمیم از داده‌های پراکنده، مقاومت در برابر نویز و پایبندی به اصول دستوری انتزاعی. برای توسعه‌دهندگان مدل، هدف باید از بیشینه‌سازی نمرات معیار به طراحی معماری‌ها و رژیم‌های آموزشی که از نظر داده کارآمد هستند و می‌توانند از ورودی شبه‌انسانی یاد بگیرند (مانند گنجاندن یادگیری برنامه‌درسی یا مکانیسم‌های یادگیری فعال الهام‌گرفته از رشد) تغییر کند. بینش نهایی: ساختن یک مدل شناختی واقعی، مسئله‌ای متفاوت — و سخت‌تر — از ساختن یک سیستم پردازش زبان طبیعی با عملکرد بالا است.

6 تحلیل اصلی: شکاف شناختی در مدل‌سازی زبان

این مقاله توسط واسکز مارتینز و همکاران، در عصری که اغلب تحت تأثیر مقیاس قرار می‌گیرد، نقدی ضروری و هشداردهنده ارائه می‌دهد. این مقاله به درستی یک تنش بنیادین را شناسایی می‌کند: در حالی که مدل‌های زبانی عصبی مدرن، به ویژه مدل‌های زبانی بزرگ (LLMs)، شایستگی زبانی سطحی چشمگیری از خود نشان می‌دهند، مسیر آن‌ها به این شایستگی به‌طور نجومی با مسیر یک کودک متفاوت است. تمرکز نویسندگان بر ناکافی بودن معیارها به ویژه هوشمندانه است. این مقاله بازتاب نگرانی‌هایی در سایر حوزه‌های هوش مصنوعی است که در آن‌ها عملکرد معیار به هوش قوی و قابل تعمیم ترجمه نمی‌شود. برای مثال، در بینایی کامپیوتر، مدل‌هایی که در ImageNet عالی عمل می‌کنند می‌توانند با اغتشاشات متخاصم ساده فریب بخورند که نشان‌دهنده فقدان درک بصری واقعی است — پدیده‌ای که در پژوهش‌هایی از مؤسساتی مانند MIT و Google Brain به تفصیل شرح داده شده است. به طور مشابه، مقاله نشان می‌دهد که موفقیت مدل‌های زبانی عصبی در BLiMP ممکن است نوعی اثر "کلور هانس" مشابه باشد، جایی که مدل‌ها از نظم‌های آماری در ساختار معیار بهره می‌برند به جای اینکه قاعده نحوی زیربنایی را یاد بگیرند.

دفاع از مجموعه‌داده LI-Adger مهم‌ترین مشارکت مقاله است. با پایه‌گذاری ارزیابی در جفت‌های کمینه و قضاوت‌های پذیرش گرادیانی — استاندارد طلایی در نحو نظری — مدل‌ها را مجبور می‌کند تا دانش دستوری بودن را نشان دهند، نه فقط احتمال. یافته‌ای که مدل‌های زبانی عصبی در اینجا شکست می‌خورند گویاست. این نشان می‌دهد که توزیع‌های احتمالی یادگرفته‌شده از پیکره‌های متنی عظیم ($P(w_n | w_{1:n-1})$) لزوماً به قضاوت‌های طبقه‌بندی‌شده یا گرادیانی که مشخصه دانش دستوری انسان هستند، همگرا نمی‌شوند. این با استدلال‌های زبان‌شناسانی مانند نوام چامسکی همسو است که مدتهاست استدلال کرده‌اند که یادگیری آماری از فرم‌های سطحی برای توضیح فقر محرک و ماهیت انتزاعی قواعد نحوی کافی نیست.

با این حال، نتیجه‌گیری مقاله نباید این باشد که مدل‌های زبانی عصبی برای علم شناختی نامربوط هستند. در عوض، چالش را بازتعریف می‌کند. آینده در مدل‌سازی "آگاه از معماری شناختی" نهفته است. این ممکن است شامل گنجاندن سوگیری‌های استقرایی الهام‌گرفته از نظریه زبانی (مانند تمایل به ساختار سلسله‌مراتبی) باشد، همان‌طور که در برخی رویکردهای عصب‌نمادین دیده می‌شود، یا طراحی اهداف آموزشی که فراتر از پیش‌بینی کلمه بعدی هستند. کار پژوهشگرانی مانند برندن لیک و مارکو بارونی در مورد یادگیری کم‌نمونه و ترکیب‌پذیری به این سمت اشاره دارد. مسیر پیش رو دور انداختن مدل‌های زبانی عصبی نیست، بلکه آزمایش دقیق آن‌ها در برابر معیارهای شناختی درست و بازطراحی تکراری آن‌ها بر اساس شکست‌ها است، بسیار شبیه به چرخه نظریه و آزمایش در سایر علوم.

7 جزئیات فنی و چارچوب ریاضی

روش ارزیابی هسته‌ای مورد بحث، استفاده از احتمالات خروجی یک مدل زبانی برای پیش‌بینی قضاوت‌های پذیرش انسانی است. برای یک جمله $S = w_1, w_2, ..., w_n$، یک مدل زبانی خودرگرسیو استاندارد احتمالی را اختصاص می‌دهد: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ که در آن $\theta$ پارامترهای مدل هستند. شگفتی یا لگاریتم احتمال منفی اغلب به عنوان نماینده (عدم)پذیرش استفاده می‌شود: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ فرضیه این است که احتمال بالاتر (شگفتی کمتر) باید با رتبه‌بندی پذیرش انسانی بالاتر همبستگی داشته باشد. یافته انتقادی مقاله این است که این همبستگی در مجموعه‌داده LI-Adger از بین می‌رود که نشان‌دهنده گسست بین متریک "دستوری بودن" مبتنی بر احتمال مدل زبانی عصبی و قضاوت انسانی است.

مقاله همچنین به مدل‌های آموزش‌دیده بر روی گفتار معطوف به کودک اشاره می‌کند. چالش فنی کلیدی در اینجا یادگیری از مجموعه‌داده‌های بسیار کوچک ($\approx 5\times10^6$ توکن) در مقایسه با پیکره‌های استاندارد مدل زبانی ($>10^9$ توکن) است. این امر مستلزم معماری‌ها و تکنیک‌های آموزشی کارآمد برای جلوگیری از بیش‌برازش و استخراج الگوهای قابل تعمیم از داده‌های پراکنده است.

8 نتایج تجربی و تحلیل نمودار

مقاله یک نتیجه کلیدی را در شکل ۱ (شرح‌داده‌شده در محتوای PDF) ارائه می‌دهد. نمودار عملکرد مدل‌های زبانی عصبی مختلف (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) را در مجموعه‌داده LI-Adger در برابر یک خط‌مبنای عملکرد انسانی مقایسه می‌کند.

تفسیر نمودار: خط عمودی نمایانگر عملکرد انسانی به عنوان یک معیار عمل می‌کند. نمودار به احتمال زیاد ضریب همبستگی (مانند $\rho$ اسپیرمن) بین شگفتی مدل و رتبه‌بندی‌های پذیرش انسانی را برای هر مدل زبانی عصبی نشان می‌دهد. یافته بحرانی این است که تمام میله‌های مدل زبانی عصبی به‌طور قابل‌توجهی از خط معیار انسانی کوتاه‌تر هستند. این به‌طور بصری ادعای اصلی مقاله را نشان می‌دهد: حتی مدل‌هایی که به طور خاص بر روی داده‌های شبه‌کودک (BabyBERTa, AO-CHILDES) آموزش دیده‌اند، در تطابق با قضاوت‌های انسانی در این مجموعه‌داده با ظرافت نحوی شکست می‌خورند. شکاف عملکرد نشان می‌دهد که اهداف آموزشی فعلی مدل زبانی عصبی منجر به کسب دانش دستوری شبه‌انسانی، همان‌طور که توسط این آزمون دقیق اندازه‌گیری می‌شود، نمی‌شود.

9 چارچوب تحلیل: مطالعه موردی LI-Adger

چارچوب: ارزیابی مدل‌های زبانی عصبی به عنوان مدل‌های شناختی از طریق پذیرش جفت کمینه.

هدف: تعیین اینکه آیا توزیع احتمال داخلی یک مدل زبانی عصبی با شهود دستوری انسان برای جملات متضاد ساختاری همسو است یا خیر.

روش:

انتخاب محرک: از مجموعه‌داده‌ای مانند LI-Adger استفاده کنید که شامل جفت‌های کمینه است (مثلاً "Who do you think that John saw?" در مقابل "Who do you think John saw?") که در آن یک واریانت دستوری است و دیگری بر اساس یک اصل نحوی خاص (مانند فیلتر "that-trace") کمتر قابل پذیرش یا غیردستوری است.
پرس‌وجوی مدل: برای هر جمله $S$ در یک جفت کمینه، شگفتی متوسط نشانه مدل را محاسبه کنید: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$.
تولید پیش‌بینی: مدل جمله با شگفتی کمتر را "ترجیح می‌دهد". برای یک جفت کمینه (A, B)، اگر $\text{Surprisal}(A) < \text{Surprisal}(B)$، مدل پیش‌بینی می‌کند که A قابل پذیرش‌تر است.
مقایسه با داده انسانی: الگوی ترجیح مدل را در صدها جفت کمینه از این دست با قضاوت‌های پذیرش تجمیع‌شده از شرکت‌کنندگان انسانی مقایسه کنید. یک ضریب همبستگی (مانند $\rho$ اسپیرمن) بین شگفتی مدل و نمرات رتبه‌بندی انسانی محاسبه کنید.
تفسیر: یک همبستگی مثبت بالا و معنادار نشان می‌دهد که دانش مدل زبانی عصبی با قضاوت نحوی انسان همسو است. یک همبستگی پایین یا غیرمعنادار (همان‌طور که در مقاله یافت شد) نشان‌دهنده یک واگرایی است.

مثال غیرکدی: در نظر بگیرید دانش توافق فاعل-فعل را در یک بند حواس‌پرتی آزمایش کنید: "The key to the cabinets *are/*is on the table." انسان‌ها به طور قاطع "is" را صحیح ارزیابی می‌کنند. یک مدل زبانی عصبی که قاعده توافق انتزاعی را یاد گرفته باشد (فاعل 'key' -> فعل 'is') باید احتمال بالاتری به جمله صحیح اختصاص دهد. یک مدل زبانی عصبی که بر آمار n-gram محلی تکیه کند ممکن است با مجاورت "cabinets" گمراه شود و "are" را ترجیح دهد. اعمال چارچوب فوق بر بسیاری از این جفت‌ها، ماهیت دانش کسب‌شده مدل زبانی عصبی را آشکار می‌کند.

10 کاربردهای آینده و جهت‌های پژوهشی

1. توسعه "معیارهای شناختی": یک جهت اصلی، ایجاد مجموعه‌های ارزیابی استاندارد و چندوجهی است که فراتر از نحو، شامل معناشناسی، کاربردشناسی و نقاط عطف فراگیری زبان (مانند جهش واژگانی، خطاهای تعمیم افراطی) می‌شود. این معیارها باید توسط زبان‌شناسان محاسباتی، روان‌شناسان رشد و دانشمندان شناختی به طور مشترک طراحی شوند.

2. معماری‌ها با سوگیری‌های استقرایی زبانی: مدل‌های آینده ممکن است پیش‌فرض‌های ساختاری صریحی را دربرگیرند. برای مثال، معماری‌هایی که به طور ذاتی بازنمایی‌های سلسله‌مراتبی می‌سازند یا محدودیت‌های نحوی را در حین تولید اعمال می‌کنند و به چارچوب اصول و پارامترها در زبان‌شناسی نزدیک‌تر می‌شوند.

3. آموزش تعاملی و چندوجهی: برای شبیه‌سازی بهتر یادگیری کودک، مدل‌ها می‌توانند نه بر روی متن ایستا، بلکه بر روی جریان‌های داده تعاملی و چندوجهی (بینایی + گفتار + متن) در یک محیط زمین‌مند آموزش ببینند، همان‌طور که در پژوهش هوش مصنوعی مجسم‌شده بررسی شده است.

4. یادگیری کارآمد از نظر داده و برنامه‌درسی: توسعه الگوریتم‌های آموزشی که با داده‌هایی به اندازه چندین مرتبه قدر کمتر موفق می‌شوند، شاید با پیاده‌سازی راهبردهای یادگیری برنامه‌درسی که پیشرفت پیچیدگی در گفتار معطوف به کودک را منعکس می‌کنند.

5. پل زدن به عصب‌زبان‌شناسی: مقایسه بازنمایی‌های داخلی و پویایی پردازش مدل‌های زبانی عصبی با داده‌های عصبی از انسان‌ها (مانند fMRI، EEG) در حین انجام وظایف زبانی، همان‌طور که توسط کار پژوهشگران مؤسسه مک‌گاورن MIT پیشگام شده است، می‌تواند سطح جدیدی از اعتبارسنجی برای مدل‌های شناختی فراهم کند.

11 منابع

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.