1. مقدمه

فراگیری زبان در کودکان از توالی قابل‌توجهی ثابت پیروی می‌کند: از دسته‌بندی واج‌ها تا توسعه واژگان، و در نهایت تسلط بر ساختارهای نحوی پیچیده. این مسیر تحولی که از نوزادی تا حدود شش سالگی مشاهده می‌شود، پرسش‌های بنیادینی درباره اصول محاسباتی زیربنایی آن مطرح می‌کند. آیا این یادگیری مرحله‌ای، ویژگی منحصربه‌فرد نوروبیولوژی انسان است، یا می‌تواند در سیستم‌های مصنوعی نیز ظهور یابد؟ این مطالعه با مقایسه مسیرهای یادگیری ۵۴ کودک (۱۸ ماهه تا ۶ ساله) با ۴۸ مدل GPT-2 که از ابتدا آموزش دیده‌اند، مستقیماً به این پرسش می‌پردازد. فرضیه اصلی این است که اگر مراحل مشابهی در هر دو ظهور یابد، ممکن است نشان‌دهنده محدودیت‌های یادگیری مشترک و داده‌محور باشد.

2. روش‌شناسی

این پژوهش از یک چارچوب تطبیقی استفاده می‌کند و هم فراگیران انسانی و هم مصنوعی را در مراحل متعدد تحولشان مورد بررسی قرار می‌دهد.

2.1 چیدمان آزمایشی

کودکان: تولید زبانی در ۵۴ کودک تحلیل شد. گفتار خودانگیخته آن‌ها و توانایی تکرار جملات با پیچیدگی نحوی متفاوت، با پیروی از روش‌شناسی‌های تعیین‌شده توسط فریدمن و همکاران (۲۰۲۱) ارزیابی شد.

مدل‌های GPT-2: ۴۸ نمونه از مدل GPT-2 (نسخه ۱۲۴ میلیون پارامتری) از مقداردهی اولیه تصادفی بر روی اهداف استاندارد مدل‌سازی زبان (مانند WebText) آموزش داده شدند. وضعیت درونی آن‌ها در فواصل منظم در طول آموزش مورد بررسی قرار گرفت.

2.2 جمع‌آوری داده و پروب‌ها

مجموعه‌ای از ۹۶ پروب تشخیصی از معیارهای استاندارد گردآوری شد:

  • BLiMP: برای ارزیابی دانش دستوری در ۶۷ پدیده نحوی.
  • Zorro: برای بررسی استدلال معنایی و عقل سلیم.
  • BIG-Bench: برای ارزیابی توانایی‌های زبانی و شناختی گسترده‌تر.

این پروب‌ها در هر نقطه کنترل آموزش به مدل‌های GPT-2 اعمال شد و به عنوان معیارهای مشابه برای تکالیف تولیدی کودکان عمل کردند.

3. نتایج و تحلیل

3.1 مقایسه مسیر یادگیری

تحلیل نشان داد که مدل‌های GPT-2، مانند کودکان، مهارت‌های زبانی را به ترتیبی نظام‌مند کسب می‌کنند. تکالیف ساده‌تر (مانند مطابقت دستوری پایه) زودتر در آموزش تسلط می‌یابند، در حالی که تکالیف پیچیده‌تر (مانند ساختارهای نحوی تو در تو مانند بندهای موصولی) به مراحل آموزشی بسیار بیشتری (مشابه زمان تحولی) نیاز دارند.

3.2 طرح یادگیری موازی

یک یافته کلیدی، ماهیت موازی یادگیری است. حتی تکالیفی که به طور کامل در مراحل پایانی آموزش کسب می‌شوند، از همان اولین گام‌ها بهبود قابل‌اندازه‌گیری نشان می‌دهند. این نشان می‌دهد که مدل، بازنمایی‌های بنیادینی می‌سازد که به طور مداوم پالایش می‌شوند، نه اینکه مهارت‌ها را به ترتیبی سخت و مجزا بیاموزد.

3.3 مراحل مشترک در مقابل متفاوت

این مطالعه همپوشانی‌ها و تفاوت‌های بحرانی را شناسایی می‌کند:

  • مشترک: پیشرفت کلی از اشکال نحوی ساده‌تر به پیچیده‌تر.
  • متفاوت: ترتیب خاص برخی زیرمهارت‌ها متفاوت بود. برای مثال، مدل‌ها ممکن است قواعد نحوی صوری خاصی را به ترتیبی متفاوت از کودکان کسب کنند، که احتمالاً به دلیل تفاوت در توزیع داده‌های آموزشی در مقابل تجربه ادراکی و اجتماعی انسان است.

این نکته برجسته می‌کند که در حالی که فشار داده‌محور، مرحله‌بندی را ایجاد می‌کند، جزئیات توالی مراحل توسط معماری و ورودی فراگیر تعدیل می‌شود.

معیارهای کلیدی آزمایشی

مدل‌های آموزش‌دیده: ۴۸ نمونه GPT-2

پروب‌های تشخیصی: ۹۶ تکلیف از BLiMP، Zorro، BIG-Bench

شرکت‌کنندگان کودک: ۵۴ نفر (۱۸ ماهه تا ۶ ساله)

یافته اصلی: همبستگی معنادار در ترتیب مراحل یادگیری بین کودکان و مدل‌ها، اما نه یکسان.

4. چارچوب فنی

4.1 فرمول‌بندی ریاضی

هدف یادگیری اصلی برای GPT-2، پیش‌بینی توکن بعدی از طریق برآورد درست‌نمایی بیشینه است. با توجه به دنباله‌ای از توکن‌های $x_1, x_2, ..., x_t$، مدل پارامترشده با $\theta$ آموزش داده می‌شود تا لگاریتم درست‌نمایی منفی را کمینه کند:

$L(\theta) = -\sum_{t} \log P(x_t | x_{

دقت پروب $A_p(\theta, \tau)$ برای یک پروب زبانی خاص $p$ در مرحله آموزشی $\tau$، توانایی ظهور یافته را اندازه‌گیری می‌کند. مسیر یادگیری، تابع $\tau \rightarrow \{A_{p_1}(\theta, \tau), A_{p_2}(\theta, \tau), ...\}$ است. تحلیل این مطالعه، ترتیبی را مقایسه می‌کند که در آن پروب‌های مختلف $p$ از یک آستانه عملکرد (مانند دقت ۸۰٪) در طول $\tau$ برای مدل‌ها و در طول سن برای کودکان عبور می‌کنند.

4.2 مثال چارچوب تحلیل

مورد: ردیابی کسب بند موصولی

تکلیف پروب: تمایز جملات دستوری («پسری که دیدم آواز خواند») از غیردستوری («پسری که دیدم آواز خواندن»).

مراحل تحلیل:

  1. استخراج داده: برای هر نقطه کنترل مدل $\tau$، دقت را روی مجموعه‌ای متوازن از ۱۰۰ پروب بند موصولی محاسبه کنید.
  2. آستانه‌گذاری: مرحله کسب $\tau_{acquire}$ را به عنوان اولین نقطه کنترلی تعریف کنید که در آن دقت > ۸۰٪ باشد و در بررسی‌های بعدی نیز بالاتر بماند.
  3. همبستگی: ترتیب رتبه‌ای $\tau_{acquire}$ برای پروب بند موصولی را در مقابل سایر پروب‌های نحوی (مانند مطابقت فاعل-فعل، ساخت پرسش) مقایسه کنید.
  4. هم‌ترازی انسانی: $\tau_{acquire}$ را به محدوده سنی معمول (مانند ~۴۲ ماهگی) که کودکان این ساختار را در تولید تسلط می‌یابند، نگاشت دهید.

این چارچوب امکان مقایسه کمی برنامه‌های تحولی در سیستم‌های یادگیری اساساً متفاوت را فراهم می‌کند.

5. مصورسازی نتایج

نمودار مفهومی: مقایسه مسیر یادگیری

نتایج را می‌توان روی یک نمودار با دو محور مصورسازی کرد:

  • محور X (زمان): برای کودکان، این سن (ماه) است. برای GPT-2، این مراحل آموزشی (مقیاس لگاریتمی) است.
  • محور Y: دقت عملکرد (٪) در مقیاس نرمال‌شده.
  • خطوط متعدد: هر خط نشان‌دهنده یک مهارت زبانی متفاوت است (مانند تمایز واجی، ساختار پایه فاعل-فعل-مفعول، ساخت پرسش، نحو تو در تو).

نمودار نشان می‌دهد که هر دو مسیر، یک منحنی یادگیری S-شکل را برای هر مهارت نشان می‌دهند، اما ترتیب خطوط (کدام مهارت اول بالا می‌رود) مشابه است، اگرچه کاملاً یکسان نیست. یک مصورسازی کلیدی دوم، یک نقشه حرارتی خواهد بود که ماتریس همبستگی ترتیب کسب را در میان تمام ۹۶ پروب برای مجموعه مدل‌ها در مقابل ترتیب مشاهده‌شده در کودکان نشان می‌دهد و خوشه‌های همبستگی بالا و پایین را برجسته می‌کند.

6. بینش کلیدی و دیدگاه تحلیلگر

بینش کلیدی: این مقاله یافته‌ای حیاتی و ظریف ارائه می‌دهد: مرحله‌بندی یادگیری زبان یک راز منحصربه‌فرد انسان نیست، بلکه یک ویژگی ظهور یافته از بهینه‌سازی تدریجی و داده‌محور تحت محدودیت‌هاست. با این حال، طرح کلی آن مراحل توسط معماری ذاتی فراگیر هم‌نوشته می‌شود. GPT-2 و کودکان بر روی یک برنامه درسی «از ساده به پیچیده» همگرا می‌شوند زیرا داده‌ها حاوی آن برنامه درسی هستند. آن‌ها در جزئیات واگرا می‌شوند زیرا «سوگیری‌های استقرایی» یک ترنسفورمر (واسوانی و همکاران، ۲۰۱۷) با پیش‌فرض‌های شناختی و ادراکی یک کودک انسان متفاوت است.

جریان منطقی: استدلال به شیوه‌ای ظریف ساخته شده است. با یک واقعیت تجربی به‌خوبی مستقر شروع می‌شود (مراحل منظم در کودکان)، یک پرسش محاسباتی مطرح می‌کند (آیا این ترتیب در هوش مصنوعی ظهور می‌یابد؟)، و از یک روش‌شناسی قوی و چندپروبی برای آزمودن آن استفاده می‌کند. حرکت از نشان دادن «وجود ترتیب» به تحلیل «ماهیت موازی» آن و در نهایت تشریح عناصر «مشترک/متفاوت»، از نظر منطقی قدرتمند است. این امر، پیشرفت تحلیلی در آثار بنیادینی مانند مقاله CycleGAN (ژو و همکاران، ۲۰۱۷) را بازتاب می‌دهد که نه تنها یک مدل جدید ارائه داد، بلکه مسئله ترجمه تصویر جفت‌نشده را به قیود سازگاری چرخه‌ای به طور نظام‌مند تجزیه کرد.

نقاط قوت و ضعف: نقطه قوت مطالعه، دقت روش‌شناختی و قابلیت مقایسه مستقیم آن است. استفاده از نمونه‌های مدل متعدد و یک مجموعه پروب گسترده، نویز را کاهش می‌دهد. ضعف اصلی، که به طور ضمنی تصدیق شده، عدم تقارن در اندازه‌گیری است: تولید در کودکان در مقابل دقت پروب درونی در مدل‌ها. آیا «دانستن» یک قاعده نحوی توسط مدل در یک پروب، معادل «استفاده» یک کودک از آن در گفتار خودانگیخته است؟ لزوماً نه. این مشابه انتقادات از معیارهایی مانند ImageNet است که در آن مدل‌ها میانبر می‌آموزند (گیرهوس و همکاران، ۲۰۲۰). مجموعه پروب، اگرچه گسترده است، ممکن است ماهیت یکپارچه و ارتباطی فراگیری زبان انسان را ثبت نکند.

بینش‌های عملی: برای پژوهشگران هوش مصنوعی، این یک معدن طلا برای یادگیری برنامه درسی و تشخیص مدل است. اگر می‌خواهیم مدل‌ها مانند انسان‌ها بیاموزند، باید توالی داده‌های آموزشی یا توابع زیانی را مهندسی کنیم که برنامه تحولی انسان را بهتر منعکس کنند. برای دانشمندان شناختی، این کار یک بستر آزمایشی جدید و قابل دستکاری فراهم می‌کند: معماری مدل را تغییر دهید (مانند معرفی اتصالات بازگشتی مانند LSTM) یا داده‌های آموزشی را تغییر دهید (مانند افزودن ورودی چندوجهی)، و ببینید مسیر تحولی چگونه تغییر می‌کند. این می‌تواند به جداسازی سهم سوگیری‌های خاص انسان کمک کند. بینش نهایی این است که ساختن هوش مصنوعی بهتر و درک شناخت انسان، اکنون یک تلاش درهم‌تنیده واحد هستند.

7. کاربردها و جهت‌های آینده

  • معیارهای تحولی برای هوش مصنوعی: ایجاد معیارهای استاندارد «نقاط عطف تحولی» برای مدل‌های زبانی بزرگ، فراتر از ارزیابی ایستا به سمت تحلیل مسیر پویا.
  • طراحی آگاهانه برنامه درسی: استفاده از بینش‌های تحول کودک برای ساختاردهی ترتیب داده‌های آموزشی برای آموزش مدل کارآمدتر و قوی‌تر، با کاهش بالقوه نیازمندی‌های داده و محاسبات.
  • نوآوری معماری: طراحی معماری‌های شبکه عصبی نوآورانه که سوگیری‌های شناختی انسان فرضی (مانند ثبات شیء، سیگنال‌های پاداش اجتماعی) را دربر می‌گیرند تا ببینند آیا منجر به مسیرهای یادگیری انسان‌گونه‌تر می‌شوند یا خیر.
  • ابزارهای بالینی: توسعه مدل‌های هوش مصنوعی که مسیرهای یادگیری غیرمعمول را دنبال می‌کنند (شبیه‌سازی اختلالات تحولی زبان) برای تولید فرضیه‌ها و آزمودن مداخلات به صورت درون‌سیلیکونی.
  • ادغام چندوجهی: گسترش این پژوهش به مدل‌های چندوجهی (بینایی، صدا، متن). آیا مراحلی ظهور می‌یابند که در آن ادغام بین‌وجهی (مانند یادگیری معانی کلمات از زمینه بصری) مقدم بر یا پس از مراحل صرفاً زبانی است، و یادگیری نوزاد را منعکس می‌کند؟

8. منابع

  1. Evanson, L., Lakretz, Y., & King, J. (2023). Language acquisition: do children and language models follow similar learning stages? arXiv preprint arXiv:2306.03586.
  2. Friedmann, N., Reznick, J., & et al. (2021). The order of acquisition of syntactic structures: A study of Hebrew-speaking children. Language Acquisition.
  3. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  4. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
  5. Geirhos, R., Jacobsen, J. H., Michaelis, C., Zemel, R., Brendel, W., Bethge, M., & Wichmann, F. A. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665-673.
  6. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
  7. Bowman, S. R., & Dahl, G. E. (2021). What will it take to fix benchmarking in natural language understanding? Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.