قوانین مقیاس‌پذیری با واژگان: چرا مدل‌های بزرگ‌تر به واژگان بزرگ‌تری نیاز دارند

1. مقدمه

قوانین مقیاس‌پذیری برای مدل‌های زبانی بزرگ (LLM) به طور سنتی بر روی پارامترهای مدل و حجم داده‌های آموزشی متمرکز بوده‌اند و تا حد زیادی اندازه واژگان را به عنوان یک بعد حیاتی مقیاس‌پذیری نادیده گرفته‌اند. این مقاله تأثیر اندازه واژگان بر عملکرد مدل‌های زبانی بزرگ را بررسی می‌کند و روش‌هایی را برای تعیین اندازه بهینه واژگان از نظر محاسباتی برای بودجه‌های آموزشی مشخص پیشنهاد می‌دهد.

این پژوهش نشان می‌دهد که مدل‌های زبانی بزرگ کنونی مانند Llama2-70B از اندازه‌های واژگان زیربهینه استفاده می‌کنند (32 هزار در مقابل بهینه پیش‌بینی شده 216 هزار)، که شکاف‌های کارایی قابل توجهی را در روش‌های فعلی برجسته می‌سازد.

محدوده مدل

33 میلیون - 3 میلیارد

پارامترهای آموزش‌دیده

داده آموزشی

500 میلیارد

کاراکتر پردازش‌شده

شکاف واژگان

7 برابر

کم‌برآوردی در Llama2-70B

2. روش‌شناسی

2.1 فرمول‌بندی نرمال‌شده تابع زیان

برای اطمینان از مقایسه منصفانه بین مدل‌هایی با اندازه‌های واژگان مختلف، نویسندگان یک تابع زیان نرمال‌شده معرفی می‌کنند که تفاوت‌های کارایی توکن‌سازی را در نظر می‌گیرد. این نرمال‌سازی از برتری مصنوعی مدل‌های با واژگان بزرگ‌تر در معیارهای زیان جلوگیری می‌کند.

2.2 سه رویکرد پیش‌بینی

این مقاله سه روش مکمل برای پیش‌بینی اندازه بهینه واژگان پیشنهاد می‌دهد:

2.2.1 تحلیل ایزو-اف‌لاپس

آموزش مدل‌ها با بودجه محاسباتی یکسان اما اندازه‌های واژگان مختلف برای شناسایی نقطه حداقل زیان در هر سطح بودجه.

2.2.2 تخمین مشتق

استفاده از روش‌های مبتنی بر گرادیان برای یافتن نقطه‌ای که مشتق تابع زیان نسبت به اندازه واژگان برابر صفر است، که نشان‌دهنده نقاط بهینه است.

2.2.3 برازش پارامتری

برازش روابط قانون توانی بین پارامترهای مدل، اندازه واژگان و زیان برای استخراج فرمول‌های پیش‌بینی‌کننده.

3. نتایج آزمایشی

3.1 تنظیمات آموزش مدل

مدل‌هایی از 33 میلیون تا 3 میلیارد پارامتر بر روی حداکثر 500 میلیارد کاراکتر با پیکربندی‌های واژگان مختلف آموزش داده شدند. آموزش در بودجه‌های اف‌لاپس مختلفی انجام شد تا روابط جامع مقیاس‌پذیری ایجاد شود.

3.2 یافته‌های واژگان بهینه

این پژوهش یک رابطه قانون توانی را آشکار می‌سازد: $N_v^{opt} \propto N_{nv}^\gamma$ که در آن $\gamma < 1$، نشان می‌دهد که پارامترهای واژگان بهینه باید کندتر از پارامترهای غیرواژگان مقیاس شوند. این با روش رایج استفاده از اندازه‌های واژگان ثابت در مقیاس‌های مختلف مدل در تضاد است.

شکل 1: رابطه مقیاس‌پذیری واژگان

تصویرسازی نتایج تجربی را نشان می‌دهد که با پیش‌بینی‌های نظری همسو است، و دایره‌های بزرگ‌تر نشان‌دهنده مقادیر زیان بالاتر هستند. نمودار اندازه‌های بهینه واژگان واضحی را برای مقیاس‌های مختلف مدل نشان می‌دهد که یک منحنی قانون توانی متمایز را تشکیل می‌دهد.

3.3 اعتبارسنجی عملکرد در وظایف پایین‌دستی

اعتبارسنجی تجربی با مدل‌های 3 میلیارد پارامتری، بهبودهای مداومی را هنگام استفاده از اندازه‌های واژگان بهینه پیش‌بینی شده نشان می‌دهد. در ARC-Challenge، افزایش واژگان از 32 هزار به 43 هزار، عملکرد را از 29.1 به 32.0 با بودجه اف‌لاپس یکسان 2.3e21 بهبود بخشید.

بینش‌های کلیدی

اندازه واژگان تأثیر قابل توجهی بر کارایی مقیاس‌پذیری مدل‌های زبانی بزرگ دارد.
واژگان بهینه با بودجه محاسباتی و اندازه مدل مقیاس می‌شود.
مدل‌های زبانی بزرگ کنونی عموماً از اندازه‌های واژگان زیربهینه استفاده می‌کنند.
ملاحظه توأمان توکن‌سازی و مقیاس‌پذیری مدل ضروری است.

4. تحلیل فنی و چارچوب

4.1 فرمول‌بندی ریاضی

رابطه ریاضی اصلی کشف شده به صورت زیر بیان می‌شود:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

که در آن $L$ زیان نرمال‌شده است، $N_{nv}$ پارامترهای غیرواژگان هستند، $N_v$ پارامترهای واژگان هستند، $D$ حجم داده آموزشی است، و $E, A, B, C, \alpha, \beta, \gamma$ ثابت‌های برازش‌شده هستند.

اندازه بهینه واژگان شرط زیر را ارضا می‌کند: $\frac{\partial L}{\partial N_v} = 0$

4.2 مثال چارچوب تحلیل

مطالعه موردی: تعیین واژگان بهینه برای یک مدل 10 میلیارد پارامتری

داده شده: بودجه آموزشی = 1e23 اف‌لاپس، حوزه هدف = درک زبان عمومی

کاربرد چارچوب:

تخمین پارامترهای غیرواژگان: $N_{nv} = 9.5\text{ میلیارد}$ (95% کل)
اعمال قانون توانی: $N_v^{opt} \propto N_{nv}^{0.7}$ (از برازش تجربی)
محاسبه: $N_v^{opt} \approx 150\text{ هزار}$ توکن
اعتبارسنجی با تحلیل ایزو-اف‌لاپس برای بودجه داده‌شده
تنظیم برای توزیع توکن خاص حوزه

این چارچوب رویکردی نظام‌مند برای تعیین اندازه واژگان ارائه می‌دهد که توسعه‌دهندگان مدل کنونی اغلب آن را نادیده می‌گیرند.

5. دیدگاه تحلیلگر صنعت

5.1 بینش اصلی

صنعت به طور بنیادی در درمان اندازه واژگان به عنوان یک ابرپارامتر ثابت گمراه شده است. این مقاله یک نقطه کور حیاتی را آشکار می‌سازد: ما مدل‌های زبانی بزرگ را با یک دست بسته پشت سر بهینه‌سازی کرده‌ایم. یافته اینکه واژگان Llama2-70B باید 7 برابر بزرگ‌تر باشد، تنها یک کنجکاوی آکادمیک نیست—بلکه نشان‌دهنده میلیاردها دلار محاسبات هدررفته و عملکرد زیربهینه مدل در کل اکوسیستم هوش مصنوعی است. این غفلت یادآور تحقیقات اولیه شبکه‌های عصبی است که اهمیت توابع فعال‌سازی را دست کم گرفت، همانطور که در کار بنیادی گلورو و بنجیو (2010) در مورد درک دشواری آموزش شبکه‌های عصبی پیش‌خور عمیق مستند شده است.

5.2 جریان منطقی

استدلال مقاله با دقت جراحی پیش می‌رود: اول، ثابت می‌کنند که واژگان مهم است (برخلاف فرضیات رایج قوانین مقیاس‌پذیری). دوم، نشان می‌دهند که به طور نظام‌مند از طریق قوانین توانی مهم است. سوم، ابزارهای عملی برای بهینه‌سازی ارائه می‌دهند. زنجیره منطقی بی‌نقص است—از شناسایی مسئله از طریق نوآوری روش‌شناختی تا اعتبارسنجی تجربی. این نحوه انجام تحقیق دقیق است، برخلاف روند انتشار بهبودهای تدریجی بدون بینش‌های بنیادی.

5.3 نقاط قوت و ضعف

نقاط قوت: رویکرد سه‌گانه روش‌شناسی (ایزو-اف‌لاپس، مشتقات، برازش‌های پارامتری) اعتبارسنجی مستحکمی ارائه می‌دهد. مقیاس آزمایش (33 میلیون تا 3 میلیارد پارامتر) چشمگیر و متقاعدکننده است. پیامدهای عملی بلافاصله برای هر سازمانی که مدل‌های زبانی بزرگ آموزش می‌دهد قابل اجرا است.

نقاط ضعف: این مطالعه عمدتاً بر روی متن انگلیسی متمرکز است—پیامدهای چندزبانه همچنان ناشناخته باقی مانده است. هزینه محاسباتی روش‌شناسی آن ممکن است برای گروه‌های تحقیقاتی کوچک مانع‌زا باشد. آنها به چگونگی تعامل بهینه‌سازی واژگان با سایر انتخاب‌های معماری مانند مکانیزم‌های توجه نمی‌پردازند، حوزه‌ای که مقاله معماری ترنسفورمر (واسوانی و همکاران، 2017) اصول بنیادی را در آن پایه‌گذاری کرد که هنوز بر این حوزه تسلط دارند.

5.4 بینش‌های عملی

هر آزمایشگاه هوش مصنوعی که مدل‌های زبانی بزرگ آموزش می‌دهد باید فوراً: 1) استراتژی تعیین اندازه واژگان خود را بازبینی کند، 2) تحلیل ایزو-اف‌لاپس را برای پروژه‌های جاری پیاده‌سازی کند، 3) اندازه واژگان را به عنوان یک بعد مقیاس‌پذیری درجه یک در کنار پارامترها و داده در نظر بگیرد. برای شرکت‌های سخت‌افزاری مانند انویدیا و ای‌ام‌دی، این تحقیق فرصت‌های بهینه‌سازی جدیدی را در معماری حافظه برای جدول‌های جاسازی بزرگ‌تر پیشنهاد می‌دهد. شکاف 7 برابری واژگان برای Llama2-70B دلالت بر این دارد که سخت‌افزار کنونی اساساً با پیکربندی‌های بهینه مدل ناسازگار است.

6. کاربردها و جهت‌های آینده

کاربردهای فوری:

بازطراحی استراتژی‌های واژگان برای نسل بعدی مدل‌های زبانی بزرگ (GPT-5، Gemini 2.0 و غیره)
بهینه‌سازی سخت‌افزار برای جدول‌های جاسازی بزرگ‌تر
بهبود کارایی در سرویس‌دهی و استنتاج مدل

جهت‌های تحقیقاتی:

بهینه‌سازی واژگان چندزبانه در زبان‌های متنوع
تعیین اندازه پویای واژگان در طول آموزش
ادغام با معماری‌های مخلوط متخصصان
بهینه‌سازی واژگان برای مدل‌های خاص حوزه
ملاحظات واژگان چندوجهی برای مدل‌های چندوجهی

اصول پایه‌گذاری شده در این کار می‌تواند فراتر از مدل‌های زبانی به سایر مدل‌های دنباله‌ای در بیوانفورماتیک، تولید کد و تحلیل سری‌های زمانی گسترش یابد، مشابه نحوه انتقال اصول شبکه‌های عصبی کانولوشنی از بینایی کامپیوتر (مانند مقاله AlexNet توسط کریزفسکی و همکاران، 2012) به سایر حوزه‌ها.

7. مراجع

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.