1. المقدمة
ركزت قوانين التوسع لنماذج اللغة الكبيرة (LLMs) تقليديًا على معلمات النموذج وحجم بيانات التدريب، متجاهلة إلى حد كبير حجم المفردات كبُعد حاسم للتوسع. تبحث هذه الورقة في تأثير حجم المفردات على أداء نماذج اللغة الكبيرة وتقترح طرقًا لتحديد الحجم الأمثل للمفردات من حيث الحوسبة لميزانيات التدريب المحددة.
يوضح البحث أن نماذج اللغة الكبيرة الحالية مثل Llama2-70B تستخدم أحجام مفردات دون المستوى الأمثل (32 ألف مقابل 216 ألف المتوقع كأمثل)، مما يسلط الضوء على فجوات كفاءة كبيرة في الممارسات الحالية.
نطاق النموذج
33 مليون - 3 مليار
المعلمات المدربة
بيانات التدريب
500 مليار
حرف تمت معالجتها
فجوة المفردات
7 أضعاف
التقليل من شأن Llama2-70B
2. المنهجية
2.1 صياغة الخسارة المعيارية
لضمان مقارنة عادلة بين النماذج ذات أحجام المفردات المختلفة، يقدم المؤلفون دالة خسارة معيارية تأخذ في الاعتبار الاختلافات في كفاءة الترميز. تمنع هذه المعيرة النماذج ذات المفردات الأكبر من الحصول على مزايا مصطنعة في مقاييس الخسارة.
2.2 ثلاث طرق للتنبؤ
تقترح الورقة ثلاث طرق مكملة للتنبؤ بالحجم الأمثل للمفردات:
2.2.1 تحليل IsoFLOPs
تدريب نماذج بميزانيات حوسبية متطابقة ولكن بأحجام مفردات مختلفة لتحديد نقطة الخسارة الدنيا لكل مستوى من مستويات الميزانية.
2.2.2 تقدير المشتقات
استخدام طرق قائمة على التدرج لإيجاد النقطة التي يكون عندها مشتق دالة الخسارة بالنسبة لحجم المفردات مساويًا للصفر، مما يشير إلى النقاط المثلى.
2.2.3 الملاءمة البارامترية
ملاءمة علاقات قانون القوة بين معلمات النموذج، وحجم المفردات، والخسارة لاشتقاق صيغ تنبؤية.
3. النتائج التجريبية
3.1 إعداد تدريب النموذج
تم تدريب نماذج تتراوح من 33 مليون إلى 3 مليار معلمة على ما يصل إلى 500 مليار حرف بتكوينات مفردات متنوعة. امتد التدريب عبر ميزانيات FLOPs مختلفة لإقامة علاقات توسع شاملة.
3.2 نتائج المفردات المثلى
يكشف البحث عن علاقة قانون قوة: $N_v^{opt} \propto N_{nv}^\gamma$ حيث $\gamma < 1$، مما يشير إلى أن معلمات المفردات المثلى يجب أن تتوسع بشكل أبطأ من المعلمات غير المتعلقة بالمفردات. وهذا يتعارض مع الممارسة الشائعة المتمثلة في استخدام أحجام مفردات ثابتة عبر مقاييس النماذج المختلفة.
الشكل 1: علاقة توسع المفردات
تُظهر التصورية النتائج التجريبية متوافقة مع التوقعات النظرية، حيث تشير الدوائر الأكبر إلى قيم خسارة أعلى. يوضح الرسم البياني أحجامًا مثلى واضحة للمفردات لمقاييس النماذج المختلفة، مشكلة منحنى قانون قوة مميزًا.
3.3 التحقق من الأداء اللاحق
أظهر التحقق التجريبي مع نماذج ذات 3 مليار معلمة تحسينات متسقة عند استخدام أحجام المفردات المثلى المتوقعة. في اختبار ARC-Challenge، أدى زيادة المفردات من 32 ألف إلى 43 ألف إلى تحسين الأداء من 29.1 إلى 32.0 بنفس ميزانية FLOPs البالغة 2.3e21.
رؤى رئيسية
- يؤثر حجم المفردات بشكل كبير على كفاءة توسع نماذج اللغة الكبيرة
- يتوسع الحجم الأمثل للمفردات مع ميزانية الحوسبة وحجم النموذج
- تستخدم نماذج اللغة الكبيرة الحالية عمومًا أحجام مفردات دون المستوى الأمثل
- الاعتبار المشترك للترميز وتوسع النموذج أمر ضروري
4. التحليل التقني والإطار
4.1 الصياغة الرياضية
العلاقة الرياضية الأساسية المكتشفة تُعبر عنها على النحو التالي:
$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$
حيث $L$ هي الخسارة المعيارية، $N_{nv}$ هي المعلمات غير المتعلقة بالمفردات، $N_v$ هي معلمات المفردات، $D$ هو حجم بيانات التدريب، و $E, A, B, C, \alpha, \beta, \gamma$ هي ثوابت ملائمة.
الحجم الأمثل للمفردات يحقق: $\frac{\partial L}{\partial N_v} = 0$
4.2 مثال على إطار التحليل
دراسة حالة: تحديد المفردات المثلى لنموذج بـ 10 مليار معلمة
المعطيات: ميزانية التدريب = 1e23 FLOPs، المجال المستهدف = الفهم اللغوي العام
تطبيق الإطار:
- تقدير المعلمات غير المتعلقة بالمفردات: $N_{nv} = 9.5\text{ مليار}$ (95% من الإجمالي)
- تطبيق قانون القوة: $N_v^{opt} \propto N_{nv}^{0.7}$ (من الملاءمة التجريبية)
- الحساب: $N_v^{opt} \approx 150\text{ ألف}$ رمز
- التحقق باستخدام تحليل IsoFLOPs للميزانية المعطاة
- التعديل حسب توزيع الرموز الخاص بالمجال
يوفر هذا الإطار نهجًا منهجيًا لتحديد حجم المفردات غالبًا ما يتجاهله مطورو النماذج الحاليون.
5. منظور محلل الصناعة
5.1 الفكرة الأساسية
كانت الصناعة مضللة بشكل أساسي في التعامل مع حجم المفردات كمعلمة ثابتة. تكشف هذه الورقة عن نقطة عمياء حرجة: لقد كنا نُحسن نماذج اللغة الكبيرة بيد واحدة مقيدة خلف ظهورنا. إن اكتشاف أن مفردات Llama2-70B يجب أن تكون أكبر بسبعة أضعاف ليس مجرد فضول أكاديمي—إنه يمثل مليارات الدولارات من الحوسبة المهدرة وأداء نموذج دون المستوى الأمثل عبر نظام الذكاء الاصطناعي بأكمله. هذا التغاضي يذكرنا بأبحاث الشبكات العصبية المبكرة التي قللت من أهمية دوال التنشيط، كما وثق في العمل المؤسس لـ Glorot و Bengio (2010) حول فهم صعوبة تدريب الشبكات العصبية الأمامية العميقة.
5.2 التسلسل المنطقي
يتقدم جدال الورقة بدقة جراحية: أولاً، يثبتون أن المفردات مهمة (على عكس افتراضات قوانين التوسع السائدة). ثانيًا، يوضحون أنها مهمة بشكل منهجي من خلال قوانين القوة. ثالثًا، يقدمون أدوات عملية للتحسين. السلسلة المنطقية محكمة—من تحديد المشكلة مرورًا بالابتكار المنهجي وصولاً إلى التحقق التجريبي. هكذا يجب أن يُجرى البحث الدقيق، على عكس اتجاه نشر التحسينات التدريجية دون رؤى أساسية.
5.3 نقاط القوة والضعف
نقاط القوة: يوفر النهج ثلاثي المنهجيات (IsoFLOPs، المشتقات، الملاءمة البارامترية) تحققًا قويًا. مقياس التجربة (من 33 مليون إلى 3 مليار معلمة) مثير للإعجاب ومقنع. الآثار العملية قابلة للتطبيق فورًا لأي منظمة تدرب نماذج لغة كبيرة.
نقاط الضعف: تركز الدراسة بشكل أساسي على النص الإنجليزي—الآثار متعددة اللغات لا تزال غير مستكشفة. قد تكون التكلفة الحسابية لمنهجيتهم باهظة للمجموعات البحثية الأصغر. لا يتناولون كيفية تفاعل تحسين المفردات مع الخيارات المعمارية الأخرى مثل آليات الانتباه، وهو مجال حيث وضعت ورقة بنية المحول (Vaswani et al., 2017) مبادئ أساسية لا تزال تهيمن على المجال.
5.4 رؤى قابلة للتطبيق
يجب على كل مختبر ذكاء اصطناعي يدرب نماذج لغة كبيرة أن يقوم فورًا بما يلي: 1) إعادة تقييم استراتيجية تحديد حجم المفردات، 2) تنفيذ تحليل IsoFLOPs للمشاريع الحالية، 3) اعتبار حجم المفردات بُعدًا من الدرجة الأولى للتوسع جنبًا إلى جنب مع المعلمات والبيانات. بالنسبة لشركات الأجهزة مثل NVIDIA و AMD، يشير هذا البحث إلى فرص تحسين جديدة في بنية الذاكرة لجداول التضمين الأكبر. تشير فجوة المفردات البالغة 7 أضعاف لـ Llama2-70B إلى أن الأجهزة الحالية غير متطابقة بشكل أساسي مع التكوينات المثلى للنماذج.
6. التطبيقات المستقبلية والاتجاهات
التطبيقات الفورية:
- إعادة تصميم استراتيجيات المفردات لجيل نماذج اللغة الكبيرة القادم (GPT-5، Gemini 2.0، إلخ.)
- تحسين الأجهزة لجداول التضمين الأكبر
- تحسين الكفاءة في تقديم النموذج والاستدلال
اتجاهات البحث:
- تحسين المفردات متعددة اللغات عبر لغات متنوعة
- تحديد حجم المفردات ديناميكيًا أثناء التدريب
- التكامل مع بنى خليط الخبراء
- تحسين المفردات للنماذج الخاصة بمجال معين
- اعتبارات المفردات عبر الوسائط للنماذج متعددة الوسائط
يمكن أن تمتد المبادئ التي تم تأسيسها في هذا العمل إلى ما هو أبعد من نماذج اللغة إلى نماذج التسلسل الأخرى في المعلوماتية الحيوية، وتوليد الكود، وتحليل السلاسل الزمنية، على غرار كيفية انتقال مبادئ الشبكات العصبية التلافيفية من رؤية الكمبيوتر (كما في ورقة AlexNet بواسطة Krizhevsky et al., 2012) إلى مجالات أخرى.
7. المراجع
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
- Brown, T., et al. (2020). Language Models are Few-Shot Learners.
- Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
- Vaswani, A., et al. (2017). Attention Is All You Need.
- Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
- Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
- Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.