1. المقدمة
يتم تدريب نماذج اللغة الكبيرة (LLMs) في الغالب باستخدام مفردات ثابتة وثابتة، مما يحد بطبيعته من قدرتها على التعميم للتعامل مع كلمات جديدة أو خارج المفردات (OOV) ومعالجة مجموعات الرموز المتنوعة بكفاءة. يمثل هذا القيد مشكلة خاصة في التطبيقات المتخصصة في المجالات، والسياقات متعددة اللغات، واللغات المتطورة. بينما تم اقتراح أساليب المفردات الديناميكية للتخفيف من هذه المشكلة، غالبًا ما تكون الحلول الحالية مجزأة، وتفتقر إلى الدعم لنماذج اللغة الكبيرة الحديثة، وتعاني من ضعف قابلية توسع الاستدلال.
لردم هذه الفجوة، نقدم DVAGen (التوليد المعزز بالمفردات الديناميكية)، وهو إطار عمل موحد ومفتوح المصدر بالكامل مصمم للتطوير الشامل لنماذج اللغة المعززة بمفردات ديناميكية. يوفر DVAGen أدوات متكاملة للتدريب والتقييم والتصور الفوري، ويدعم التكامل السلس مع نماذج اللغة الكبيرة مفتوحة المصدر المعاصرة، ويتميز بقدرات استدلال مجمع محسنة.
2. الخلفية والأعمال ذات الصلة
تعتمد طرق الترميز التقليدية مثل ترميز أزواج البايت (BPE) وWordPiece على مفردات ثابتة، مما يجعلها غير مرنة بعد التدريب. تعمل التحسينات مثل الترميز متعدد الكلمات (MWT) على توسيع المفردات باستخدام n-grams المتكررة ولكنها تظل ثابتة. تقدم الأساليب المعززة بالاسترجاع، مثل RETRO وإطار عمل "النسخ هو كل ما تحتاجه" (CoG)، عناصر ديناميكية من خلال استرجاع مقاطع أو عبارات ذات صلة أثناء التوليد. ومع ذلك، غالبًا ما تتضمن هذه الأساليب خطوط أنابيب متعددة المراحل ومعقدة، وتتسبب في زمن انتقال مرتفع، وتم التحقق منها في المقام الأول على بنى قديمة مثل GPT-2، مما يفتقر إلى التحقق منها والتكامل مع نماذج اللغة الكبيرة الحديثة.
3. إطار عمل DVAGen
تم بناء DVAGen كإطار عمل معياري وقابل للتوسيع لمعالجة قيود الأعمال السابقة.
3.1. البنية الأساسية والتصميم المعياري
يفصل الإطار المكونات الرئيسية - المرمز، وأداة الاسترجاع، والمقيّم، والمولد - إلى وحدات مستقلة. تتيح هذه الوحدات النمطية للباحثين والمطورين تخصيص أو تبديل المكونات بسهولة (مثل تجربة واجهات استرجاع مختلفة أو وظائف تقييم) دون إعادة هيكلة النظام بأكمله. يعتمد فلسفة "التوصيل والتشغيل" لدمج نماذج اللغة الكبيرة مفتوحة المصدر الحالية.
3.2. خط أنابيب التدريب والاستدلال
يدعم DVAGen خط أنابيب كاملاً: train لضبط النماذج الدقيق مع قدرات المفردات الديناميكية، وchat للتوليد التفاعلي، وeval للتقييم الشامل للأداء على المعايير القياسية.
3.3. أدوات واجهة سطر الأوامر وواجهة المستخدم على الويب
يتمثل المميز الرئيسي في توفير أدوات واجهة سطر الأوامر (CLI) للبرمجة النصية والأتمتة، بالإضافة إلى واجهة مستخدم على الويب (WebUI) للفحص الفوري وتصور نتائج التوليد، بما في ذلك قرارات مستوى الرمز واستخدام المفردات الديناميكية.
4. التنفيذ التقني
4.1. آلية المفردات الديناميكية
في جوهره، يعزز DVAGen التنبؤ القياسي بالرمز التالي لنموذج اللغة الكبيرة. أثناء التوليد، لسياق معين $C_t$، يسترجع النظام مجموعة من العبارات المرشحة $P = \{p_1, p_2, ..., p_k\}$ من مصدر معرفي. يتم تقييم كل مرشح $p_i$ بواسطة دالة $S(p_i | C_t)$، والتي يمكن أن تعتمد على احتمالية نموذج اللغة الكبيرة، أو مقياس متعلم، أو درجة تشابه الاسترجاع. احتمالية التوليد النهائية هي مزيج من توزيع المفردات القياسي وتوزيع المرشحين الديناميكي:
$P(w | C_t) = \lambda \cdot P_{LM}(w | C_t) + (1 - \lambda) \cdot \sum_{p_i \in P} S(p_i | C_t) \cdot \mathbb{1}(w \in p_i)$
حيث $\lambda$ هي معلمة موازنة و$\mathbb{1}$ هي دالة مؤشر.
4.2. تحسين الاستدلال المجمع
بالاستفادة من قدرة ضغط التسلسل للعبارات الديناميكية (توليد عبارة في خطوة واحدة مقابل رموز متعددة)، ينفذ DVAGen استدلالًا مجمعًا محسنًا. من خلال معالجة متعددة لتسلسلات الإدخال في وقت واحد وتجميع عمليات الاسترجاع والتقييم للمرشحين الديناميكيين بكفاءة، فإنه يحسن الإنتاجية بشكل كبير مقارنة بمعالجة الإدخال الفردي المتسلسل، مما يعالج عيبًا رئيسيًا في قابلية التوسع في أساليب المفردات الديناميكية السابقة.
5. النتائج التجريبية والتقييم
تتحقق الورقة البحثية من DVAGen على نماذج اللغة الكبيرة الحديثة (مثل سلسلة LLaMA). تشمل النتائج الرئيسية:
- تقليل الالتباس: تظهر النماذج المعززة بـ DVAGen انخفاضًا في الالتباس على مجموعات الاختبار التي تحتوي على مصطلحات خارج المفردات والمصطلحات الخاصة بالمجال، مما يدل على تحسن قدرة نمذجة اللغة.
- سرعة الاستدلال: يؤدي دعم الاستدلال المجمع إلى تحسين الإنتاجية بمقدار 3-5 أضعاف مقارنة باستدلال المفردات الديناميكية غير المجمع، مع تأثير ضئيل على جودة التوليد.
- فائدة التصور: تبرز واجهة المستخدم على الويب بشكل فعال متى وأي عناصر المفردات الديناميكية يتم استخدامها، مما يوفر شفافية في عملية اتخاذ القرار للنموذج. يوضح الشكل 1 في الورقة البحثية مقارنة جنبًا إلى جنب بين التوليد القياسي والتوليد المعزز بـ DVAGen، ويظهر استبدال رموز فرعية متعددة بعبارة خاصة بمجال واحد تم استرجاعها.
6. إطار التحليل ودراسة الحالة
الرؤية الأساسية: DVAGen ليس مجرد أداة أخرى؛ إنه خطوة استراتيجية في البنية التحتية. الاختناق الحقيقي في الذكاء الاصطناعي ليس فقط حجم النموذج، ولكن جمود المفردات. من خلال التعامل مع المفردات كموارد ديناميكية وقابلة للاسترجاع بدلاً من كونها أداة ثابتة، يهاجم DVAGen عيبًا أساسيًا في تصميم نماذج اللغة الكبيرة الحالية - عدم قدرتها على تعلم كلمات جديدة بعد التدريب. يعكس هذا التطور في رؤية الكمبيوتر من المرشحات الثابتة إلى آليات الانتباه الديناميكية، كما هو الحال في تأثير بنية المحول (Transformer) مقارنة بأساليب الالتفاف السابقة.
التدفق المنطقي: منطق الإطار هو قوة مباشرة أنيقة: 1) الاعتراف بمشكلة المفردات الثابتة، 2) فصل الحل إلى معرفة قابلة للاسترجاع (عبارات) وآلية تقييم/اختيار، 3) تحويل كل شيء إلى وحدات نمطية لتحقيق المرونة، و4) هندسة للتوسع (الاستدلال المجمع). يتبع خطة العمل الناجحة للمشاريع مفتوحة المصدر مثل Transformers من Hugging Face - توفير البنية التحتية، واترك المجتمع يبني المنازل.
نقاط القوة والضعف: أعظم نقاط قوته هي التوحيد والعملية. إن توفير كل من واجهة سطر الأوامر وواجهة المستخدم على الويب هو خطوة عبقرية للتبني، تلبي احتياجات كل من الباحثين والمهندسين. يركز الاستدلال المجمع على الاستجابة المباشرة لصعوبات نشر النماذج الأولية الأكاديمية السابقة. ومع ذلك، يكمن العيب في الاعتماد الجوهري على جودة وزمن انتقال مصدر الاسترجاع. كما يظهر بحث التوليد المعزز بالاسترجاع (RAG)، مثل بحث Facebook AI Research (FAIR) على نموذج Atlas الخاص بهم، يمكن أن يؤدي الاسترجاع الضعيف إلى تدهور الأداء أكثر من المساعدة. يتجنب DVAGen حاليًا المشكلة الصعبة لـ "الاسترجاع المثالي"، ويدفعها إلى المستخدم.
رؤى قابلة للتنفيذ: بالنسبة للمؤسسات، التطبيق الفوري هو في المجالات ذات المصطلحات المتغيرة - التكنولوجيا الحيوية (أسماء الأدوية الجديدة)، والتمويل (المختصرات الناشئة)، والقانون (المصطلحات الخاصة بالقضايا). قم بتنفيذ طبقة DVAGen فوق خط أنابيب نموذج اللغة الكبيرة الحالي الخاص بك لتحقيق فوز سريع في التكيف مع المجال. بالنسبة للباحثين، الإطار هو بيئة اختبار: جرب وظائف تقييم مختلفة $S(p_i | C_t)$. التقييم الحالي القائم على الاحتمالية هو ساذج؛ يمكن أن يكون دمج المقيمين القابلين للتعلم والواعين بالسياق هو الاختراق التالي.
دراسة الحالة - توليد ملخصات طبية حيوية: فكر في توليد ملخص لجين جديد، "CRISPRaX"، غير معروف لنموذج اللغة الكبيرة الأساسي. قد ينتج النموذج القياسي رموزًا مجزأة: "CRI"، "SP"، "Ra"، "X". تسترجع أداة الاسترجاع في DVAGen، المتصلة بمجموعة نصوص طبية حيوية، عبارات مرشحة مثل "CRISPR activation variant"، "gene editing complex". يحدد المقيم "CRISPR activation variant" على أنه ذو صلة عالية بالنظر إلى السياق. ثم ينتج المولد العبارة المتماسكة "CRISPR activation variant (CRISPRaX)" مباشرة، مما يحسن الطلاقة والدقة بشكل كبير دون إعادة تدريب النموذج.
7. التطبيقات المستقبلية والاتجاهات
- مساعدات الذكاء الاصطناعي المخصصة: دمج المفردات الخاصة بالمستخدم ديناميكيًا (أسماء المشاريع، جهات الاتصال الشخصية، الاهتمامات المتخصصة) في الحوار.
- تطور اللغة في الوقت الفعلي: الاتصال بتيارات البيانات المباشرة (الأخبار، وسائل التواصل الاجتماعي) لتعلم واستخدام العامية الجديدة، والمصطلحات الشائعة، أو كيانات الأخبار العاجلة على الفور.
- توسيع المفردات عبر الوسائط: توسيع الإطار خارج النص لاسترجاع ودمج الرموز أو المفاهيم من الصور أو الصوت أو البيانات المنظمة، والتحرك نحو مفردات ديناميكية متعددة الوسائط حقًا.
- التعلم الموحد وعلى الجهاز: تمكين تحديثات المفردات الديناميكية الخفيفة والمحلية على أجهزة الحافة للتطبيقات الحساسة للخصوصية، حيث يظل النموذج الأساسي ثابتًا ولكن قاعدة بيانات العبارات القابلة للاسترجاع تتخصص مع مرور الوقت.
- التكامل مع أطر عمل الوكلاء: تعزيز وكلاء الذكاء الاصطناعي (مثل تلك المبنية على أطر عمل مثل LangChain أو AutoGPT) بالقدرة على تعلم واستخدام أسماء الأدوات الجديدة، ومعلمات API، أو الكائنات الخاصة بالبيئة ديناميكيًا أثناء تنفيذ المهام.
8. المراجع
- Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
- Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
- Borgeaud, S., et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. ICML.
- Lan, Y., et al. (2023). Copy-is-All-You-Need: A Retrieval-augmented Language Model for Long-form Text Generation. arXiv preprint arXiv:2305.11346.
- Liu, N., et al. (2024). Dynamic Vocabulary Augmented Generation for Protein Language Models. NeurIPS Workshop.
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- Facebook AI Research (FAIR). (2023). Atlas: Few-shot Learning with Retrieval Augmented Language Models. FAIR Publications.
- Grattafiori, A., et al. (2024). The Limitations of Fixed-Vocabulary Tokenization in Modern NLP. Journal of Artificial Intelligence Research.