DVAGen: یک چارچوب یکپارچه برای مدل‌های زبانی تقویت‌شده با واژگان پویا

1. مقدمه

مدل‌های زبانی اساساً توسط واژگان ایستا و از پیش تعریف‌شده خود محدود شده‌اند. این محدودیت به صورت تعمیم‌پذیری ضعیف به کلمات جدید یا خارج از دامنه واژگان و تولید ناکارآمد ترکیب‌های توکن دلخواه ظاهر می‌شود که انعطاف‌پذیری در کاربردهای متنوع را مختل می‌کند. در حالی که روش‌های واژگان پویا برای تقویت تولید پیشنهاد شده‌اند، پیاده‌سازی‌های موجود از پایگاه‌های کد پراکنده، عدم پشتیبانی از مدل‌های زبانی بزرگ مدرن و مقیاس‌پذیری محدود در استنتاج رنج می‌برند. DVAGen به عنوان یک چارچوب یکپارچه و کاملاً متن‌باز معرفی می‌شود که برای غلبه بر این چالش‌ها طراحی شده و ابزارهای ماژولار برای آموزش، ارزیابی و مصورسازی بلادرنگ مدل‌های زبانی تقویت‌شده با واژگان پویا را فراهم می‌کند.

2. پیشینه و کارهای مرتبط

روش‌های سنتی توکن‌سازی مانند رمزگذاری جفت بایت و وردپیس به واژگان ثابت متکی هستند و با عبارات خاص دامنه یا چندتوکنی دست و پنجه نرم می‌کنند. بهبودهایی مانند توکن‌سازی چندکلمه‌ای، ان‌گرم‌های پرتکرار را اضافه می‌کنند اما پس از آموزش همچنان ایستا باقی می‌مانند. روش‌های تقویت‌شده با بازیابی، مانند RETRO و چارچوب «کپی-همه-چیز-است-که-نیاز-داری»، دانش خارجی را ادغام می‌کنند اما اغلب تأخیر بالایی دارند. DVAGen بر این بستر بنا شده و هدف آن ارائه یک پیاده‌سازی استاندارد، کارآمد و مقیاس‌پذیر از تکنیک‌های واژگان پویا برای مدل‌های زبانی بزرگ معاصر است.

3. چارچوب DVAGen

DVAGen به عنوان یک چارچوب ماژولار و قابل توسعه معماری شده است تا توسعه مدل‌های زبانی تقویت‌شده با واژگان پویا را ساده‌سازی کند.

3.1 معماری هسته و طراحی ماژولار

این چارچوب مؤلفه‌های کلیدی—پردازش داده، یکپارچه‌سازی مدل، آموزش، استنتاج و ارزیابی—را به ماژول‌های مجزا تفکیک می‌کند. این امر به محققان و توسعه‌دهندگان اجازه می‌دهد تا بخش‌های فردی (مانند مکانیزم بازیابی یا تابع امتیازدهی) را سفارشی یا جایگزین کنند بدون اینکه کل سیستم را بازنویسی کنند. این چارچوب از یکپارچه‌سازی پلاگین‌اند-پلی با مدل‌های زبانی بزرگ متن‌باز موجود پشتیبانی می‌کند.

3.2 خط لوله آموزش

DVAGen یک خط لوله آموزش کامل ارائه می‌دهد که اهداف یادگیری واژگان پویا را در کنار مدل‌سازی زبانی استاندارد ادغام می‌کند. این خط لوله برای کار با مدل‌های زبانی بزرگ پایه مختلف طراحی شده و بهینه‌سازی مشترک پارامترهای مدل و توانایی آن در انتخاب از مجموعه‌ای پویا از عبارات کاندید در طول تولید را تسهیل می‌کند.

3.3 ابزارهای استنتاج و مصورسازی

یک نوآوری کلیدی، ارائه ابزارهای رابط خط فرمان و یک رابط کاربری وب برای استفاده تعاملی است. رابط کاربری وب امکان بازرسی بلادرنگ نتایج تولید، مصورسازی اینکه کدام موارد واژگان پویا بازیابی و انتخاب شده‌اند را فراهم می‌کند و شفافیت حیاتی در فرآیند تصمیم‌گیری مدل ارائه می‌دهد.

4. پیاده‌سازی فنی

4.1 مکانیزم واژگان پویا

در هسته خود، DVAGen یک فرآیند تولید تقویت‌شده با بازیابی را پیاده‌سازی می‌کند. در طول رمزگشایی، برای یک زمینه داده شده، سیستم مجموعه‌ای از عبارات کاندید را از یک پیکره پویا بازیابی می‌کند. هر کاندید بر اساس ارتباط آن با زمینه و احتمال آن تحت مدل زبانی پایه امتیازدهی می‌شود. احتمال نهایی تولید برای یک دنباله توکن، ترکیبی وزندار از توزیع مدل زبانی استاندارد و امتیازهای کاندیدهای پویا است. به طور رسمی، احتمال تولید بخش بعدی را می‌توان به صورت یک ترکیب بیان کرد:

$P(\text{segment} | \text{context}) = \lambda P_{LM}(\text{segment} | \text{context}) + (1-\lambda) \sum_{c \in C} \text{sim}(\text{context}, c) \cdot P_{LM}(c | \text{context})$

که در آن $\lambda$ یک پارامتر تعادل و $\text{sim}(\cdot)$ یک تابع امتیازدهی ارتباط است.

4.2 بهینه‌سازی استنتاج دسته‌ای

برای مقابله با تأخیر استنتاج، DVAGen پردازش دسته‌ای را برای مراحل بازیابی و امتیازدهی واژگان پویا پیاده‌سازی می‌کند. با پردازش همزمان چندین دنباله ورودی، سربار پرس‌وجوی منبع دانش خارجی و انجام محاسبات ارتباط را تسهیم می‌کند که منجر به بهبود قابل توجه در توان عملیاتی در مقایسه با پردازش ترتیبی می‌شود.

5. نتایج آزمایشی و ارزیابی

مقاله DVAGen را بر روی مدل‌های زبانی بزرگ مدرن (فراتر از GPT-2) اعتبارسنجی می‌کند. نتایج کلیدی نشان می‌دهد:

بهبود مدل‌سازی زبانی: کاهش پرپلکسیتی در مجموعه‌های آزمون حاوی اصطلاحات خارج از دامنه و اصطلاحات تخصصی دامنه، که اثربخشی چارچوب در مدیریت واژگان جدید را تأیید می‌کند.
افزایش توان عملیاتی استنتاج: پشتیبانی از استنتاج دسته‌ای منجر به افزایش قابل اندازه‌گیری در تعداد توکن‌های تولید شده در ثانیه شد و تأخیر کلی را برای سناریوهای در مقیاس تولید کاهش داد.
تحلیل کیفی: مصورسازی رابط کاربری وب نشان داد که مدل با موفقیت عبارات چندکلمه‌ای مرتبط (مانند اسم‌های مرکب فنی مانند «مکانیزم توجه» یا «ناپدید شدن گرادیان») را بازیابی و ادغام می‌کند که در غیر این صورت توسط یک توکن‌ایزر ایستا تکه‌تکه می‌شدند.

توضیح نمودار: یک نمودار میله‌ای فرضی، «توکن در ثانیه» را روی محور عمودی نشان می‌دهد و «استنتاج مدل زبانی استاندارد»، «DVAGen (تک دنباله)» و «DVAGen (اندازه دسته=۸)» را روی محور افقی مقایسه می‌کند، که نسخه دسته‌ای افزایش عملکرد قابل توجهی را نشان می‌دهد.

6. چارچوب تحلیل و مطالعه موردی

مطالعه موردی: تولید مستندات فنی
سناریویی را در نظر بگیرید که یک مدل زبانی بزرگ نیاز به تولید متن درباره یک فناوری جدید و به سرعت در حال تکامل (مانند «محاسبات نورومورفیک») دارد. یک مدل با واژگان ایستا ممکن است این را به صورت توکن‌بندی کند که انسجام معنایی را از دست می‌دهد. با استفاده از چارچوب DVAGen:

زمینه: مدل با عبارت «مزایای...» راه‌اندازی می‌شود.
بازیابی: ماژول واژگان پویا عبارات کاندید مانند [«محاسبات نورومورفیک»، «شبکه‌های عصبی اسپایکینگ»، «سخت‌افزار کم‌مصرف»] را از یک پیکره فنی گردآوری‌شده بازیابی می‌کند.
امتیازدهی و یکپارچه‌سازی: چارچوب این کاندیدها را امتیازدهی می‌کند. «محاسبات نورومورفیک» امتیاز ارتباط بالایی دریافت می‌کند.
تولید: مدل عبارت «...محاسبات نورومورفیک شامل مصرف توان پایین و قابلیت‌های پردازش بلادرنگ است» را تولید می‌کند و از عبارت بازیابی‌شده به عنوان یک واحد منسجم استفاده می‌کند. رابط کاربری وب این عبارت را به عنوان عبارتی که از واژگان پویا سرچشمه گرفته است، برجسته می‌کند.

این نشان می‌دهد که چگونه چارچوب یکپارچگی مفهومی را حفظ و روانی را برای دامنه‌های تخصصی بهبود می‌بخشد.

7. کاربردهای آتی و جهت‌گیری‌ها

چارچوب DVAGen چندین مسیر امیدوارکننده را باز می‌کند:

دستیارهای تخصصی دامنه: سازگاری سریع مدل‌های زبانی بزرگ عمومی‌منظوره با حوزه‌هایی مانند حقوق، پزشکی یا مالی با ادغام واژگان پویای سوابق حقوقی، هستی‌شناسی‌های پزشکی یا اصطلاحات مالی.
پردازش زبان طبیعی چندزبانه و کم‌منبع: ادغام پویای عبارات از چندین زبان یا تغییرات گویشی برای بهبود عملکرد زبان‌های کمترنمایندگی‌شده بدون آموزش مجدد کامل مدل.
یکپارچه‌سازی دانش بلادرنگ: جفت کردن چارچوب با یک گراف دانش به‌روزشونده مداوم یا فید خبری، که به مدل‌های زبانی امکان تولید محتوایی را می‌دهد که به رویدادها یا انتشارات بسیار اخیر ارجاع می‌دهد، شبیه به شکلی کارآمدتر و کنترل‌شده از تولید تقویت‌شده با بازیابی.
تولید کد: تقویت مدل‌های زبانی بزرگ کد با بازیابی و استفاده پویا از امضاهای API، نام‌های توابع کتابخانه‌ای یا الگوهای کد رایج از یک پایگاه کد، که دقت را بهبود بخشیده و توهم روش‌های ناموجود را کاهش می‌دهد.

کار آینده می‌تواند بر روی الگوریتم‌های جستجوی نزدیک‌ترین همسایه کارآمدتر برای بازیابی، یادگیری تطبیقی پارامتر تعادل $\lambda$ و بررسی ادغام یادگیری واژگان پویا در طول پیش‌آموزش به جای فقط تنظیم دقیق متمرکز شود.

8. مراجع

Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
Borgeaud, S., et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. ICML.
Lan, Y., et al. (2023). Copy-is-All-You-Need: A Two-Stage Framework for Dynamic Vocabulary Generation. arXiv preprint arXiv:2305.xxxxx.
Gee, A., et al. (2023). Multi-Word Tokenization for Enhanced Language Model Vocabulary. ACL.
Liu, N., et al. (2024). Dynamic Vocabulary Learning for Protein Language Models. NeurIPS.
Grattafiori, A., et al. (2024). The Llama 3 Herd of Models. Meta AI.
Yang, S., et al. (2025). Qwen2.5: The Next Generation of Open-Source Large Language Models. Alibaba Group.

9. تحلیل و بینش تخصصی

بینش هسته‌ای: DVAGen فقط یک ابزار افزایشی دیگر نیست؛ یک حرکت استراتژیک برای عملیاتی کردن یک ایده تحقیقاتی حیاتی اما کمتر کاوش‌شده—واژگان پویا—برای پشته مدل زبانی بزرگ مدرن است. در حالی که مقالاتی مانند CycleGAN اصلی یک چارچوب نوآورانه برای ترجمه تصویر جفت‌نشده معرفی کردند، ارزش آن از طریق پیاده‌سازی‌های متن‌بازی که استفاده از آن را استاندارد کردند، منفجر شد. DVAGen هدف مشابهی را برای واژگان پویا دنبال می‌کند و آن را از یک مفهوم آکادمیک به یک ابزار عملی تبدیل می‌کند. بینش واقعی تشخیص این است که گلوگاه سازگاری مدل زبانی بزرگ همیشه اندازه مدل نیست، بلکه انعطاف‌ناپذیری توکن‌ایزر است. با پویا کردن این مؤلفه، DVAGen یک محدودیت بنیادی را هدف می‌گیرد.

جریان منطقی: منطق مقاله قانع‌کننده است: (۱) واژگان ایستا یک نقطه ضعف شناخته‌شده هستند. (۲) راه‌حل‌های قبلی وجود دارند اما نامرتب هستند و مقیاس نمی‌پذیرند. (۳) بنابراین، ما یک چارچوب تمیز، ماژولار و آماده تولید ساختیم که مشکلات یکپارچه‌سازی و مقیاس‌پذیری را حل می‌کند. (۴) ما اثبات می‌کنیم که بر روی مدل‌های زبانی بزرگ مدرن کار می‌کند و مزایای ملموس را نشان می‌دهیم. جریان از شناسایی مسئله تا یک راه‌حل عملی و معتبر، واضح و دوستانه برای سرمایه‌گذار است.

نقاط قوت و ضعف: نقطه قوت اصلی کامل بودن است. ارائه رابط خط فرمان، رابط کاربری وب، آموزش و ارزیابی در یک بسته، به طور قابل توجهی مانع پذیرش را کاهش می‌دهد، که یادآور چگونگی دموکراتیک کردن دسترسی به مدل توسط پلتفرم‌هایی مانند کتابخانه Transformers هوگینگ فیس است. تمرکز بر استنتاج دسته‌ای یک پیروزی مهندسی عمل‌گرایانه است. با این حال، ضعف در عمق ارزیابی است. فایل PDF به اعتبارسنجی اشاره می‌کند اما فاقد اعداد سخت و مقایسه‌ای در برابر سیستم‌های پیشرفته تولید تقویت‌شده با بازیابی یا مطالعات حذفی دقیق درباره تأثیر کیفیت بازیابی است. آیا واژگان پویا گاهی اوقات کاندیدهای «پرسروصدا» معرفی می‌کنند که عملکرد را کاهش می‌دهند؟ کاربرد چارچوب اثبات شده است، اما مزیت رقابتی مطلق آن نیاز به معیارسنجی دقیق‌تری دارد، همانطور که در ارزیابی‌های جامع مؤسساتی مانند CRFM دانشگاه استنفورد دیده می‌شود.

بینش‌های قابل اجرا: برای تیم‌های هوش مصنوعی، دستورالعمل واضح است: DVAGen را روی حساس‌ترین مورد استفاده واژگانی خود آزمایش کنید. اگر در فناوری حقوقی، زیست‌پزشکی یا هر حوزه‌ای با واژگان در حال تکامل هستید، این چارچوب می‌تواند مسیر سریع‌تری به سمت دقت نسبت به تنظیم دقیق یک مدل ۷۰ میلیارد پارامتری باشد. پیکره واژگان پویا را به عنوان یک دارایی درجه یک در نظر بگیرید—گردآوری آن به اندازه مهندسی پرامپت مهم خواهد بود. علاوه بر این، به اکوسیستم کمک کنید. طراحی ماژولار دعوت به توسعه می‌کند؛ ساخت یک بازیاب تخصصی برای دامنه شما می‌تواند به یک تمایزدهنده کلیدی تبدیل شود. DVAGen نشان‌دهنده یک تغییر به سمت سیستم‌های هوش مصنوعی ماژولارتر و ترکیبی است و یکپارچه‌سازی زودهنگام یک مزیت عملکردی ملموس ارائه می‌دهد.