انتخاب زبان

DVAGen: یک چارچوب یکپارچه برای مدل‌های زبانی تقویت‌شده با واژگان پویا

DVAGen یک چارچوب متن‌باز برای آموزش، ارزیابی و مصورسازی مدل‌های زبانی بزرگ تقویت‌شده با واژگان پویا است که محدودیت‌های واژگان خارج از دامنه را برطرف و مقیاس‌پذیری استنتاج را بهبود می‌بخشد.
learn-en.org | PDF Size: 0.8 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - DVAGen: یک چارچوب یکپارچه برای مدل‌های زبانی تقویت‌شده با واژگان پویا

1. مقدمه

مدل‌های زبانی بزرگ عمدتاً با یک واژگان ثابت و ایستا آموزش می‌بینند که ذاتاً توانایی آن‌ها را برای تعمیم به کلمات جدید یا خارج از دامنه و همچنین مدیریت کارآمد ترکیبات توکن‌های متنوع محدود می‌کند. این محدودیت به‌ویژه برای کاربردهای حوزه‌ای خاص، زمینه‌های چندزبانه و زبان‌های در حال تحول مشکل‌ساز است. اگرچه رویکردهای واژگان پویا برای کاهش این مشکل پیشنهاد شده‌اند، راه‌حل‌های موجود اغلب پراکنده هستند، از مدل‌های زبانی بزرگ مدرن پشتیبانی نمی‌کنند و از مقیاس‌پذیری ضعیف استنتاج رنج می‌برند.

برای پر کردن این شکاف، DVAGen (تولید تقویت‌شده با واژگان پویا) را معرفی می‌کنیم؛ یک چارچوب یکپارچه و کاملاً متن‌باز که برای توسعه سرتاسری مدل‌های زبانی تقویت‌شده با واژگان پویا طراحی شده است. DVAGen ابزارهای یکپارچه‌ای برای آموزش، ارزیابی و مصورسازی بلادرنگ فراهم می‌کند، از یکپارچه‌سازی بی‌درنگ با مدل‌های زبانی بزرگ متن‌باز معاصر پشتیبانی می‌کند و دارای قابلیت‌های بهینه‌شده استنتاج دسته‌ای است.

2. پیشینه و کارهای مرتبط

روش‌های سنتی توکن‌سازی مانند رمزگذاری جفت بایت و وردپیس به واژگان ایستا متکی هستند که پس از آموزش، انعطاف‌ناپذیر می‌شوند. بهبودهایی مانند توکن‌سازی چندکلمه‌ای، واژگان را با ان‌گرم‌های پرتکرار گسترش می‌دهند اما همچنان ایستا باقی می‌مانند. روش‌های تقویت‌شده با بازیابی، مانند RETRO و چارچوب «کپی-همه-چیز-است-که-نیاز-داری»، با بازیابی گذاره‌ها یا عبارات مرتبط در حین تولید، عناصر پویا را معرفی می‌کنند. با این حال، این رویکردها اغلب شامل خطوط لوله پیچیده و چندمرحله‌ای هستند، تأخیر بالایی دارند و عمدتاً بر روی معماری‌های قدیمی‌تر مانند GPT-2 اعتبارسنجی شده‌اند و فاقد اعتبارسنجی و یکپارچه‌سازی با مدل‌های زبانی بزرگ مدرن هستند.

3. چارچوب DVAGen

DVAGen به عنوان یک چارچوب ماژولار و قابل توسعه برای رفع محدودیت‌های کارهای قبلی ساخته شده است.

3.1. معماری هسته و طراحی ماژولار

این چارچوب مؤلفه‌های کلیدی—توکن‌ساز، بازیاب، امتیازده و مولد—را به ماژول‌های مستقل تفکیک می‌کند. این ماژولار بودن به محققان و توسعه‌دهندگان اجازه می‌دهد تا به راحتی مؤلفه‌ها را سفارشی یا تعویض کنند (مانند امتحان بک‌اندهای بازیابی یا توابع امتیازدهی مختلف) بدون نیاز به بازنگری کامل سیستم. این چارچوب فلسفه «اتصال و استفاده» را برای یکپارچه‌سازی مدل‌های زبانی بزرگ متن‌باز موجود اتخاذ می‌کند.

3.2. خط لوله آموزش و استنتاج

DVAGen از یک خط لوله کامل پشتیبانی می‌کند: train برای تنظیم دقیق مدل‌ها با قابلیت‌های واژگان پویا، chat برای تولید تعاملی و eval برای ارزیابی جامع عملکرد بر روی معیارهای استاندارد.

3.3. ابزارهای رابط خط فرمان و رابط کاربری وب

یک تمایز کلیدی، ارائه همزمان ابزارهای رابط خط فرمان برای اسکریپت‌نویسی و خودکارسازی و یک رابط کاربری وب برای بازرسی و مصورسازی بلادرنگ نتایج تولید، شامل تصمیمات در سطح توکن و استفاده از واژگان پویا است.

4. پیاده‌سازی فنی

4.1. مکانیزم واژگان پویا

در هسته خود، DVAGen پیش‌بینی توکن بعدی استاندارد یک مدل زبانی بزرگ را تقویت می‌کند. در حین تولید، برای یک زمینه داده شده $C_t$، سیستم مجموعه‌ای از عبارات نامزد $P = \{p_1, p_2, ..., p_k\}$ را از یک منبع دانش بازیابی می‌کند. هر نامزد $p_i$ توسط یک تابع $S(p_i | C_t)$ امتیازدهی می‌شود که می‌تواند بر اساس احتمال مدل زبانی بزرگ، یک متریک آموخته‌شده یا یک امتیاز شباهت بازیابی باشد. احتمال نهایی تولید، ترکیبی از توزیع واژگان استاندارد و توزیع نامزدهای پویا است:

$P(w | C_t) = \lambda \cdot P_{LM}(w | C_t) + (1 - \lambda) \cdot \sum_{p_i \in P} S(p_i | C_t) \cdot \mathbb{1}(w \in p_i)$

که در آن $\lambda$ یک پارامتر تعادل و $\mathbb{1}$ یک تابع نشانگر است.

4.2. بهینه‌سازی استنتاج دسته‌ای

با بهره‌گیری از قابلیت فشرده‌سازی توالی عبارات پویا (تولید یک عبارت در یک مرحله در مقابل چندین توکن)، DVAGen استنتاج دسته‌ای بهینه‌شده را پیاده‌سازی می‌کند. با پردازش همزمان چندین توالی ورودی و دسته‌بندی کارآمد عملیات بازیابی و امتیازدهی برای نامزدهای پویا، توان عملیاتی را در مقایسه با پردازش ترتیبی تک‌ورودی به طور قابل توجهی بهبود می‌بخشد و یک نقص عمده مقیاس‌پذیری در روش‌های قبلی واژگان پویا را برطرف می‌کند.

5. نتایج آزمایشی و ارزیابی

مقاله DVAGen را بر روی مدل‌های زبانی بزرگ مدرن (مانند سری LLaMA) اعتبارسنجی می‌کند. یافته‌های کلیدی شامل موارد زیر است:

  • کاهش پراکندگی: مدل‌های تقویت‌شده با DVAGen پراکندگی کمتری بر روی مجموعه‌های آزمایشی حاوی اصطلاحات خارج از دامنه و اصطلاحات تخصصی حوزه نشان می‌دهند که نشان‌دهنده بهبود قابلیت مدل‌سازی زبانی است.
  • سرعت استنتاج: پشتیبانی از استنتاج دسته‌ای منجر به بهبود ۳ تا ۵ برابری توان عملیاتی در مقایسه با استنتاج واژگان پویا غیردسته‌ای می‌شود، با حداقل تأثیر بر کیفیت تولید.
  • کاربرد مصورسازی: رابط کاربری وب به طور مؤثری برجسته می‌کند که چه زمانی و کدام موارد واژگان پویا استفاده شده‌اند و شفافیت را در فرآیند تصمیم‌گیری مدل فراهم می‌کند. شکل ۱ در مقاله مقایسه کنار به کنار تولید استاندارد در مقابل تولید تقویت‌شده با DVAGen را نشان می‌دهد که جایگزینی چندین توکن زیرکلمه با یک عبارت تخصصی حوزه بازیابی‌شده منفرد را نمایش می‌دهد.

6. چارچوب تحلیل و مطالعه موردی

بینش هسته: DVAGen فقط یک ابزار دیگر نیست؛ یک حرکت زیرساختی استراتژیک است. گلوگاه واقعی در هوش مصنوعی فقط اندازه مدل نیست، بلکه انعطاف‌ناپذیری واژگانی است. با در نظر گرفتن واژگان به عنوان یک منبع پویا و قابل بازیابی به جای یک مصنوع ثابت، DVAGen به یک نقص اساسی در طراحی فعلی مدل‌های زبانی بزرگ حمله می‌کند—ناتوانی آن‌ها در یادگیری کلمات جدید پس از آموزش. این امر تکامل در بینایی کامپیوتر از فیلترهای ثابت به مکانیزم‌های توجه پویا را منعکس می‌کند، همان‌طور که در تأثیر معماری ترنسفورمر در مقایسه با رویکردهای کانولوشنی قبلی مشاهده می‌شود.

جریان منطقی: منطق چارچوب به زیبایی «زور خام» است: ۱) پذیرش مشکل واژگان ایستا، ۲) تفکیک راه‌حل به دانش قابل بازیابی (عبارات) و یک مکانیزم امتیازدهی/انتخاب، ۳) ماژولار کردن همه چیز برای انعطاف‌پذیری، و ۴) مهندسی برای مقیاس (استنتاج دسته‌ای). این چارچوب از کتاب بازی موفق متن‌باز پروژه‌هایی مانند ترنسفورمرهای Hugging Face پیروی می‌کند—لوله‌کشی را فراهم کن، اجازه بده جامعه خانه‌ها را بسازد.

نقاط قوت و ضعف: بزرگترین نقطه قوت آن، یکپارچگی و عملی بودن است. ارائه همزمان رابط خط فرمان و رابط کاربری وب، یک حرکت استادانه برای پذیرش است که هم محققان و هم مهندسان را پوشش می‌دهد. تمرکز بر استنتاج دسته‌ای، پاسخی مستقیم به سردردهای استقرار نمونه‌های اولیه آکادمیک قبلی است. با این حال، نقص در وابستگی ذاتی به کیفیت و تأخیر منبع بازیابی نهفته است. همان‌طور که تحقیقات تولید تقویت‌شده با بازیابی، مانند تحقیقات هوش مصنوعی فیسبوک بر روی مدل Atlas نشان می‌دهد، بازیابی ضعیف می‌تواند عملکرد را بیشتر از کمک، تنزل دهد. DVAGen در حال حاضر از مشکل سخت «بازیابی کامل» دوری می‌کند و آن را به کاربر واگذار می‌کند.

بینش‌های عملی: برای بنگاه‌ها، کاربرد فوری در حوزه‌هایی با اصطلاحات ناپایدار است—زیست‌فناوری (نام‌های داروهای جدید)، مالی (مخفف‌های نوظهور)، حقوقی (اصطلاحات خاص پرونده). یک لایه DVAGen را بر روی خط لوله مدل زبانی بزرگ موجود خود پیاده‌سازی کنید تا یک پیروزی سریع در انطباق حوزه کسب کنید. برای محققان، این چارچوب یک بستر آزمایشی است: با توابع امتیازدهی مختلف $S(p_i | C_t)$ آزمایش کنید. امتیازدهی مبتنی بر احتمال فعلی ساده‌لوحانه است؛ یکپارچه‌سازی امتیازده‌های قابل یادگیری و آگاه از زمینه می‌تواند پیشرفت بعدی باشد.

مطالعه موردی - تولید چکیده زیست‌پزشکی: تولید یک خلاصه برای یک ژن جدید به نام «CRISPRaX» را در نظر بگیرید که برای مدل زبانی بزرگ پایه ناشناخته است. یک مدل استاندارد ممکن است توکن‌های تکه‌تکه شده خروجی دهد: «CRI»، «SP»، «Ra»، «X». بازیاب DVAGen که به یک پیکره زیست‌پزشکی متصل است، عبارات نامزدی مانند «گونه فعال‌سازی CRISPR» و «مجموعه ویرایش ژن» را بازیابی می‌کند. امتیازده، «گونه فعال‌سازی CRISPR» را با توجه به زمینه، بسیار مرتبط شناسایی می‌کند. سپس مولد، عبارت منسجم «گونه فعال‌سازی CRISPR (CRISPRaX)» را مستقیماً خروجی می‌دهد و بدون بازآموزی مدل، روانی و دقت را به طور چشمگیری بهبود می‌بخشد.

7. کاربردها و جهت‌های آینده

  • دستیاران هوش مصنوعی شخصی‌شده: گنجاندن پویای واژگان خاص کاربر (نام پروژه‌ها، مخاطبین شخصی، علایق تخصصی) در گفتگو.
  • تکامل زبانی بلادرنگ: اتصال به جریان‌های داده زنده (اخبار، رسانه‌های اجتماعی) برای یادگیری و استفاده فوری از اصطلاحات عامیانه جدید، عبارات ترند یا موجودیت‌های اخبار فوری.
  • گسترش واژگان چندوجهی: گسترش چارچوب فراتر از متن برای بازیابی و یکپارچه‌سازی توکن‌ها یا مفاهیم از تصاویر، صوت یا داده‌های ساختاریافته، به سمت یک واژگان پویای واقعاً چندوجهی.
  • یادگیری فدرال و روی دستگاه: فعال‌سازی به‌روزرسانی‌های سبک‌وزن و محلی واژگان پویا روی دستگاه‌های لبه برای کاربردهای حساس به حریم خصوصی، جایی که مدل هسته ثابت باقی می‌ماند اما پایگاه داده عبارات قابل بازیابی در طول زمان شخصی‌سازی می‌شود.
  • یکپارچه‌سازی با چارچوب‌های عامل: تقویت عامل‌های هوش مصنوعی (مانند آن‌هایی که بر روی چارچوب‌هایی مانند LangChain یا AutoGPT ساخته شده‌اند) با توانایی یادگیری پویا و استفاده از نام‌های ابزار جدید، پارامترهای API یا اشیاء خاص محیط در حین اجرای وظیفه.

8. مراجع

  1. Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
  2. Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
  3. Borgeaud, S., et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. ICML.
  4. Lan, Y., et al. (2023). Copy-is-All-You-Need: A Retrieval-augmented Language Model for Long-form Text Generation. arXiv preprint arXiv:2305.11346.
  5. Liu, N., et al. (2024). Dynamic Vocabulary Augmented Generation for Protein Language Models. NeurIPS Workshop.
  6. Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
  7. Facebook AI Research (FAIR). (2023). Atlas: Few-shot Learning with Retrieval Augmented Language Models. FAIR Publications.
  8. Grattafiori, A., et al. (2024). The Limitations of Fixed-Vocabulary Tokenization in Modern NLP. Journal of Artificial Intelligence Research.