VocAgnoLM: غلبه بر ناهماهنگی واژگان در آموزش مدل‌های زبانی معلم-شاگرد

1. مقدمه و بیان مسئله

الگوی غالب برای آموزش مدل‌های زبانی کوچک‌تر و کارآمد (شاگرد) شامل راهنمایی از سوی مدل‌های بزرگ‌تر و توانمندتر (معلم) است. با این حال، این رویکرد با یک مانع اساسی مواجه می‌شود: ناهماهنگی واژگان. هنگامی که مدل‌های معلم و شاگرد از توکنایزرهای متفاوتی استفاده می‌کنند - که در هنگام بهره‌گیری از مدل‌های متنوع متن‌باز یا تخصصی رایج است - دنباله‌های توکن و توزیع‌های احتمال خروجی آن‌ها واگرا می‌شود و انتقال مؤثر دانش را مختل می‌کند. همانطور که در مقاله نشان داده شده است، یک مدل پیشرفته مانند Qwen2.5-Math ممکن است تنها ۶.۳۲٪ از واژگان خود را با یک مدل شاگرد مانند TinyLlama به اشتراک بگذارد، که مانعی قابل توجه برای استفاده از بهترین مدل‌های موجود به عنوان معلم ایجاد می‌کند.

2. چارچوب VocAgnoLM

مدل‌سازی زبانی هدایت‌شده توسط معلم مستقل از واژگان (VocAgnoLM) یک راه‌حل دوگانه برای پل زدن بر این شکاف پیشنهاد می‌دهد و تقطیر دانش مستقل از واژگان را ممکن می‌سازد.

2.1 بینش اصلی و جریان منطقی

بینش اصلی: مانع اساسی معماری مدل نیست، بلکه ناهمترازی بازنمایی است. شما نمی‌توانید مستقیماً سیب (توکن‌های Qwen) را با پرتقال (توکن‌های TinyLlama) مقایسه کنید. نبوغ VocAgnoLM در بازتعریف مسئله از "همسان‌سازی خروجی‌ها" به "همترازی فضاهای معنایی و سیگنال‌های یادگیری" نهفته است. این روش دانش معلم را از طرح توکن‌سازی خاص آن جدا می‌کند.

جریان منطقی: فرآیند به شکلی ظریف و متوالی است: ۱) برای یک متن ورودی داده شده، دنباله‌های توکن را برای هر دو مدل شاگرد و معلم تولید کنید. ۲) از همترازی واژگانی در سطح توکن برای ایجاد نگاشتی بین دنباله‌های ناهماهنگ استفاده کنید. ۳) از این نگاشت برای اعمال زیان هدایت‌شده توسط معلم بهره ببرید، با استفاده از زیان داخلی معلم به عنوان سیگنال آموزشی برای شاگرد، و دور زدن همسان‌سازی مستقیم احتمال توکن.

2.2 همترازی واژگانی در سطح توکن

این مؤلفه مسئله ناهمترازی دنباله را مورد توجه قرار می‌دهد. این روش یک نگاشت یک-به-چند از هر توکن شاگرد به یک زیردنباله متناظر از توکن‌های معلم برقرار می‌کند. برای مثال، توکن شاگرد "Pro" ممکن است به توکن‌های معلم "Prob" و "ability" نگاشت شود. این از نظر مفهومی مشابه تکنیک‌های همترازی در ترجمه ماشینی (مانند آن‌هایی که در MT آماری یا مدل‌های عصبی اولیه استفاده می‌شود) است، اما در سطح زیرواژه و در طرح‌های توکن‌سازی مختلف اعمال می‌شود. هدف ایجاد پلی است که جریان اطلاعات را علیرغم گسست واژگانی ممکن می‌سازد.

2.3 زیان هدایت‌شده توسط معلم

به جای مجبور کردن شاگرد به تقلید از توزیع احتمال توکن بعدی معلم - که با واژگان متفاوت غیرممکن است - VocAgnoLM از زیان مدل‌سازی زبانی خود معلم به عنوان راهنما استفاده می‌کند. شاگرد آموزش می‌بیند تا یک هدف ترکیبی را کمینه کند: زیان استاندارد مدل‌سازی زبانی خودش و زیانی که بازنمایی‌ها یا پیش‌بینی‌های داخلی آن را تشویق می‌کند تا منجر به یک مقدار زیان کم برای مدل معلم روی دنباله همتراز شده شود. این شکل انتزاعی‌تر، اما قدرتمندتری از راهنمایی است.

3. نقاط قوت و نقاط ضعف حیاتی

نقاط قوت:

گشودن قفل تنوع مدل: این ویژگی برتر است. این روش وابستگی به فروشنده/اکوسیستم خاص را می‌شکند و به تیم‌ها اجازه می‌دهد تا بهترین مدل موجود (مثلاً یک Qwen تخصصی ریاضی) را برای آموزش هر شاگردی، صرف نظر از منشأ آن (مثلاً TinyLlama) استفاده کنند.
عملگرا و سبک‌وزن: این روش نیاز به آموزش مجدد توکنایزر معلم یا لایه جاسازی شاگرد ندارد و از سربار مهندسی عظیم اجتناب می‌کند.
نتایج تجربی قوی: بهبود ۴۶ درصدی عملکرد نسبت به پیش‌آموزش ساده با ناهماهنگی شدید واژگان، امری پیش‌پاافتاده نیست. این نشان می‌دهد که رویکرد در عمل کار می‌کند.

نقاط ضعف حیاتی و سؤالات باز:

ابتکار همترازی یک جعبه سیاه است: مقاله جزئیات دقیق الگوریتم "همترازی واژگانی در سطح توکن" را نادیده می‌گیرد. آیا برنامه‌ریزی پویا است؟ یک مدل آموزش‌دیده؟ استحکام و هزینه محاسباتی این مرحله همترازی، ناشناخته‌هایی حیاتی هستند. یک همترازی ضعیف می‌تواند به جای دانش، نویز را منتشر کند.
از دست دادن سیگنال ریزدانه: استفاده از زیان اسکالر معلم، سیگنال غنی و چندبعدی توزیع خروجی کامل آن را قربانی می‌کند. این مشابه یادگیری از یک نمره نهایی به جای بازخورد دقیق بر هر پاسخ است. این ممکن است وفاداری انتقال دانش را برای قابلیت‌های زبانی ظریف محدود کند.
مقیاس‌پذیری به ناهماهنگی شدید: ناهماهنگی آزمایش شده (۶٪ همپوشانی) شدید است، اما در مورد همپوشانی نزدیک به صفر چطور؟ محدودیت‌های نظری این رویکرد آزمایش نشده است.

4. نتایج تجربی و تحلیل

4.1 تنظیمات و معیارهای عملکرد

این مطالعه از یک مدل شاگرد ۱ میلیارد پارامتری (TinyLlama) و مدل‌های معلم ۷ میلیاردی مختلف (Llemma, Mistral, DeepSeek-Math, Qwen2.5-Math) با اندازه واژگان از ۳۲ هزار تا ۱۵۰ هزار استفاده می‌کند. معیار کلیدی عملکرد در یک مجموعه ارزیابی ریاضی است که VocAgnoLM را در برابر یک خط پایه از پیش‌آموزش مداوم بدون راهنمایی معلم مقایسه می‌کند.

4.2 یافته‌های کلیدی و تفسیر نمودار

نتیجه مرکزی در شکل ۱ مقاله به تصویر کشیده شده است. این شکل دو روند حیاتی را نشان می‌دهد:

مسئله ناهماهنگی واژگان: محور x مدل‌های معلم را با عملکرد فزاینده (از Llemma تا Qwen2.5-Math) نشان می‌دهد. میله‌ها همپوشانی واژگانی آن‌ها با TinyLlama را نشان می‌دهند. یک رابطه معکوس واضح وجود دارد: بهترین معلم از نظر عملکرد (Qwen) کمترین همپوشانی (~۶٪) را دارد. این به وضوح مسئله‌ای را که VocAgnoLM هدف حل آن را دارد، نشان می‌دهد.
اثربخشی VocAgnoLM: متن بیان می‌کند که با Qwen2.5-Math به عنوان معلم، VocAgnoLM یک بهبود عملکرد ۴۶ درصدی نسبت به خط پایه به دست می‌آورد. این ثابت می‌کند که چارچوب با وجود اشتراک واژگان حداقلی، موفق به بهره‌گیری از یک معلم قوی شده است. مقاله همچنین مزایای ثابت از معلمان قوی‌تر را یادآور می‌شود که فرضیه اصلی را تأیید می‌کند.

نتیجه تجربی کلیدی

بهبود عملکرد ۴۶ درصدی که توسط VocAgnoLM با استفاده از Qwen2.5-Math (۶.۳۲٪ همپوشانی واژگان) به عنوان معلم برای TinyLlama، در مقایسه با پیش‌آموزش مداوم استاندارد به دست آمد.

5. بینش‌های عملی و پیامدهای راهبردی

برای متخصصان و رهبران در حوزه هوش مصنوعی:

تاکتیک فوری: اگر در حال ساخت یک مدل تخصصی هستید (مثلاً برای امور مالی، حقوق، زیست‌پزشکی)، جستجوی معلم خود را به مدل‌هایی با توکنایزرهای سازگار محدود نکنید. فعالانه مدل‌های برتر در حوزه خود را، صرف نظر از توکنایزر آن‌ها، ارزیابی کنید. VocAgnoLM مسیری عملی برای استفاده از آن‌ها فراهم می‌کند.
تأمین راهبردی: این پژوهش ریسک "قفل شدن در توکنایزر" را کاهش می‌دهد. هنگام انتخاب یک مدل پایه برای سازمان شما، سازگاری واژگان به یک محدودیت کمتر حیاتی تبدیل می‌شود و شما را آزاد می‌گذارد تا صرفاً بر اساس معماری، مجوز و عملکرد انتخاب کنید.
سرمایه‌گذاری پژوهشی: مؤلفه همترازی محور اصلی است. سرمایه‌گذاری در روش‌های همترازی مستحکم، کارآمد و احتمالاً قابل یادگیری، کلید صنعتی کردن این رویکرد خواهد بود. آن را مرز بعدی در قابلیت همکاری مدل‌ها در نظر بگیرید.
احتیاط: این یک راه‌حل جادویی نیست. برای وظایفی که نیاز به تولید دقیق یا تقلید سبک دارند، از دست دادن همسان‌سازی توزیع ریزدانه ممکن است یک نقطه ضعف قابل توجه باشد. ابتدا آن را برای وظایف دانش‌محور (مانند ریاضی، استدلال) آزمایش کنید.

6. بررسی فنی عمیق

6.1 فرمول‌بندی ریاضی

در حالی که تابع زیان کامل در بخش ارائه شده به صراحت جزئیات داده نشده است، ایده اصلی را می‌توان صوری کرد. فرض کنید $\mathcal{V}_s$ و $\mathcal{V}_t$ به ترتیب واژگان شاگرد و معلم باشند. برای یک دنباله ورودی $x$، شاگرد یک دنباله توکن $\mathbf{s} = [s_1, ..., s_n]$ و معلم یک دنباله $\mathbf{t} = [t_1, ..., t_m]$ تولید می‌کند، که عموماً $n \neq m$ است.

تابع همترازی واژگانی در سطح توکن $\mathcal{A}$ هر توکن شاگرد $s_i$ را به یک زیردنباله پیوسته از توکن‌های معلم نگاشت می‌دهد: $\mathcal{A}(s_i) = \mathbf{t}_{[j:k]}$.

زیان هدایت‌شده توسط معلم $\mathcal{L}_{guide}$ احتمالاً شامل تغذیه یک بازنمایی یا پیش‌بینی مشتق شده از شاگرد (که از طریق $\mathcal{A}$ همتراز شده است) به فرآیند پیشروی معلم و محاسبه زیان مدل‌سازی زبانی معلم روی آن است. هدف آموزش کلی شاگرد می‌شود:

$$\mathcal{L}_{total} = \mathcal{L}_{LM}(\theta_s; x) + \lambda \cdot \mathcal{L}_{guide}(\theta_s, \theta_t; x, \mathcal{A})$$

که در آن $\theta_s$ و $\theta_t$ پارامترهای شاگرد و معلم هستند، $\mathcal{L}_{LM}$ زیان استاندارد مدل‌سازی زبانی شاگرد است، و $\lambda$ یک ابرپارامتر وزنی است. نکته کلیدی این است که $\mathcal{L}_{guide}$ روی دنباله‌های همتراز عمل می‌کند و ناهماهنگی مستقیم واژگان را دور می‌زند.

6.2 چارچوب تحلیل: یک مطالعه موردی

سناریو: یک شرکت می‌خواهد یک مدل زبانی بزرگ فشرده و کارآمد برای تحلیل اسناد حقوقی ایجاد کند. بهترین معلم تخصصی موجود `LexLaw-70B` است که از یک توکنایزر سفارشی آموزش‌دیده روی پیکره حقوقی استفاده می‌کند. مدل شاگرد هدف یک مدل `Llama-3-8B` است.

کاربرد چارچوب:

تشخیص مسئله: همپوشانی واژگان را تحلیل کنید. احتمالاً زیر ۲۰٪ است. تقطیر دانش مستقیم غیرممکن است.
فاز همترازی: نمونه‌ای از متون حقوقی را از هر دو مدل اجرا کنید. از ماژول همترازی VocAgnoLM (مثلاً یک الگوریتم حداقل فاصله ویرایش روی رمزگذاری‌های جفت بایت) برای ساختن یک نگاشت $\mathcal{A}$ بین توکن‌های Llama-3 و دنباله‌های توکن LexLaw برای اصطلاحات حقوقی رایج (مثلاً "force majeure") استفاده کنید.
فاز آموزش: مدل شاگرد Llama-3 را روی یک پیکره حقوقی آموزش دهید. برای هر دسته، زیان استاندارد آن را محاسبه کنید. به موازات آن، برای هر دنباله، از $\mathcal{A}$ برای ساخت یک "نمای معلم" از دنباله پیش‌بینی شده شاگرد استفاده کنید، آن را به معلم ثابت LexLaw بدهید و زیان آن را محاسبه کنید. زیان ترکیبی را پس‌انتشار دهید تا فقط پارامترهای شاگرد به‌روزرسانی شوند.
ارزیابی: عملکرد را در معیارهای پرسش و پاسخ حقوقی در برابر یک شاگرد خط پایه که بدون راهنمایی LexLaw آموزش دیده است، نظارت کنید. نتیجه مورد انتظار بهبود استدلال حقوقی بدون تغییر توکنایزر شاگرد است.

7. کاربردهای آینده و جهت‌های پژوهشی

انتقال بین حالتی و بین زبانی: اصل اساسی همترازی فضاهای بازنمایی ناهمگون، بنیادی است. کار آینده می‌تواند این را گسترش دهد تا از یک معلم بینایی-زبان (مانند GPT-4V) برای هدایت یک شاگرد فقط متنی از طریق جفت‌های زیرنویس-تصویر همتراز استفاده کند، یا از یک معلم زبان با منابع غنی برای هدایت یک شاگرد زبان با منابع کم استفاده کند.
همترازی پویا و آموزش‌دیده: حرکت از همترازی ابتکاری به یک مدل همترازی کوچک و قابل آموزش که نگاشت‌های بهینه را در طول آموزش یاد می‌گیرد، می‌تواند استحکام و کارایی را بهبود بخشد.
خطوط لوله مدل صنعتی: این امکان ایجاد "بازارهای معلم" را فراهم می‌کند که در آن سازمان‌ها می‌توانند مدل‌های معلم تخصصی ثابت را به عنوان یک سرویس ارائه دهند. کاربران پایین‌دست می‌توانند این‌ها را در معماری انتخابی خود تقطیر کنند، از مالکیت معنوی محافظت کنند (معلمان ثابت هستند) و سازگاری را تضمین کنند.
یادگیری فدرال با مشتریان ناهمگون: در سناریوهای فدرال، مشتریان ممکن است از مدل‌های پایه متفاوتی استفاده کنند. VocAgnoLM می‌تواند روشی برای تجمیع دانش از این مدل‌های ناهمگون در یک مدل جهانی بدون نیاز به استانداردسازی فراهم کند.

8. مراجع

Shin, H., Ji, L., Liu, X., & Gong, Y. (2025). Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling. arXiv preprint arXiv:2503.19123.
Zhang, P., et al. (2024). TinyLlama: An Open-Source Small Language Model. GitHub repository.
Yang, A., et al. (2024). Qwen2.5-Math: A Series of Large Language Models for Mathematical Problem Solving. Technical Report.
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531. (کار بنیادین در تقطیر دانش).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (کار تأثیرگذار در همترازی توزیع‌ها در حوزه‌های مختلف، مشابه چالش همترازی اینجا).
Google AI. (2023). Gemma: Open Models Based on Google Research and Technology. https://ai.google.dev/gemma.
Meta AI. (2024). Llama 3 Model Card. https://llama.meta.com/llama3/.