ডিভিএজেন: ডাইনামিক ভোকাবুলারি অগমেন্টেড ল্যাঙ্গুয়েজ মডেলের জন্য একটি একীভূত কাঠামো

1. ভূমিকা

বৃহৎ ভাষা মডেলগুলো (এলএলএম) প্রধানত একটি নির্দিষ্ট, স্থির শব্দভাণ্ডার নিয়ে প্রশিক্ষিত হয়, যা স্বভাবতই নতুন বা শব্দভাণ্ডারের বাইরের (ওওভি) শব্দগুলোর সাথে খাপ খাইয়ে নেওয়ার এবং বিভিন্ন টোকেন সংমিশ্রণ দক্ষতার সাথে পরিচালনা করার তাদের ক্ষমতাকে সীমাবদ্ধ করে। এই সীমাবদ্ধতা বিশেষত ডোমেন-নির্দিষ্ট অ্যাপ্লিকেশন, বহুভাষিক প্রেক্ষাপট এবং বিবর্তনশীল ভাষাগুলোর জন্য সমস্যাজনক। যদিও এই সমস্যা প্রশমিত করার জন্য ডাইনামিক ভোকাবুলারি পদ্ধতিগুলো প্রস্তাব করা হয়েছে, বিদ্যমান সমাধানগুলো প্রায়শই খণ্ডিত, আধুনিক এলএলএমগুলোর জন্য সমর্থনের অভাব রয়েছে এবং দুর্বল ইনফারেন্স স্কেলেবিলিটিতে ভোগে।

এই ফাঁক পূরণ করতে, আমরা পরিচয় করিয়ে দিচ্ছি ডিভিএজেন (ডাইনামিক ভোকাবুলারি অগমেন্টেড জেনারেশন), একটি সম্পূর্ণ ওপেন-সোর্স, একীভূত কাঠামো যা ডাইনামিক ভোকাবুলারি-অগমেন্টেড ভাষা মডেলগুলোর এন্ড-টু-এন্ড উন্নয়নের জন্য নকশা করা হয়েছে। ডিভিএজেন প্রশিক্ষণ, মূল্যায়ন এবং রিয়েল-টাইম ভিজ্যুয়ালাইজেশনের জন্য সমন্বিত টুলস সরবরাহ করে, সমসাময়িক ওপেন-সোর্স এলএলএমগুলোর সাথে নিরবচ্ছিন্ন সংহতকরণ সমর্থন করে এবং অপ্টিমাইজড ব্যাচ ইনফারেন্স ক্ষমতা বৈশিষ্ট্যযুক্ত করে।

2. পটভূমি ও সম্পর্কিত কাজ

বাইট-পেয়ার এনকোডিং (বিপিই) এবং ওয়ার্ডপিসের মতো ঐতিহ্যগত টোকেনাইজেশন পদ্ধতিগুলো স্থির শব্দভাণ্ডারের উপর নির্ভরশীল, যা প্রশিক্ষণের পর তাদের অনমনীয় করে তোলে। মাল্টি-ওয়ার্ড টোকেনাইজেশন (এমডব্লিউটি)-এর মতো উন্নতিগুলো ঘন ঘন ব্যবহৃত এন-গ্রাম দিয়ে শব্দভাণ্ডার প্রসারিত করে কিন্তু স্থিরই থাকে। রিট্রিভাল-অগমেন্টেড পদ্ধতিগুলো, যেমন রেট্রো এবং কপি-ইজ-অল-ইউ-নিড (কোগ) ফ্রেমওয়ার্ক, জেনারেশনের সময় প্রাসঙ্গিক অনুচ্ছেদ বা বাক্যাংশ পুনরুদ্ধার করে গতিশীল উপাদান প্রবর্তন করে। যাইহোক, এই পদ্ধতিগুলোতে প্রায়শই জটিল, বহু-পর্যায়ের পাইপলাইন জড়িত থাকে, উচ্চ লেটেন্সি বহন করে এবং প্রাথমিকভাবে জিপিটি-২-এর মতো পুরানো স্থাপত্যের উপর যাচাই করা হয়েছে, আধুনিক এলএলএমগুলোর সাথে যাচাইকরণ এবং সংহতকরণের অভাব রয়েছে।

3. ডিভিএজেন ফ্রেমওয়ার্ক

ডিভিএজেন পূর্ববর্তী কাজের সীমাবদ্ধতা মোকাবেলা করার জন্য একটি মডুলার এবং প্রসারিতযোগ্য কাঠামো হিসাবে নির্মিত হয়েছে।

3.1. মূল স্থাপত্য ও মডুলার ডিজাইন

কাঠামোটি মূল উপাদানগুলো—টোকেনাইজার, রিট্রিভার, স্কোরার এবং জেনারেটর—স্বাধীন মডিউলে বিভক্ত করে। এই মডুলারিটি গবেষক এবং বিকাশকারীদের পুরো সিস্টেমটি ওভারহোল না করেই সহজেই উপাদানগুলো কাস্টমাইজ বা পরিবর্তন করতে দেয় (যেমন, বিভিন্ন রিট্রিভাল ব্যাকএন্ড বা স্কোরিং ফাংশন চেষ্টা করা)। এটি বিদ্যমান ওপেন-সোর্স এলএলএমগুলোর সাথে সংহত করার জন্য একটি প্লাগ-এন্ড-প্লে দর্শন গ্রহণ করে।

3.2. প্রশিক্ষণ ও ইনফারেন্স পাইপলাইন

ডিভিএজেন একটি সম্পূর্ণ পাইপলাইন সমর্থন করে: ডাইনামিক ভোকাবুলারি ক্ষমতা সহ মডেলগুলোর ফাইন-টিউনিংয়ের জন্য train, ইন্টারেক্টিভ জেনারেশনের জন্য chat, এবং স্ট্যান্ডার্ড বেঞ্চমার্কগুলোর উপর ব্যাপক কর্মক্ষমতা মূল্যায়নের জন্য eval।

3.3. সিএলআই ও ওয়েবইউআই টুলস

একটি মূল পার্থক্য হলো স্ক্রিপ্টিং এবং অটোমেশনের জন্য কমান্ড-লাইন ইন্টারফেস (সিএলআই) টুলস এবং জেনারেশন ফলাফলের রিয়েল-টাইম পরিদর্শন এবং ভিজ্যুয়ালাইজেশনের জন্য একটি ওয়েব ইউজার ইন্টারফেস (ওয়েবইউআই) উভয়েরই সরবরাহ, যার মধ্যে টোকেন-লেভেল সিদ্ধান্ত এবং ডাইনামিক ভোকাবুলারি ব্যবহার অন্তর্ভুক্ত।

4. প্রযুক্তিগত বাস্তবায়ন

4.1. ডাইনামিক ভোকাবুলারি প্রক্রিয়া

এর মূলভিত্তিতে, ডিভিএজেন একটি এলএলএমের স্ট্যান্ডার্ড নেক্সট-টোকেন প্রেডিকশনকে বৃদ্ধি করে। জেনারেশনের সময়, একটি প্রদত্ত প্রসঙ্গ $C_t$-এর জন্য, সিস্টেমটি একটি জ্ঞান উৎস থেকে প্রার্থী বাক্যাংশগুলোর একটি সেট $P = \{p_1, p_2, ..., p_k\}$ পুনরুদ্ধার করে। প্রতিটি প্রার্থী $p_i$ একটি ফাংশন $S(p_i | C_t)$ দ্বারা স্কোর করা হয়, যা এলএলএমের সম্ভাবনা, একটি শেখা মেট্রিক বা একটি রিট্রিভাল সাদৃশ্য স্কোরের উপর ভিত্তি করে হতে পারে। চূড়ান্ত জেনারেশন সম্ভাবনা হলো স্ট্যান্ডার্ড শব্দভাণ্ডার বন্টন এবং ডাইনামিক প্রার্থী বন্টনের একটি মিশ্রণ:

$P(w | C_t) = \lambda \cdot P_{LM}(w | C_t) + (1 - \lambda) \cdot \sum_{p_i \in P} S(p_i | C_t) \cdot \mathbb{1}(w \in p_i)$

যেখানে $\lambda$ হলো একটি ভারসাম্য প্যারামিটার এবং $\mathbb{1}$ হলো একটি নির্দেশক ফাংশন।

4.2. ব্যাচ ইনফারেন্স অপ্টিমাইজেশন

ডাইনামিক বাক্যাংশগুলোর ক্রম সংকোচন ক্ষমতার সুবিধা নিয়ে (একটি বাক্যাংশ এক ধাপে বনাম একাধিক টোকেনে তৈরি করা), ডিভিএজেন অপ্টিমাইজড ব্যাচ ইনফারেন্স বাস্তবায়ন করে। একাধিক ইনপুট ক্রম একই সাথে প্রক্রিয়াকরণ করে এবং ডাইনামিক প্রার্থীদের জন্য রিট্রিভাল এবং স্কোরিং অপারেশনগুলোর জন্য দক্ষতার সাথে ব্যাচিং করে, এটি অনুক্রমিক একক-ইনপুট প্রক্রিয়াকরণের তুলনায় থ্রুপুট উল্লেখযোগ্যভাবে উন্নত করে, পূর্ববর্তী ডাইনামিক ভোকাবুলারি পদ্ধতিগুলোর একটি প্রধান স্কেলেবিলিটি ত্রুটির সমাধান করে।

5. পরীক্ষামূলক ফলাফল ও মূল্যায়ন

কাগজটি আধুনিক এলএলএমগুলোর (যেমন, ল্লামা সিরিজ) উপর ডিভিএজেন যাচাই করে। মূল ফলাফলগুলোর মধ্যে রয়েছে:

পারপ্লেক্সিটি হ্রাস: ডিভিএজেন দিয়ে অগমেন্টেড মডেলগুলো ওওভি শব্দ এবং ডোমেন-নির্দিষ্ট অপভাষা সম্বলিত টেস্ট সেটগুলোর উপর হ্রাসকৃত পারপ্লেক্সিটি দেখায়, যা উন্নত ভাষা মডেলিং ক্ষমতা প্রদর্শন করে।
ইনফারেন্স গতি: ব্যাচ ইনফারেন্স সমর্থন অ-ব্যাচড ডাইনামিক ভোকাবুলারি ইনফারেন্সের তুলনায় ৩-৫ গুণ থ্রুপুট উন্নতি ঘটায়, জেনারেশন গুণমানের উপর ন্যূনতম প্রভাব সহ।
ভিজ্যুয়ালাইজেশন উপযোগিতা: ওয়েবইউআই কার্যকরভাবে হাইলাইট করে কখন এবং কোন ডাইনামিক ভোকাবুলারি আইটেম ব্যবহার করা হয়, মডেলের সিদ্ধান্ত গ্রহণ প্রক্রিয়ায় স্বচ্ছতা প্রদান করে। কাগজের চিত্র ১ স্ট্যান্ডার্ড বনাম ডিভিএজেন-অগমেন্টেড জেনারেশনের পাশাপাশি তুলনা চিত্রিত করে, একাধিক সাবওয়ার্ড টোকেনকে একটি একক, পুনরুদ্ধারকৃত ডোমেন-নির্দিষ্ট বাক্যাংশ দিয়ে প্রতিস্থাপন দেখায়।

6. বিশ্লেষণ কাঠামো ও কেস স্টাডি

মূল অন্তর্দৃষ্টি: ডিভিএজেন শুধু আরেকটি টুল নয়; এটি একটি কৌশলগত অবকাঠামোর খেলা। কৃত্রিম বুদ্ধিমত্তার প্রকৃত বাধা শুধু মডেলের আকার নয়, বরং শব্দার্থিক অনমনীয়তা। শব্দভাণ্ডারকে একটি স্থির নিদর্শনের পরিবর্তে একটি গতিশীল, পুনরুদ্ধারযোগ্য সম্পদ হিসাবে বিবেচনা করে, ডিভিএজেন বর্তমান এলএলএম নকশার একটি মৌলিক ত্রুটির উপর আক্রমণ করে—তাদের প্রশিক্ষণের পর নতুন শব্দ শেখার অক্ষমতা। এটি কম্পিউটার ভিশনে স্থির ফিল্টার থেকে ডাইনামিক অ্যাটেনশন মেকানিজমে বিবর্তনের প্রতিফলন ঘটায়, যেমনটি ট্রান্সফরমার স্থাপত্যের প্রভাবের মধ্যে পূর্ববর্তী কনভোলিউশনাল পদ্ধতির তুলনায় দেখা যায়।

যুক্তিগত প্রবাহ: কাঠামোর যুক্তি মার্জিতভাবে ব্রুট-ফোর্স: ১) স্থির শব্দভাণ্ডার সমস্যা স্বীকার করুন, ২) সমাধানটিকে পুনরুদ্ধারযোগ্য জ্ঞান (বাক্যাংশ) এবং একটি স্কোরিং/নির্বাচন প্রক্রিয়ায় বিভক্ত করুন, ৩) নমনীয়তার জন্য সবকিছু মডুলারাইজ করুন, এবং ৪) স্কেলের জন্য ইঞ্জিনিয়ার করুন (ব্যাচ ইনফারেন্স)। এটি হাগিং ফেসের ট্রান্সফরমার্সের মতো প্রকল্পগুলোর সফল ওপেন-সোর্স প্লেবুক অনুসরণ করে—প্লাম্বিং সরবরাহ করুন, সম্প্রদায়কে ঘর তৈরি করতে দিন।

শক্তি ও ত্রুটি: এর সর্বশ্রেষ্ঠ শক্তি হলো একীকরণ এবং ব্যবহারিকতা। সিএলআই এবং ওয়েবইউআই উভয়ের সরবরাহ গ্রহণের জন্য একটি মাস্টারস্ট্রোক, গবেষক এবং প্রকৌশলী উভয়ের জন্য উপযোগী। ব্যাচ ইনফারেন্স ফোকাস পূর্ববর্তী একাডেমিক প্রোটোটাইপগুলোর মোতায়েনের মাথাব্যথার প্রত্যক্ষ প্রতিক্রিয়া। যাইহোক, ত্রুটিটি রিট্রিভাল উৎসের গুণমান এবং লেটেন্সির উপর অন্তর্নিহিত নির্ভরতার মধ্যে রয়েছে। যেমন ফেসবুক এআই রিসার্চ (ফেয়ার) তাদের অ্যাটলাস মডেলের উপর রিট্রিভাল-অগমেন্টেড জেনারেশন (র্যাগ) গবেষণা দেখায়, দুর্বল রিট্রিভাল সাহায্যের চেয়ে বেশি কর্মক্ষমতা হ্রাস করতে পারে। ডিভিএজেন বর্তমানে "নিখুঁত রিট্রিভাল" এর কঠিন সমস্যাটি এড়িয়ে যায়, এটিকে ব্যবহারকারীর দিকে ঠেলে দেয়।

কার্যকরী অন্তর্দৃষ্টি: উদ্যোগগুলোর জন্য, তাত্ক্ষণিক প্রয়োগ হলো পরিবর্তনশীল পরিভাষা সহ ডোমেনে—বায়োটেক (নতুন ওষুধের নাম), অর্থসংস্থান (উদীয়মান আদ্যক্ষর), আইনি (কেস-নির্দিষ্ট শর্তাবলী)। ডোমেন অভিযোজনে দ্রুত জয়ের জন্য আপনার বিদ্যমান এলএলএম পাইপলাইনের উপরে একটি ডিভিএজেন স্তর প্রয়োগ করুন। গবেষকদের জন্য, কাঠামোটি একটি টেস্টবেড: বিভিন্ন স্কোরিং ফাংশন $S(p_i | C_t)$ নিয়ে পরীক্ষা করুন। বর্তমান সম্ভাবনা-ভিত্তিক স্কোরিং সরল; শেখার যোগ্য, প্রসঙ্গ-সচেতন স্কোরারগুলোর সংহতকরণ পরবর্তী যুগান্তকারী হতে পারে।

কেস স্টাডি - বায়োমেডিকাল সারাংশ জেনারেশন: একটি নতুন জিন, "ক্রিস্পিআরএএক্স"-এর জন্য একটি সারাংশ তৈরি করার কথা বিবেচনা করুন, যা বেস এলএলএমের কাছে অজানা। একটি স্ট্যান্ডার্ড মডেল খণ্ডিত টোকেন আউটপুট করতে পারে: "সিআরআই", "এসপি", "রা", "এক্স"। একটি বায়োমেডিকাল কর্পাসের সাথে সংযুক্ত ডিভিএজেনের রিট্রিভার, "ক্রিস্পিআর অ্যাক্টিভেশন ভেরিয়েন্ট", "জিন এডিটিং কমপ্লেক্স"-এর মতো প্রার্থী বাক্যাংশ সংগ্রহ করে। স্কোরার প্রসঙ্গ দেওয়া "ক্রিস্পিআর অ্যাক্টিভেশন ভেরিয়েন্ট"-কে অত্যন্ত প্রাসঙ্গিক হিসাবে চিহ্নিত করে। জেনারেটর তারপর সরাসরি সুসংগত বাক্যাংশ "ক্রিস্পিআর অ্যাক্টিভেশন ভেরিয়েন্ট (ক্রিস্পিআরএএক্স)" আউটপুট করে, মডেল রিট্রেনিং ছাড়াই সাবলীলতা এবং নির্ভুলতা নাটকীয়ভাবে উন্নত করে।

7. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

ব্যক্তিগতকৃত এআই সহকারী: সংলাপে ব্যবহারকারী-নির্দিষ্ট শব্দভাণ্ডার (প্রকল্পের নাম, ব্যক্তিগত পরিচিতি, বিশেষ আগ্রহ) গতিশীলভাবে অন্তর্ভুক্ত করা।
রিয়েল-টাইম ভাষা বিবর্তন: লাইভ ডেটা স্ট্রিমের (খবর, সোশ্যাল মিডিয়া) সাথে সংযোগ স্থাপন করে নতুন অপভাষা, ট্রেন্ডিং শব্দ বা ব্রেকিং নিউজ সত্তা তাত্ক্ষণিকভাবে শেখা এবং ব্যবহার করা।
ক্রস-মোডাল ভোকাবুলারি সম্প্রসারণ: পাঠ্যের বাইরে কাঠামোকে প্রসারিত করে ছবি, অডিও বা স্ট্রাকচার্ড ডেটা থেকে টোকেন বা ধারণা পুনরুদ্ধার এবং সংহত করা, একটি সত্যিকারের মাল্টি-মোডাল ডাইনামিক ভোকাবুলারির দিকে অগ্রসর হওয়া।
ফেডারেটেড ও অন-ডিভাইস লার্নিং: গোপনীয়তা-সংবেদনশীল অ্যাপ্লিকেশনগুলোর জন্য এজ ডিভাইসে হালকা ওজনের, স্থানীয় ডাইনামিক ভোকাবুলারি আপডেট সক্ষম করা, যেখানে মূল মডেল স্থির থাকে কিন্তু পুনরুদ্ধারযোগ্য বাক্যাংশ ডাটাবেস সময়ের সাথে সাথে ব্যক্তিগতকৃত হয়।
এজেন্ট ফ্রেমওয়ার্কের সাথে সংহতকরণ: এআই এজেন্টগুলোর (যেমন, ল্যাংচেইন বা অটোজিপিটি-এর মতো ফ্রেমওয়ার্কের উপর নির্মিত) কার্য সম্পাদনের সময় নতুন টুলের নাম, এপিআই প্যারামিটার বা পরিবেশ-নির্দিষ্ট অবজেক্ট গতিশীলভাবে শেখা এবং ব্যবহার করার ক্ষমতা দিয়ে উন্নত করা।

8. তথ্যসূত্র

Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
Borgeaud, S., et al. (2022). Improving Language Models by Retrieving from Trillions of Tokens. ICML.
Lan, Y., et al. (2023). Copy-is-All-You-Need: A Retrieval-augmented Language Model for Long-form Text Generation. arXiv preprint arXiv:2305.11346.
Liu, N., et al. (2024). Dynamic Vocabulary Augmented Generation for Protein Language Models. NeurIPS Workshop.
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
Facebook AI Research (FAIR). (2023). Atlas: Few-shot Learning with Retrieval Augmented Language Models. FAIR Publications.
Grattafiori, A., et al. (2024). The Limitations of Fixed-Vocabulary Tokenization in Modern NLP. Journal of Artificial Intelligence Research.