1. ভূমিকা

বৃহৎ ভাষা মডেল (এলএলএম) এর জন্য স্কেলিং আইন ঐতিহ্যগতভাবে মডেল প্যারামিটার এবং প্রশিক্ষণ ডেটার আকারের উপর দৃষ্টি নিবদ্ধ করেছে, একটি গুরুত্বপূর্ণ স্কেলিং মাত্রা হিসাবে ভোকাবুলারির আকারকে মূলত উপেক্ষা করেছে। এই গবেষণাপত্রটি এলএলএম কর্মক্ষমতার উপর ভোকাবুলারি আকারের প্রভাব তদন্ত করে এবং প্রদত্ত প্রশিক্ষণ বাজেটের জন্য গণনা-সর্বোত্তম ভোকাবুলারি আকার নির্ধারণের পদ্ধতি প্রস্তাব করে।

গবেষণাটি দেখায় যে বর্তমান এলএলএম যেমন Llama2-70B সর্বোত্তম নয় এমন ভোকাবুলারি আকার ব্যবহার করে (32K বনাম পূর্বাভাসিত সর্বোত্তম 216K), যা বর্তমান অনুশীলনে উল্লেখযোগ্য দক্ষতার ফাঁক তুলে ধরে।

মডেল পরিসর

33M - 3B

প্যারামিটার প্রশিক্ষিত

প্রশিক্ষণ ডেটা

500B

অক্ষর প্রক্রিয়াকৃত

ভোকাবুলারি ফাঁক

7x

Llama2-70B-এর অবমূল্যায়ন

2. পদ্ধতি

2.1 স্বাভাবিকীকৃত ক্ষতি সূত্রায়ন

বিভিন্ন ভোকাবুলারি আকারের মডেলগুলির মধ্যে ন্যায্য তুলনা নিশ্চিত করতে, লেখকরা একটি স্বাভাবিকীকৃত ক্ষতি ফাংশন চালু করেছেন যা টোকেনাইজেশন দক্ষতার পার্থক্যগুলিকে বিবেচনা করে। এই স্বাভাবিকীকরণটি বড় ভোকাবুলারিযুক্ত মডেলগুলিকে ক্ষতি মেট্রিক্সে কৃত্রিম সুবিধা পাওয়া থেকে বিরত রাখে।

2.2 তিনটি পূর্বাভাস পদ্ধতি

গবেষণাপত্রটি সর্বোত্তম ভোকাবুলারি আকারের পূর্বাভাস দেওয়ার জন্য তিনটি পরিপূরক পদ্ধতি প্রস্তাব করে:

2.2.1 আইসোএফএলওপিএস বিশ্লেষণ

একই গণনীয় বাজেট কিন্তু ভিন্ন ভোকাবুলারি আকার সহ মডেলগুলিকে প্রশিক্ষণ দেওয়া যাতে প্রতিটি বাজেট স্তরের জন্য সর্বনিম্ন ক্ষতি বিন্দু চিহ্নিত করা যায়।

2.2.2 ডেরিভেটিভ অনুমান

ভোকাবুলারি আকারের সাপেক্ষে ক্ষতি ফাংশনের ডেরিভেটিভ শূন্যের সমান হয় এমন বিন্দু খুঁজে বের করতে গ্রেডিয়েন্ট-ভিত্তিক পদ্ধতি ব্যবহার করা, যা সর্বোত্তম বিন্দু নির্দেশ করে।

2.2.3 প্যারামেট্রিক ফিট

মডেল প্যারামিটার, ভোকাবুলারি আকার এবং ক্ষতির মধ্যে পাওয়ার-ল সম্পর্ক ফিট করে পূর্বাভাসমূলক সূত্র উদ্ভূত করা।

3. পরীক্ষামূলক ফলাফল

3.1 মডেল প্রশিক্ষণ সেটআপ

33M থেকে 3B প্যারামিটার পর্যন্ত মডেলগুলিকে 500B পর্যন্ত অক্ষরে বিভিন্ন ভোকাবুলারি কনফিগারেশনের সাথে প্রশিক্ষণ দেওয়া হয়েছিল। ব্যাপক স্কেলিং সম্পর্ক স্থাপনের জন্য প্রশিক্ষণটি বিভিন্ন এফএলওপিএস বাজেট জুড়ে বিস্তৃত ছিল।

3.2 সর্বোত্তম ভোকাবুলারি অনুসন্ধান

গবেষণাটি একটি পাওয়ার-ল সম্পর্ক প্রকাশ করে: $N_v^{opt} \propto N_{nv}^\gamma$ যেখানে $\gamma < 1$, যা নির্দেশ করে যে সর্বোত্তম ভোকাবুলারি প্যারামিটারগুলি অ-ভোকাবুলারি প্যারামিটারগুলির চেয়ে ধীরে ধীরে স্কেল করা উচিত। এটি মডেল স্কেল জুড়ে নির্দিষ্ট ভোকাবুলারি আকার ব্যবহারের সাধারণ অনুশীলনের বিপরীত।

চিত্র ১: ভোকাবুলারি স্কেলিং সম্পর্ক

ভিজ্যুয়ালাইজেশনটি তাত্ত্বিক পূর্বাভাসের সাথে সামঞ্জস্যপূর্ণ অভিজ্ঞতামূলক ফলাফল দেখায়, যেখানে বড় বৃত্তগুলি উচ্চতর ক্ষতির মান নির্দেশ করে। প্লটটি বিভিন্ন মডেল স্কেলের জন্য স্পষ্ট সর্বোত্তম ভোকাবুলারি আকার প্রদর্শন করে, একটি স্বতন্ত্র পাওয়ার-ল বক্ররেখা গঠন করে।

3.3 ডাউনস্ট্রিম পারফরম্যান্স যাচাইকরণ

3B প্যারামিটার মডেল সহ অভিজ্ঞতামূলক যাচাইকরণে পূর্বাভাসিত সর্বোত্তম ভোকাবুলারি আকার ব্যবহার করার সময় সামঞ্জস্যপূর্ণ উন্নতি দেখায়। ARC-Challenge-এ, ভোকাবুলারি 32K থেকে 43K-তে বৃদ্ধি করে একই 2.3e21 এফএলওপিএস বাজেটে পারফরম্যান্স 29.1 থেকে 32.0-এ উন্নত হয়েছে।

মূল অন্তর্দৃষ্টি

  • ভোকাবুলারি আকার এলএলএম স্কেলিং দক্ষতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে
  • সর্বোত্তম ভোকাবুলারি গণনা বাজেট এবং মডেল আকারের সাথে স্কেল করে
  • বর্তমান এলএলএমগুলি সাধারণত সর্বোত্তম নয় এমন ভোকাবুলারি আকার ব্যবহার করে
  • টোকেনাইজেশন এবং মডেল স্কেলিংয়ের যৌথ বিবেচনা অপরিহার্য

4. প্রযুক্তিগত বিশ্লেষণ ও কাঠামো

4.1 গাণিতিক সূত্রায়ন

আবিষ্কৃত মূল গাণিতিক সম্পর্কটি নিম্নরূপ প্রকাশ করা হয়েছে:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

যেখানে $L$ হল স্বাভাবিকীকৃত ক্ষতি, $N_{nv}$ হল অ-ভোকাবুলারি প্যারামিটার, $N_v$ হল ভোকাবুলারি প্যারামিটার, $D$ হল প্রশিক্ষণ ডেটার আকার, এবং $E, A, B, C, \alpha, \beta, \gamma$ হল ফিট করা ধ্রুবক।

সর্বোত্তম ভোকাবুলারি আরণ নিম্নলিখিত শর্ত পূরণ করে: $\frac{\partial L}{\partial N_v} = 0$

4.2 বিশ্লেষণ কাঠামোর উদাহরণ

কেস স্টাডি: একটি 10B প্যারামিটার মডেলের জন্য সর্বোত্তম ভোকাবুলারি নির্ধারণ

প্রদত্ত: প্রশিক্ষণ বাজেট = 1e23 এফএলওপিএস, লক্ষ্য ডোমেন = সাধারণ ভাষা বোঝা

কাঠামো প্রয়োগ:

  1. অ-ভোকাবুলারি প্যারামিটার অনুমান করুন: $N_{nv} = 9.5\text{B}$ (মোটের 95%)
  2. পাওয়ার-ল প্রয়োগ করুন: $N_v^{opt} \propto N_{nv}^{0.7}$ (অভিজ্ঞতামূলক ফিট থেকে)
  3. গণনা করুন: $N_v^{opt} \approx 150\text{K}$ টোকেন
  4. প্রদত্ত বাজেটের জন্য আইসোএফএলওপিএস বিশ্লেষণের মাধ্যমে যাচাই করুন
  5. ডোমেন-নির্দিষ্ট টোকেন বন্টনের জন্য সামঞ্জস্য করুন

এই কাঠামোটি ভোকাবুলারি সাইজিংয়ের জন্য একটি পদ্ধতিগত পদ্ধতি প্রদান করে যা বর্তমান মডেল বিকাশকারীরা প্রায়শই উপেক্ষা করে।

5. শিল্প বিশ্লেষকের দৃষ্টিভঙ্গি

5.1 মূল অন্তর্দৃষ্টি

শিল্পটি ভোকাবুলারি আকারকে একটি স্থির হাইপারপ্যারামিটার হিসাবে বিবেচনা করার ক্ষেত্রে মৌলিকভাবে ভুল পথে পরিচালিত হয়েছে। এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ অন্ধ স্পট প্রকাশ করে: আমরা এক হাত পিছনে বেঁধে এলএলএমগুলিকে অপ্টিমাইজ করছি। Llama2-70B-এর ভোকাবুলারি 7 গুণ বড় হওয়া উচিত এই অনুসন্ধানটি কেবল একটি একাডেমিক কৌতূহল নয়—এটি পুরো এআই ইকোসিস্টেম জুড়ে বিলিয়ন বিলিয়ন ডলারের নষ্ট গণনা এবং সর্বোত্তম নয় এমন মডেল কর্মক্ষমতার প্রতিনিধিত্ব করে। এই ভুলটি প্রাথমিক নিউরাল নেটওয়ার্ক গবেষণার কথা মনে করিয়ে দেয় যা অ্যাক্টিভেশন ফাংশনের গুরুত্বকে অবমূল্যায়ন করেছিল, যেমন গ্লোরট এবং বেঞ্জিও (২০১০) এর মৌলিক কাজে গভীর ফিডফরওয়ার্ড নিউরাল নেটওয়ার্ক প্রশিক্ষণের অসুবিধা বোঝার বিষয়ে নথিভুক্ত করা হয়েছে।

5.2 যৌক্তিক প্রবাহ

গবেষণাপত্রের যুক্তি অস্ত্রোপচারের নির্ভুলতার সাথে অগ্রসর হয়: প্রথমত, তারা প্রতিষ্ঠা করে যে ভোকাবুলারি গুরুত্বপূর্ণ (প্রচলিত স্কেলিং আইন ধারণার বিপরীতে)। দ্বিতীয়ত, তারা পাওয়ার ল'র মাধ্যমে দেখায় যে এটি পদ্ধতিগতভাবে গুরুত্বপূর্ণ। তৃতীয়ত, তারা অপ্টিমাইজেশনের জন্য ব্যবহারিক সরঞ্জাম প্রদান করে। যৌক্তিক শৃঙ্খলটি বায়ুরোধী—সমস্যা চিহ্নিতকরণ থেকে পদ্ধতিগত উদ্ভাবনের মাধ্যমে অভিজ্ঞতামূলক যাচাইকরণ পর্যন্ত। এভাবেই কঠোর গবেষণা পরিচালিত হওয়া উচিত, মৌলিক অন্তর্দৃষ্টি ছাড়াই ক্রমবর্ধমান উন্নতি প্রকাশের প্রবণতার বিপরীতে।

5.3 শক্তি ও দুর্বলতা

শক্তি: ট্রিপল-পদ্ধতির পদ্ধতি (আইসোএফএলওপিএস, ডেরিভেটিভ, প্যারামেট্রিক ফিট) শক্তিশালী যাচাইকরণ প্রদান করে। পরীক্ষার স্কেল (33M থেকে 3B প্যারামিটার) চিত্তাকর্ষক এবং বিশ্বাসযোগ্য। ব্যবহারিক প্রভাবগুলি এলএলএম প্রশিক্ষণ দেওয়া যেকোনো সংস্থার জন্য অবিলম্বে কার্যকরযোগ্য।

দুর্বলতা: গবেষণাটি প্রাথমিকভাবে ইংরেজি পাঠ্যের উপর দৃষ্টি নিবদ্ধ করে—বহুভাষিক প্রভাবগুলি অনাবিষ্কৃত থেকে যায়। তাদের পদ্ধতির গণনীয় ব্যয় ছোট গবেষণা গোষ্ঠীর জন্য নিষিদ্ধ হতে পারে। তারা সম্বোধন করে না যে কীভাবে ভোকাবুলারি অপ্টিমাইজেশন অ্যাটেনশন মেকানিজমের মতো অন্যান্য স্থাপত্য পছন্দের সাথে যোগাযোগ করে, এমন একটি ক্ষেত্র যেখানে ট্রান্সফরমার আর্কিটেকচার পেপার (ভাসওয়ানি এট আল., ২০১৭) মৌলিক নীতি প্রতিষ্ঠা করেছিল যা এখনও এই ক্ষেত্রে আধিপত্য বিস্তার করে।

5.4 কার্যকরী অন্তর্দৃষ্টি

এলএলএম প্রশিক্ষণ দেওয়া প্রতিটি এআই ল্যাবের অবিলম্বে উচিত: ১) তাদের ভোকাবুলারি সাইজিং কৌশল পুনর্মূল্যায়ন করা, ২) বর্তমান প্রকল্পগুলির জন্য আইসোএফএলওপিএস বিশ্লেষণ বাস্তবায়ন করা, ৩) প্যারামিটার এবং ডেটার পাশাপাশি ভোকাবুলারি আকারকে প্রথম-শ্রেণীর স্কেলিং মাত্রা হিসাবে বিবেচনা করা। NVIDIA এবং AMD-এর মতো হার্ডওয়্যার কোম্পানিগুলির জন্য, এই গবেষণাটি বড় এমবেডিং টেবিলের জন্য মেমরি আর্কিটেকচারে নতুন অপ্টিমাইজেশন সুযোগের পরামর্শ দেয়। Llama2-70B-এর জন্য 7x ভোকাবুলারি ফাঁক বোঝায় যে বর্তমান হার্ডওয়্যারটি সর্বোত্তম মডেল কনফিগারেশনের সাথে মৌলিকভাবে অসামঞ্জস্যপূর্ণ।

6. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

অবিলম্বে প্রয়োগ:

  • পরবর্তী প্রজন্মের এলএলএম (জিপিটি-৫, জেমিনি ২.০, ইত্যাদি) এর জন্য ভোকাবুলারি কৌশলগুলির পুনর্বিন্যাস
  • বড় এমবেডিং টেবিলের জন্য হার্ডওয়্যার অপ্টিমাইজেশন
  • মডেল সার্ভিং এবং ইনফারেন্সে উন্নত দক্ষতা

গবেষণা দিকনির্দেশনা:

  • বিভিন্ন ভাষা জুড়ে বহুভাষিক ভোকাবুলারি অপ্টিমাইজেশন
  • প্রশিক্ষণের সময় গতিশীল ভোকাবুলারি সাইজিং
  • মিশ্রণ-বিশেষজ্ঞ স্থাপত্যের সাথে একীকরণ
  • ডোমেন-নির্দিষ্ট মডেলের জন্য ভোকাবুলারি অপ্টিমাইজেশন
  • মাল্টিমোডাল মডেলের জন্য ক্রস-মোডাল ভোকাবুলারি বিবেচনা

এই কাজে প্রতিষ্ঠিত নীতিগুলি ভাষা মডেলের বাইরে বায়োইনফরমেটিক্স, কোড জেনারেশন এবং টাইম সিরিজ বিশ্লেষণে অন্যান্য সিকোয়েন্স মডেল পর্যন্ত প্রসারিত হতে পারে, ঠিক যেমন কম্পিউটার ভিশন থেকে কনভোলিউশনাল নিউরাল নেটওয়ার্ক নীতিগুলি (ক্রিজেভস্কি এট আল., ২০১২-এর আলেক্সনেট পেপারের মতো) অন্যান্য ডোমেনে স্থানান্তরিত হয়েছিল।

7. তথ্যসূত্র

  1. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
  2. Brown, T., et al. (2020). Language Models are Few-Shot Learners.
  3. Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
  4. Vaswani, A., et al. (2017). Attention Is All You Need.
  5. Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
  6. Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
  7. Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
  8. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.