ভাষা নির্বাচন করুন

ভোকঅ্যাগনোএলএম: শিক্ষক-ছাত্র ভাষা মডেল প্রশিক্ষণে শব্দভাণ্ডার অমিল কাটিয়ে ওঠা

ভোকঅ্যাগনোএলএম-এর বিশ্লেষণ, শিক্ষক-ছাত্র এলএলএম-এর মধ্যে অমিলপূর্ণ শব্দভাণ্ডার নিয়ে টোকেন ক্রম ও লস ফাংশন সারিবদ্ধ করার একটি নতুন পদ্ধতি, যা কার্যকর জ্ঞান স্থানান্তর সক্ষম করে।
learn-en.org | PDF Size: 0.4 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - ভোকঅ্যাগনোএলএম: শিক্ষক-ছাত্র ভাষা মডেল প্রশিক্ষণে শব্দভাণ্ডার অমিল কাটিয়ে ওঠা

1. ভূমিকা ও সমস্যা বিবৃতি

দক্ষ ছোট ভাষা মডেল (ছাত্র) প্রশিক্ষণের প্রচলিত প্যারাডাইমে বড়, বেশি সক্ষম মডেলগুলির (শিক্ষক) নির্দেশনা জড়িত। তবে, এই পদ্ধতিটি একটি মৌলিক বাধার সম্মুখীন হয়: শব্দভাণ্ডার অমিল। যখন শিক্ষক ও ছাত্র মডেল ভিন্ন টোকেনাইজার ব্যবহার করে—বিভিন্ন ওপেন-সোর্স বা বিশেষায়িত মডেল ব্যবহার করার সময় একটি সাধারণ দৃশ্য—তাদের টোকেন ক্রম এবং আউটপুট সম্ভাব্যতা বন্টন ভিন্ন হয়ে যায়, যা কার্যকর জ্ঞান স্থানান্তরকে ব্যাহত করে। গবেষণাপত্রে দেখানো হয়েছে, কিউওয়েন২.৫-ম্যাথের মতো একটি অত্যাধুনিক মডেল টিনিল্লামার মতো একটি ছাত্র মডেলের সাথে তার শব্দভাণ্ডারের মাত্র ৬.৩২% শেয়ার করতে পারে, যা সেরা উপলব্ধ মডেলগুলিকে শিক্ষক হিসেবে ব্যবহার করার ক্ষেত্রে একটি উল্লেখযোগ্য বাধা সৃষ্টি করে।

2. ভোকঅ্যাগনোএলএম কাঠামো

শব্দভাণ্ডার-নিরপেক্ষ শিক্ষক নির্দেশিত ভাষা মডেলিং (ভোকঅ্যাগনোএলএম) এই ব্যবধান পূরণের জন্য একটি দ্বিমুখী সমাধান প্রস্তাব করে, যা শব্দভাণ্ডার-নিরপেক্ষ জ্ঞান পাতন সক্ষম করে।

2.1 মূল অন্তর্দৃষ্টি ও যৌক্তিক প্রবাহ

মূল অন্তর্দৃষ্টি: মৌলিক বাধাটি মডেল আর্কিটেকচার নয়, বরং প্রতিনিধিত্বমূলক ভুল সারিবদ্ধকরণ। আপনি সরাসরি আপেল (কিউওয়েন টোকেন) কমলার (টিনিল্লামা টোকেন) সাথে তুলনা করতে পারবেন না। ভোকঅ্যাগনোএলএম-এর প্রতিভা সমস্যাটিকে "আউটপুট মেলানো" থেকে "সিম্যান্টিক স্পেস ও লার্নিং সিগন্যাল সারিবদ্ধ করা" হিসেবে পুনর্বিন্যাস করার মধ্যে নিহিত। এটি শিক্ষকের জ্ঞানকে তার নির্দিষ্ট টোকেনাইজেশন স্কিম থেকে বিচ্ছিন্ন করে।

যৌক্তিক প্রবাহ: প্রক্রিয়াটি সুন্দরভাবে অনুক্রমিক: ১) একটি প্রদত্ত ইনপুট টেক্সটের জন্য, ছাত্র ও শিক্ষক উভয় মডেলের জন্য টোকেন ক্রম তৈরি করুন। ২) অমিলপূর্ণ ক্রমগুলির মধ্যে একটি ম্যাপিং তৈরি করতে টোকেন-স্তরের শব্দগত সারিবদ্ধকরণ ব্যবহার করুন। ৩) এই ম্যাপিং ব্যবহার করে শিক্ষক-নির্দেশিত লস প্রয়োগ করুন, সরাসরি টোকেন সম্ভাব্যতা ম্যাচিং এড়িয়ে শিক্ষকের অভ্যন্তরীণ লসকে ছাত্রের জন্য একটি প্রশিক্ষণ সংকেত হিসেবে ব্যবহার করে।

2.2 টোকেন-স্তরের শব্দগত সারিবদ্ধকরণ

এই উপাদানটি ক্রম ভুল সারিবদ্ধকরণ সমস্যার সমাধান করে। এটি প্রতিটি ছাত্র টোকেন থেকে সংশ্লিষ্ট শিক্ষক টোকেনের একটি উপক্রমের দিকে একটি এক-থেকে-বহু ম্যাপিং স্থাপন করে। উদাহরণস্বরূপ, ছাত্র টোকেন "Pro" শিক্ষক টোকেন "Prob" এবং "ability"-তে ম্যাপ হতে পারে। এটি ধারণাগতভাবে মেশিন অনুবাদের সারিবদ্ধকরণ কৌশলগুলির (যেমন পরিসংখ্যানগত এমটি বা প্রারম্ভিক নিউরাল মডেলগুলিতে ব্যবহৃত) অনুরূপ, তবে বিভিন্ন টোকেনাইজেশন স্কিম জুড়ে সাবওয়ার্ড স্তরে প্রয়োগ করা হয়। লক্ষ্য হল এমন একটি সেতু তৈরি করা যা শব্দগত বিচ্ছিন্নতা সত্ত্বেও তথ্যের প্রবাহ অনুমোদন করে।

2.3 শিক্ষক-নির্দেশিত লস

ছাত্রকে শিক্ষকের পরবর্তী-টোকেন সম্ভাব্যতা বন্টন অনুকরণ করতে বাধ্য করার পরিবর্তে—যা ভিন্ন শব্দভাণ্ডার নিয়ে অসম্ভব—ভোকঅ্যাগনোএলএম শিক্ষকের নিজস্ব ভাষা মডেলিং লসকে একটি নির্দেশিকা হিসেবে ব্যবহার করে। ছাত্রকে একটি সম্মিলিত উদ্দেশ্য হ্রাস করার জন্য প্রশিক্ষণ দেওয়া হয়: তার আদর্শ ভাষা মডেলিং লস এবং একটি লস যা তার অভ্যন্তরীণ উপস্থাপনা বা ভবিষ্যদ্বাণীগুলিকে সারিবদ্ধ ক্রমে শিক্ষক মডেলের জন্য একটি নিম্ন লস মানের দিকে নিয়ে যেতে উৎসাহিত করে। এটি একটি আরও বিমূর্ত, তবুও শক্তিশালী, নির্দেশনার রূপ।

3. শক্তি ও গুরুতর ত্রুটি

শক্তি:

  • মডেল বৈচিত্র্য উন্মুক্ত করে: এটি হল কিলার ফিচার। এটি বিক্রেতা/ইকোসিস্টেম লক-ইন ভেঙে দেয়, দলগুলিকে সেরা উপলব্ধ মডেল (যেমন, গণিত-বিশেষায়িত কিউওয়েন) ব্যবহার করে যেকোনো ছাত্রকে শেখানোর অনুমতি দেয়, তার উৎপত্তি নির্বিশেষে (যেমন, টিনিল্লামা)।
  • ব্যবহারিক ও হালকা-ওজনের: এটির জন্য শিক্ষকের টোকেনাইজার বা ছাত্রের এমবেডিং লেয়ার পুনরায় প্রশিক্ষণের প্রয়োজন হয় না, যা বিশাল প্রকৌশল ওভারহেড এড়ায়।
  • শক্তিশালী অভিজ্ঞতামূলক ফলাফল: গুরুতর শব্দভাণ্ডার অমিল নিয়ে নিষ্ক্রিয় প্রাক-প্রশিক্ষণের তুলনায় ৪৬% কার্যকারিতা বৃদ্ধি তুচ্ছ নয়। এটি প্রমাণ করে যে পদ্ধতিটি অনুশীলনে কাজ করে।

    গুরুতর ত্রুটি ও উন্মুক্ত প্রশ্ন:

    • সারিবদ্ধকরণ হিউরিস্টিক একটি ব্ল্যাক বক্স: গবেষণাপত্রটি "টোকেন-স্তরের শব্দগত সারিবদ্ধকরণ"-এর সঠিক অ্যালগরিদম সম্পর্কে সংক্ষিপ্তভাবে উল্লেখ করে। এটি কি ডায়নামিক প্রোগ্রামিং? একটি শেখা মডেল? এই সারিবদ্ধকরণ ধাপের দৃঢ়তা এবং গণনীয় ব্যয় গুরুত্বপূর্ণ অজানা বিষয়। একটি দুর্বল সারিবদ্ধকরণ জ্ঞানের পরিবর্তে শব্দ ছড়াতে পারে।
    • সূক্ষ্ম-দানাদার সংকেতের ক্ষতি: শিক্ষকের স্কেলার লস ব্যবহার করা তার সম্পূর্ণ আউটপুট বন্টনের সমৃদ্ধ, উচ্চ-মাত্রিক সংকেতকে ত্যাগ করে। এটি প্রতিটি উত্তরের বিস্তারিত প্রতিক্রিয়ার পরিবর্তে একটি চূড়ান্ত গ্রেড থেকে শেখার মতো। এটি সূক্ষ্ম ভাষাগত দক্ষতার জন্য জ্ঞান স্থানান্তরের বিশ্বস্ততা সীমিত করতে পারে।
    • চরম অমিলের জন্য স্কেলেবিলিটি: পরীক্ষিত অমিল (৬% ওভারল্যাপ) গুরুতর, কিন্তু প্রায় শূন্য ওভারল্যাপের ক্ষেত্রে কী হবে? এই পদ্ধতির তাত্ত্বিক সীমা পরীক্ষা করা হয়নি।

4. পরীক্ষামূলক ফলাফল ও বিশ্লেষণ

4.1 সেটআপ ও কার্যকারিতা মেট্রিক্স

গবেষণাটি একটি ১বি প্যারামিটার ছাত্র মডেল (টিনিল্লামা) এবং ৩২কে থেকে ১৫০কে পর্যন্ত শব্দভাণ্ডার আকার সহ বিভিন্ন ৭বি শিক্ষক মডেল (লেমা, মিস্ট্রাল, ডিপসিক-ম্যাথ, কিউওয়েন২.৫-ম্যাথ) ব্যবহার করে। মূল মেট্রিক হল একটি গণিত মূল্যায়ন স্যুটে কার্যকারিতা, যা ভোকঅ্যাগনোএলএম-কে শিক্ষক নির্দেশনা ছাড়া অবিরত প্রাক-প্রশিক্ষণের বেসলাইনের বিরুদ্ধে তুলনা করে।

4.2 মূল ফলাফল ও চার্ট ব্যাখ্যা

কেন্দ্রীয় ফলাফলটি গবেষণাপত্রের চিত্র ১-এ দৃশ্যায়িত হয়েছে। এটি দুটি গুরুত্বপূর্ণ প্রবণতা দেখায়:

  1. শব্দভাণ্ডার অমিল সমস্যা: এক্স-অক্ষ ক্রমবর্ধমান কার্যকারিতা সহ শিক্ষক মডেলগুলি দেখায় (লেমা থেকে কিউওয়েন২.৫-ম্যাথ পর্যন্ত)। বারগুলি টিনিল্লামার সাথে তাদের শব্দভাণ্ডার ওভারল্যাপ দেখায়। একটি স্পষ্ট বিপরীত সম্পর্ক রয়েছে: সেরা কার্যকারিতাসম্পন্ন শিক্ষক (কিউওয়েন) এর সবচেয়ে কম ওভারল্যাপ (~৬%) রয়েছে। এটি স্পষ্টভাবে ভোকঅ্যাগনোএলএম যে সমস্যার সমাধান করতে চায় তা চিত্রিত করে।
  2. ভোকঅ্যাগনোএলএম-এর কার্যকারিতা: পাঠ্যটি উল্লেখ করে যে কিউওয়েন২.৫-ম্যাথকে শিক্ষক হিসেবে ব্যবহার করে, ভোকঅ্যাগনোএলএম বেসলাইনের তুলনায় ৪৬% কার্যকারিতা উন্নতি অর্জন করে। এটি প্রমাণ করে যে কাঠামোটি ন্যূনতম শব্দভাণ্ডার সাধারণতা সত্ত্বেও একটি শক্তিশালী শিক্ষককে সফলভাবে কাজে লাগায়। গবেষণাপত্রটি আরও উল্লেখ করে যে শক্তিশালী শিক্ষকদের থেকে সামঞ্জস্যপূর্ণ সুবিধা পাওয়া যায়, যা মূল প্রস্তাবনাকে বৈধতা দেয়।

মূল পরীক্ষামূলক ফলাফল

৪৬% কার্যকারিতা উন্নতি ভোকঅ্যাগনোএলএম দ্বারা অর্জিত, কিউওয়েন২.৫-ম্যাথ (৬.৩২% শব্দভাণ্ডার ওভারল্যাপ) কে টিনিল্লামার জন্য শিক্ষক হিসেবে ব্যবহার করে, আদর্শ অবিরত প্রাক-প্রশিক্ষণের তুলনায়।

5. বাস্তবায়নযোগ্য অন্তর্দৃষ্টি ও কৌশলগত প্রভাব

এআই-এর অনুশীলনকারী ও নেতাদের জন্য:

  • তাত্ক্ষণিক কৌশল: আপনি যদি একটি বিশেষায়িত মডেল তৈরি করছেন (যেমন, অর্থ, আইন, বায়োমেডিসিনের জন্য), আপনার শিক্ষক অনুসন্ধানকে সামঞ্জস্যপূর্ণ টোকেনাইজার সহ মডেলগুলিতে সীমাবদ্ধ করা বন্ধ করুন। তাদের টোকেনাইজার নির্বিশেষে, আপনার ডোমেনে শীর্ষস্থানীয় কার্যকারিতাসম্পন্ন মডেলগুলি সক্রিয়ভাবে মূল্যায়ন করুন। ভোকঅ্যাগনোএলএম সেগুলি ব্যবহারের জন্য একটি কার্যকর পথ প্রদান করে।
  • কৌশলগত সংগ্রহ: এই গবেষণা "টোকেনাইজার লক-ইন"-এর ঝুঁকি হ্রাস করে। আপনার প্রতিষ্ঠানের জন্য একটি বেস মডেল নির্বাচন করার সময়, শব্দভাণ্ডার সামঞ্জস্যতা একটি কম গুরুত্বপূর্ণ সীমাবদ্ধতা হয়ে ওঠে, যা আপনাকে কেবল আর্কিটেকচার, লাইসেন্সিং এবং কার্যকারিতার ভিত্তিতে নির্বাচন করার স্বাধীনতা দেয়।
  • গবেষণা বিনিয়োগ: সারিবদ্ধকরণ উপাদানটি হল মূল হাতিয়ার। দৃঢ়, দক্ষ এবং সম্ভবত শেখার যোগ্য সারিবদ্ধকরণ পদ্ধতিতে বিনিয়োগ এই পদ্ধতিকে শিল্পায়নের জন্য মূল হবে। এটিকে মডেল আন্তঃপরিচালনার পরবর্তী সীমান্ত হিসেবে বিবেচনা করুন।
  • সতর্কতা: এটি একটি রূপালী বুলেট নয়। সুনির্দিষ্ট জেনারেশন বা শৈলী অনুকরণের প্রয়োজন এমন কাজের জন্য, সূক্ষ্ম-দানাদার বন্টন ম্যাচিং-এর ক্ষতি একটি উল্লেখযোগ্য অসুবিধা হতে পারে। প্রথমে জ্ঞান-নিবিড় কাজের (যেমন গণিত, যুক্তি) জন্য এটি পাইলট করুন।

6. প্রযুক্তিগত গভীর অনুসন্ধান

6.1 গাণিতিক সূত্রায়ন

যদিও সম্পূর্ণ লস ফাংশন প্রদত্ত উদ্ধৃতিতে স্পষ্টভাবে বিস্তারিত নয়, মূল ধারণাটি আনুষ্ঠানিক করা যেতে পারে। ধরা যাক $\mathcal{V}_s$ এবং $\mathcal{V}_t$ হল ছাত্র ও শিক্ষকের শব্দভাণ্ডার। একটি ইনপুট ক্রম $x$-এর জন্য, ছাত্র একটি টোকেন ক্রম $\mathbf{s} = [s_1, ..., s_n]$ উৎপন্ন করে এবং শিক্ষক $\mathbf{t} = [t_1, ..., t_m]$ উৎপন্ন করে, সাধারণত $n \neq m$ সহ।

টোকেন-স্তরের শব্দগত সারিবদ্ধকরণ ফাংশন $\mathcal{A}$ প্রতিটি ছাত্র টোকেন $s_i$ কে শিক্ষক টোকেনের একটি সংলগ্ন উপক্রমে ম্যাপ করে: $\mathcal{A}(s_i) = \mathbf{t}_{[j:k]}$।

শিক্ষক-নির্দেশিত লস $\mathcal{L}_{guide}$ সম্ভবত ছাত্র থেকে প্রাপ্ত একটি উপস্থাপনা বা ভবিষ্যদ্বাণী ($\mathcal{A}$ এর মাধ্যমে সারিবদ্ধ) শিক্ষকের ফরওয়ার্ড পাসে ফিড করে এবং তার উপর শিক্ষকের ভাষা মডেলিং লস গণনা করতে জড়িত। ছাত্রের মোট প্রশিক্ষণ উদ্দেশ্য হয়ে ওঠে:

$$\mathcal{L}_{total} = \mathcal{L}_{LM}(\theta_s; x) + \lambda \cdot \mathcal{L}_{guide}(\theta_s, \theta_t; x, \mathcal{A})$$

যেখানে $\theta_s$ এবং $\theta_t$ হল ছাত্র ও শিক্ষক প্যারামিটার, $\mathcal{L}_{LM}$ হল আদর্শ ছাত্র ভাষা মডেলিং লস, এবং $\lambda$ হল একটি ওজন হাইপারপ্যারামিটার। মূল বিষয় হল যে $\mathcal{L}_{guide}$ সারিবদ্ধ ক্রমগুলিতে কাজ করে, সরাসরি শব্দভাণ্ডার অমিল এড়িয়ে চলে।

6.2 বিশ্লেষণ কাঠামো: একটি কেস স্টাডি

দৃশ্যকল্প: একটি কোম্পানি আইনি নথি বিশ্লেষণের জন্য একটি কমপ্যাক্ট, দক্ষ এলএলএম তৈরি করতে চায়। সেরা উপলব্ধ বিশেষায়িত শিক্ষক হল `লেক্সল-৭০বি`, যা আইনি কর্পাসে প্রশিক্ষিত একটি কাস্টম টোকেনাইজার ব্যবহার করে। লক্ষ্য ছাত্র হল একটি `ল্লামা-৩-৮বি` মডেল।

কাঠামো প্রয়োগ:

  1. সমস্যা নির্ণয়: শব্দভাণ্ডার ওভারল্যাপ বিশ্লেষণ করুন। এটি সম্ভবত ২০%-এর নিচে। সরাসরি জ্ঞান পাতন অসম্ভব।
  2. সারিবদ্ধকরণ পর্যায়: উভয় মডেলের মাধ্যমে আইনি পাঠ্যের একটি নমুনা চালান। সাধারণ আইনি শর্তাবলীর (যেমন, "ফোর্স ম্যাজর") জন্য ল্লামা-৩ টোকেন এবং লেক্সল টোকেন ক্রমের মধ্যে একটি ম্যাপিং $\mathcal{A}$ তৈরি করতে ভোকঅ্যাগনোএলএম-এর সারিবদ্ধকরণ মডিউল (যেমন, বাইট-পেয়ার এনকোডিং-এ একটি সর্বনিম্ন সম্পাদনা-দূরত্ব অ্যালগরিদম) ব্যবহার করুন।
  3. প্রশিক্ষণ পর্যায়: একটি আইনি কর্পাসে ল্লামা-৩ ছাত্রকে প্রশিক্ষণ দিন। প্রতিটি ব্যাচের জন্য, তার আদর্শ লস গণনা করুন। সমান্তরালভাবে, প্রতিটি ক্রমের জন্য, ছাত্রের ভবিষ্যদ্বাণী করা ক্রমের একটি "শিক্ষক-দৃশ্য" তৈরি করতে $\mathcal{A}$ ব্যবহার করুন, এটিকে ফ্রোজেন লেক্সল শিক্ষকের কাছে পাস করুন এবং তার লস গণনা করুন। কেবল ছাত্রের প্যারামিটার আপডেট করতে সম্মিলিত লস ব্যাকপ্রপাগেট করুন।
  4. মূল্যায়ন: লেক্সল নির্দেশনা ছাড়া প্রশিক্ষিত একটি বেসলাইন ছাত্রের বিরুদ্ধে আইনি কিউএ বেঞ্চমার্কে কার্যকারিতা পর্যবেক্ষণ করুন। প্রত্যাশিত ফলাফল হল ছাত্রের টোকেনাইজার পরিবর্তন না করেই উন্নত আইনি যুক্তি।

7. ভবিষ্যতের প্রয়োগ ও গবেষণা দিকনির্দেশ

  • ক্রস-মোডাল ও ক্রস-লিঙ্গুয়াল স্থানান্তর: ভিন্ন ভিন্ন প্রতিনিধিত্বমূলক স্থান সারিবদ্ধ করার মূল নীতিটি মৌলিক। ভবিষ্যতের কাজ এটি একটি ভিশন-ল্যাঙ্গুয়েজ শিক্ষক (যেমন জিপিটি-৪ভি) ব্যবহার করে সারিবদ্ধ ক্যাপশন-ইমেজ জোড়ার মাধ্যমে একটি শুধুমাত্র-টেক্সট ছাত্রকে নির্দেশ দেওয়ার জন্য প্রসারিত করতে পারে, বা একটি উচ্চ-সম্পদ ভাষার শিক্ষক ব্যবহার করে একটি নিম্ন-সম্পদ ভাষার ছাত্রকে নির্দেশ দিতে পারে।
  • গতিশীল ও শেখা সারিবদ্ধকরণ: হিউরিস্টিক সারিবদ্ধকরণ থেকে একটি ছোট, প্রশিক্ষণযোগ্য সারিবদ্ধকরণ মডেলে স্থানান্তর যা প্রশিক্ষণের সময় সর্বোত্তম ম্যাপিং শেখে তা দৃঢ়তা এবং দক্ষতা উন্নত করতে পারে।
  • শিল্প মডেল পাইপলাইন: এটি "শিক্ষক মার্কেটপ্লেস" তৈরি করতে সক্ষম করে যেখানে প্রতিষ্ঠানগুলি একটি পরিষেবা হিসেবে ফ্রোজেন, বিশেষায়িত শিক্ষক মডেল অফার করতে পারে। ডাউনস্ট্রিম ব্যবহারকারীরা এগুলিকে তাদের নিজস্ব পছন্দের আর্কিটেকচারে পাতন করতে পারে, আইপি রক্ষা করে (শিক্ষকরা ফ্রোজেন) এবং সামঞ্জস্য নিশ্চিত করে।
  • বৈচিত্র্যপূর্ণ ক্লায়েন্ট সহ ফেডারেটেড লার্নিং: ফেডারেটেড দৃশ্যকল্পে, ক্লায়েন্টরা ভিন্ন বেস মডেল ব্যবহার করতে পারে। ভোকঅ্যাগনোএলএম এই বৈচিত্র্যপূর্ণ মডেলগুলি থেকে জ্ঞানকে একটি গ্লোবাল মডেলে একত্রিত করার একটি পদ্ধতি প্রদান করতে পারে মানকীকরণের প্রয়োজন ছাড়াই।

8. তথ্যসূত্র

  1. Shin, H., Ji, L., Liu, X., & Gong, Y. (2025). Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling. arXiv preprint arXiv:2503.19123.
  2. Zhang, P., et al. (2024). TinyLlama: An Open-Source Small Language Model. GitHub repository.
  3. Yang, A., et al. (2024). Qwen2.5-Math: A Series of Large Language Models for Mathematical Problem Solving. Technical Report.
  4. Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531. (জ্ঞান পাতনের মৌলিক কাজ)।
  5. Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (বিভিন্ন ডোমেন জুড়ে বন্টন সারিবদ্ধ করার উপর প্রভাবশালী কাজ, এখানের সারিবদ্ধকরণ চ্যালেঞ্জের অনুরূপ)।
  6. Google AI. (2023). Gemma: Open Models Based on Google Research and Technology. https://ai.google.dev/gemma.
  7. Meta AI. (2024). Llama 3 Model Card. https://llama.meta.com/llama3/.