শিশু এবং জিপিটি-২ ভাষা মডেলের শিক্ষার স্তরের তুলনামূলক বিশ্লেষণ

1. ভূমিকা

শিশুদের ভাষা অর্জন একটি লক্ষণীয়ভাবে ধারাবাহিক ক্রম অনুসরণ করে: ধ্বনিমূলক শ্রেণীবিভাগ থেকে শব্দভাণ্ডার বিকাশ, এবং অবশেষে জটিল বাক্য গঠন আয়ত্ত করা। শৈশব থেকে প্রায় ছয় বছর বয়স পর্যন্ত পর্যবেক্ষিত এই বিকাশগত গতিপথ, অন্তর্নিহিত গণনামূলক নীতিগুলি সম্পর্কে মৌলিক প্রশ্ন উত্থাপন করে। এই পর্যায়ক্রমিক শিক্ষা কি মানব স্নায়ুজীববিজ্ঞানের একটি অনন্য বৈশিষ্ট্য, নাকি এটি কৃত্রিম ব্যবস্থায় উদ্ভূত হতে পারে? এই গবেষণাটি ৫৪ জন শিশুর (১৮ মাস থেকে ৬ বছর বয়সী) এবং শূন্য থেকে প্রশিক্ষিত ৪৮টি জিপিটি-২ মডেলের শিক্ষার গতিপথের সরাসরি তুলনা করে এই প্রশ্নের সমাধান করে। মূল অনুমানটি হল, যদি উভয় ক্ষেত্রে একই রকম স্তর উদ্ভূত হয়, তবে এটি সাধারণ, তথ্য-চালিত শিক্ষার সীমাবদ্ধতার দিকে ইঙ্গিত করতে পারে।

2. পদ্ধতি

গবেষণাটি একটি তুলনামূলক কাঠামো ব্যবহার করে, মানব ও কৃত্রিম শিক্ষার্থী উভয়কে তাদের বিকাশের বিভিন্ন পর্যায়ে পরীক্ষা করে।

2.1 পরীক্ষামূলক সেটআপ

শিশু: ৫৪ জন শিশুর ভাষাগত উৎপাদন বিশ্লেষণ করা হয়েছিল। ফ্রিডম্যান ও সহযোগীদের (২০২১) প্রতিষ্ঠিত পদ্ধতি অনুসরণ করে তাদের স্বতঃস্ফূর্ত বক্তৃতা এবং বিভিন্ন বাক্য গঠনের জটিলতার বাক্য পুনরাবৃত্তি করার ক্ষমতা মূল্যায়ন করা হয়েছিল।

জিপিটি-২ মডেল: জিপিটি-২ মডেলের (১২৪এম প্যারামিটার বৈকল্পিক) ৪৮টি উদাহরণ শূন্য থেকে প্রমিত ভাষা মডেলিং উদ্দেশ্যে (যেমন, ওয়েবটেক্সট) প্রশিক্ষিত করা হয়েছিল। প্রশিক্ষণের সময় নিয়মিত বিরতিতে তাদের অভ্যন্তরীণ অবস্থা পরীক্ষা করা হয়েছিল।

2.2 তথ্য সংগ্রহ ও প্রোব

প্রতিষ্ঠিত বেঞ্চমার্ক থেকে ৯৬টি ডায়াগনস্টিক প্রোবের একটি ব্যাটারি সংকলন করা হয়েছিল:

বিএলআইএমপি: ৬৭টি বাক্য গঠনগত ঘটনার মধ্যে ব্যাকরণিক জ্ঞান মূল্যায়নের জন্য।
জোরো: শব্দার্থিক এবং সাধারণ জ্ঞান যুক্তি পরীক্ষার জন্য।
বিগ-বেঞ্চ: বিস্তৃত ভাষাগত এবং জ্ঞানীয় দক্ষতা মূল্যায়নের জন্য।

এই প্রোবগুলি প্রতিটি প্রশিক্ষণ চেকপয়েন্টে জিপিটি-২ মডেলগুলিতে প্রয়োগ করা হয়েছিল এবং শিশুদের উৎপাদন কাজের অনুরূপ পরিমাপ হিসাবে কাজ করেছিল।

3. ফলাফল ও বিশ্লেষণ

3.1 শিক্ষার গতিপথের তুলনা

বিশ্লেষণে প্রকাশ পেয়েছে যে জিপিটি-২ মডেলগুলি, শিশুদের মতো, ভাষাগত দক্ষতা একটি পদ্ধতিগত ক্রমে অর্জন করে। সহজ কাজগুলি (যেমন, মৌলিক ব্যাকরণিক সম্মতি) প্রশিক্ষণের শুরুতে আয়ত্ত করা হয়, যখন আরও জটিল কাজগুলি (যেমন, আপেক্ষিক বাক্যাংশের মতো নেস্টেড বাক্য গঠন) উল্লেখযোগ্যভাবে বেশি প্রশিক্ষণ ধাপের প্রয়োজন হয় (যা বিকাশগত সময়ের অনুরূপ)।

3.2 সমান্তরাল শিক্ষা প্রকল্প

একটি মূল ফলাফল হল শিক্ষার সমান্তরাল প্রকৃতি। এমনকি যে কাজগুলি প্রশিক্ষণের শেষের দিকে সম্পূর্ণরূপে আয়ত্ত করা হয় সেগুলিও প্রথম ধাপ থেকেই পরিমাপযোগ্য উন্নতি দেখায়। এটি ইঙ্গিত দেয় যে মডেলটি মৌলিক উপস্থাপনা তৈরি করে যা ক্রমাগত পরিমার্জিত হয়, কঠোর, বিচ্ছিন্ন ক্রমে দক্ষতা শেখার পরিবর্তে।

3.3 সাধারণ ও ভিন্ন স্তরসমূহ

গবেষণাটি ওভারল্যাপ এবং সমালোচনামূলক পার্থক্য উভয়ই চিহ্নিত করে:

সাধারণ: সহজ থেকে আরও জটিল বাক্য গঠনের দিকে বিস্তৃত অগ্রগতি।
ভিন্ন: কিছু উপ-দক্ষতার নির্দিষ্ট ক্রম ভিন্ন ছিল। উদাহরণস্বরূপ, মডেলগুলি নির্দিষ্ট আনুষ্ঠানিক বাক্য গঠনের নিয়ম শিশুদের চেয়ে ভিন্ন ক্রমে অর্জন করতে পারে, সম্ভবত প্রশিক্ষণ তথ্যের বন্টন বনাম মানুষের উপলব্ধি এবং সামাজিক অভিজ্ঞতার পার্থক্যের কারণে।

এটি হাইলাইট করে যে যদিও তথ্য-চালিত চাপ পর্যায়ক্রম তৈরি করে, পর্যায়ক্রমের নির্দিষ্ট বিবরণ শিক্ষার্থীর স্থাপত্য এবং ইনপুট দ্বারা নিয়ন্ত্রিত হয়।

মূল পরীক্ষামূলক মেট্রিক্স

প্রশিক্ষিত মডেল: ৪৮টি জিপিটি-২ উদাহরণ

ডায়াগনস্টিক প্রোব: বিএলআইএমপি, জোরো, বিগ-বেঞ্চ থেকে ৯৬টি কাজ

শিশু অংশগ্রহণকারী: ৫৪ জন (১৮ মাস - ৬ বছর)

মূল ফলাফল: শিশু এবং মডেলের মধ্যে শিক্ষার স্তরের ক্রমে উল্লেখযোগ্য পারস্পরিক সম্পর্ক, কিন্তু অভিন্ন নয়।

4. প্রযুক্তিগত কাঠামো

4.1 গাণিতিক সূত্রায়ন

জিপিটি-২-এর মূল শিক্ষার উদ্দেশ্য হল সর্বাধিক সম্ভাবনা অনুমানের মাধ্যমে পরবর্তী টোকেন ভবিষ্যদ্বাণী। টোকেনের একটি ক্রম $x_1, x_2, ..., x_t$ দেওয়া হলে, $ heta$ দ্বারা প্যারামিটারাইজড মডেলটি নেতিবাচক লগ-সম্ভাবনা কমিয়ে আনতে প্রশিক্ষিত:

$L(\theta) = -\sum_{t} \log P(x_t | x_{

একটি নির্দিষ্ট ভাষাগত প্রোব $p$ এর জন্য প্রশিক্ষণ ধাপ $ au$ এ প্রোব নির্ভুলতা $A_p(\theta, \tau)$ উদ্ভূত ক্ষমতা পরিমাপ করে। শিক্ষার গতিপথ হল ফাংশন $\tau \rightarrow \{A_{p_1}(\theta, \tau), A_{p_2}(\theta, \tau), ...\}$। গবেষণার বিশ্লেষণটি বিভিন্ন প্রোব $p$ এর ক্রম তুলনা করে যেখানে মডেলের জন্য $ au$ জুড়ে এবং শিশুদের জন্য বয়স জুড়ে একটি কর্মক্ষমতা থ্রেশহোল্ড (যেমন, ৮০% নির্ভুলতা) অতিক্রম করে।

4.2 বিশ্লেষণ কাঠামোর উদাহরণ

কেস: আপেক্ষিক বাক্যাংশ অর্জন ট্র্যাকিং

প্রোব কাজ: ব্যাকরণিক ("The boy that I saw sang") এবং অব্যাকরণিক ("The boy that I saw sing") বাক্যের মধ্যে পার্থক্য করুন।

বিশ্লেষণ ধাপ:

তথ্য নিষ্কাশন: প্রতিটি মডেল চেকপয়েন্ট $\tau$ এর জন্য, ১০০টি আপেক্ষিক বাক্যাংশ প্রোবের একটি ভারসাম্যপূর্ণ সেটে নির্ভুলতা গণনা করুন।
থ্রেশহোল্ডিং: অর্জন ধাপ $\tau_{acquire}$ কে প্রথম চেকপয়েন্ট হিসাবে সংজ্ঞায়িত করুন যেখানে নির্ভুলতা > ৮০% এবং পরবর্তী চেকগুলির জন্য উপরে থাকে।
পারস্পরিক সম্পর্ক: আপেক্ষিক বাক্যাংশ প্রোবের জন্য $\tau_{acquire}$ এর ক্রম ক্রম অন্যান্য বাক্য গঠনগত প্রোবের (যেমন, কর্তা-ক্রিয়া সম্মতি, প্রশ্ন গঠন) বিরুদ্ধে তুলনা করুন।
মানব সারিবদ্ধকরণ: $\tau_{acquire}$ কে সাধারণ বয়সের পরিসীমার (যেমন, ~৪২ মাস) সাথে ম্যাপ করুন যখন শিশুরা উৎপাদনে এই কাঠামো আয়ত্ত করে।

এই কাঠামোটি মৌলিকভাবে ভিন্ন শিক্ষা ব্যবস্থার মধ্যে বিকাশগত সময়সূচীর একটি পরিমাণগত তুলনা করার অনুমতি দেয়।

5. ফলাফলের দৃশ্যায়ন

ধারণাগত চার্ট: শিক্ষার গতিপথের তুলনা

ফলাফলগুলি একটি দ্বি-অক্ষ চার্টে দৃশ্যায়িত করা যেতে পারে:

এক্স-অক্ষ (সময়): শিশুদের জন্য, এটি বয়স (মাস)। জিপিটি-২ এর জন্য, এটি প্রশিক্ষণ ধাপ (লগ স্কেল)।
ওয়াই-অক্ষ: একটি স্বাভাবিক স্কেলে কর্মক্ষমতা নির্ভুলতা (%)।
একাধিক লাইন: প্রতিটি লাইন একটি ভিন্ন ভাষাগত দক্ষতার প্রতিনিধিত্ব করে (যেমন, ধ্বনিমূলক বৈষম্য, মৌলিক এসভিও, প্রশ্ন গঠন, নেস্টেড সিনট্যাক্স)।

চার্টটি দেখাবে যে উভয় গতিপথ প্রতিটি দক্ষতার জন্য একটি এস-আকৃতির শিক্ষা বক্ররেখা প্রদর্শন করে, কিন্তু লাইনগুলির ক্রম (কোন দক্ষতা প্রথমে বৃদ্ধি পায়) একই রকম যদিও পুরোপুরি অভিন্ন নয়। একটি দ্বিতীয় মূল দৃশ্যায়ন হবে একটি হিটম্যাপ যা মডেল এনসেম্বলের জন্য সমস্ত ৯৬টি প্রোব জুড়ে অর্জনের ক্রমের পারস্পরিক সম্পর্ক ম্যাট্রিক্স বনাম শিশুদের মধ্যে পর্যবেক্ষিত ক্রম দেখায়, উচ্চ এবং নিম্ন পারস্পরিক সম্পর্কের ক্লাস্টার হাইলাইট করে।

6. মূল অন্তর্দৃষ্টি ও বিশ্লেষকের দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ, সূক্ষ্ম ফলাফল প্রদান করে: ভাষা শিক্ষার পর্যায়ক্রম একটি মানব-একচেটিয়া রহস্য নয়, বরং সীমাবদ্ধতার অধীনে ক্রমবর্ধমান, তথ্য-চালিত অপ্টিমাইজেশনের একটি উদ্ভূত বৈশিষ্ট্য। যাইহোক, সেই পর্যায়গুলির নকশা শিক্ষার্থীর সহজাত স্থাপত্য দ্বারা সহ-রচিত। জিপিটি-২ এবং শিশুরা একটি "সহজ-থেকে-জটিল" পাঠ্যক্রমে একত্রিত হয় কারণ তথ্যটিতে সেই পাঠ্যক্রম রয়েছে। তারা নির্দিষ্ট বিষয়ে ভিন্ন হয় কারণ একটি ট্রান্সফরমারের "ইন্ডাকটিভ বায়াস" (ভাসওয়ানি ও সহযোগী, ২০১৭) একটি মানব শিশুর জ্ঞানীয় এবং উপলব্ধিগত পূর্বধারণা থেকে ভিন্ন।

যুক্তিগত প্রবাহ: যুক্তিটি সুন্দরভাবে নির্মিত। এটি একটি সুপ্রতিষ্ঠিত অভিজ্ঞতামূলক তথ্য (শিশুদের মধ্যে ক্রমবদ্ধ পর্যায়) দিয়ে শুরু হয়, একটি গণনামূলক প্রশ্ন উত্থাপন করে (এই ক্রম কি এআই-তে উদ্ভূত হয়?), এবং এটি পরীক্ষা করার জন্য একটি শক্তিশালী, বহু-প্রোব পদ্ধতি ব্যবহার করে। "ক্রম বিদ্যমান" প্রদর্শন থেকে এর "সমান্তরাল প্রকৃতি" বিশ্লেষণ এবং অবশেষে "সাধারণ/ভিন্ন" উপাদানগুলিকে বিশ্লেষণ করার দিকে যাওয়া যুক্তিগতভাবে শক্তিশালী। এটি সাইকেলজিএএন গবেষণাপত্রের মতো (ঝু ও সহযোগী, ২০১৭) মৌলিক কাজগুলিতে বিশ্লেষণাত্মক অগ্রগতিকে প্রতিফলিত করে, যা কেবল একটি নতুন মডেল উপস্থাপন করেনি বরং জোড়াবিহীন চিত্র অনুবাদের সমস্যাকে চক্রাকার সামঞ্জস্য সীমাবদ্ধতায় পদ্ধতিগতভাবে বিভক্ত করেছিল।

শক্তি ও ত্রুটি: গবেষণার শক্তি হল এর পদ্ধতিগত কঠোরতা এবং সরাসরি তুলনাযোগ্যতা। একাধিক মডেল উদাহরণ এবং একটি বিশাল প্রোব সেট ব্যবহার করে শব্দ প্রশমিত করে। প্রধান ত্রুটি, অন্তর্নিহিতভাবে স্বীকৃত, হল পরিমাপের অসমতা: শিশুদের মধ্যে উৎপাদন বনাম মডেলগুলিতে অভ্যন্তরীণ প্রোব নির্ভুলতা। একটি মডেল একটি প্রোবে একটি বাক্য গঠনের নিয়ম "জানা" কি একটি শিশুর স্বতঃস্ফূর্ত বক্তৃতায় এটি "ব্যবহার" করার সমতুল্য? অগত্যা নয়। এটি ইমেজনেটের মতো বেঞ্চমার্কের সমালোচনার অনুরূপ যেখানে মডেলগুলি শর্টকাট শেখে (গেইরহোস ও সহযোগী, ২০২০)। প্রোব স্যুটটি, যদিও বিস্তৃত, মানব ভাষা অর্জনের সমন্বিত, যোগাযোগমূলক সারমর্ম ক্যাপচার নাও করতে পারে।

কার্যকরী অন্তর্দৃষ্টি: এআই গবেষকদের জন্য, এটি পাঠ্যক্রম শিক্ষা এবং মডেল ডায়াগনস্টিক্সের জন্য একটি স্বর্ণখনি। যদি আমরা চাই মডেলগুলি মানুষের মতো শিখুক, আমাদের প্রশিক্ষণ তথ্যের ক্রম বা লস ফাংশন ডিজাইন করতে হবে যা মানব বিকাশগত সময়সূচীকে আরও ভালভাবে প্রতিফলিত করে। জ্ঞানীয় বিজ্ঞানীদের জন্য, কাজটি একটি নতুন, নিয়ন্ত্রণযোগ্য টেস্টবেড প্রদান করে: মডেলের স্থাপত্য পরিবর্তন করুন (যেমন, এলএসটিএম-এর মতো পুনরাবৃত্ত সংযোগ প্রবর্তন করুন) বা প্রশিক্ষণ তথ্য (যেমন, মাল্টিমোডাল ইনপুট যোগ করুন), এবং দেখুন কিভাবে বিকাশগত গতিপথ পরিবর্তিত হয়। এটি নির্দিষ্ট মানব পক্ষপাতের অবদান বিচ্ছিন্ন করতে সাহায্য করতে পারে। চূড়ান্ত অন্তর্দৃষ্টি হল যে আরও ভাল এআই তৈরি করা এবং মানব জ্ঞান বোঝা এখন একটি একক, পরস্পর জড়িত প্রচেষ্টা।

7. ভবিষ্যৎ প্রয়োগ ও দিকনির্দেশনা

এআই-এর জন্য বিকাশগত বেঞ্চমার্ক: এলএলএম-এর জন্য প্রমিত "বিকাশগত মাইলফলক" বেঞ্চমার্ক তৈরি করুন, স্থির মূল্যায়ন থেকে গতিশীল গতিপথ বিশ্লেষণের দিকে এগিয়ে যান।
সচেতন পাঠ্যক্রম নকশা: শিশু বিকাশ থেকে অন্তর্দৃষ্টি ব্যবহার করে আরও দক্ষ এবং শক্তিশালী মডেল প্রশিক্ষণের জন্য প্রশিক্ষণ তথ্যের ক্রম কাঠামোগত করুন, সম্ভাব্যভাবে তথ্য এবং গণনার প্রয়োজনীয়তা হ্রাস করুন।
স্থাপত্য উদ্ভাবন: নতুন নিউরাল নেটওয়ার্ক স্থাপত্য ডিজাইন করুন যা অনুমিত মানব জ্ঞানীয় পক্ষপাতকে অন্তর্ভুক্ত করে (যেমন, বস্তুর স্থায়িত্ব, সামাজিক পুরস্কার সংকেত) দেখতে যে তারা আরও মানব-সদৃশ শিক্ষার গতিপথের দিকে নিয়ে যায় কিনা।
ক্লিনিকাল টুলস: এআই মডেলগুলি বিকাশ করুন যা অস্বাভাবিক শিক্ষার গতিপথ অনুসরণ করে (বিকাশগত ভাষা ব্যাধি সিমুলেট করে) অনুমান তৈরি করতে এবং ইন সিলিকো হস্তক্ষেপ পরীক্ষা করতে।
মাল্টিমোডাল ইন্টিগ্রেশন: এই গবেষণাকে মাল্টিমোডাল মডেলগুলিতে (ভিজ্যুয়াল, অডিও, টেক্সট) প্রসারিত করুন। ক্রস-মোডাল ইন্টিগ্রেশনের (যেমন, ভিজ্যুয়াল প্রসঙ্গ থেকে শব্দের অর্থ শেখা) পর্যায়গুলি কি উদ্ভূত হয় যা বিশুদ্ধ ভাষাগত পর্যায়গুলির আগে বা পরে আসে, শিশু শিক্ষার প্রতিফলন করে?

8. তথ্যসূত্র

Evanson, L., Lakretz, Y., & King, J. (2023). Language acquisition: do children and language models follow similar learning stages? arXiv preprint arXiv:2306.03586.
Friedmann, N., Reznick, J., & et al. (2021). The order of acquisition of syntactic structures: A study of Hebrew-speaking children. Language Acquisition.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
Geirhos, R., Jacobsen, J. H., Michaelis, C., Zemel, R., Brendel, W., Bethge, M., & Wichmann, F. A. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665-673.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Bowman, S. R., & Dahl, G. E. (2021). What will it take to fix benchmarking in natural language understanding? Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.