ভাষা অর্জনের জ্ঞানীয় মডেল হিসেবে স্নায়বিক ভাষা মডেলগুলির মূল্যায়ন

1 ভূমিকা

এই গবেষণাপত্রটি মানব ভাষা অর্জনের তত্ত্বের প্রতিনিধি হিসেবে স্নায়বিক ভাষা মডেল (এলএম) ব্যবহারের ক্রমবর্ধমান প্রবণতাকে সমালোচনামূলকভাবে পরীক্ষা করে। যদিও এলএমগুলি বিভিন্ন এনএলপি কাজে অসাধারণ সাফল্য অর্জন করেছে, শিশুর ভাষা শেখার সাথে তুলনা করলে প্রশিক্ষণ তথ্যের পরিমাণ ও প্রকৃতির মৌলিক পার্থক্যের কারণে জ্ঞানীয় মডেল হিসেবে তাদের প্রাসঙ্গিকতা নিয়ে প্রশ্ন তোলা হয়েছে।

লেখকরা যুক্তি দেন যে জনপ্রিয় বাক্যতাত্ত্বিক মূল্যায়ন বেঞ্চমার্কগুলি (যেমন, BLiMP, SyntaxGym) সম্ভবত সেই কাঠামোগত বৈচিত্র্য এবং মনস্তাত্ত্বিক বৈধতার অভাব রয়েছে যা মূল্যায়নের জন্য প্রয়োজন যে এলএমগুলি মানবসদৃশ উপায়ে ভাষা অর্জন করে কিনা। তারা আরও কঠোর, ভাষাবিজ্ঞান-কিউরেটেড ডেটাসেট যেমন LI-Adger ডেটাসেট ব্যবহারের পক্ষে মত দেন, যাতে স্থানীয় ভাষাভাষীদের কাছ থেকে গ্রেডিয়েন্ট গ্রহণযোগ্যতা রায় রয়েছে।

1.1 ভাষা অর্জনের জন্য প্রভাব?

এই বিভাগে তথ্যের চরম বৈষম্য তুলে ধরা হয়েছে: BERT-এর মতো মডেলগুলি বিলিয়ন বিলিয়ন টোকেনে প্রশিক্ষিত হয়, অন্যদিকে একটি শিশু বছরে মাত্র প্রায় ১ কোটি শব্দ পায়। সাম্প্রতিক গবেষণা শিশু-নির্দেশিত বক্তৃতা (CDS) এর উপর আরও মানবসদৃশ স্কেলে (যেমন, ৫ মিলিয়ন টোকেন) মডেল প্রশিক্ষণের মাধ্যমে এই ব্যবধান পূরণের চেষ্টা করছে। মূল প্রশ্ন হলো, এমন "হ্রাসকৃত" ইনপুট-এ প্রশিক্ষিত মডেলগুলি কি এখনও আচরণগত বেঞ্চমার্কগুলিতে ভালো পারফর্ম করতে পারে এবং এইভাবে বৈধ জ্ঞানীয় মডেল হিসেবে কাজ করতে পারে।

2 মূল উপলব্ধি: বেঞ্চমার্কিংয়ের মরীচিকা

গবেষণাপত্রের মূল থিসিসটি এনএলপি সম্প্রদায়ের আত্মতুষ্টির প্রতি একটি প্রত্যক্ষ চ্যালেঞ্জ। BLiMP-এর মতো টেমপ্লেটযুক্ত, সিন্থেটিক বেঞ্চমার্কগুলিতে চিত্তাকর্ষক পারফরম্যান্স ব্যাকরণগত দক্ষতার একটি বিভ্রম তৈরি করে। লেখকরা এটিকে একটি পদ্ধতিগত আর্টিফ্যাক্ট হিসেবে প্রকাশ করেছেন। যখন এলএমগুলিকে LI-Adger ডেটাসেটে পরীক্ষা করা হয়—যা নির্দিষ্ট বাক্যতাত্ত্বিক নীতি অনুসন্ধানের জন্য তাত্ত্বিক ভাষাবিদদের দ্বারা নকশাকৃত ন্যূনতম জোড়ার একটি সাবধানে নির্মিত সেট—তখন তাদের মূল্যায়ন মানুষের রায় থেকে উল্লেখযোগ্যভাবে বিচ্যুত হয়। এটি শুধু পারফরম্যান্সের ব্যবধান নয়; এটি একটি মৌলিক উপস্থাপনামূলক বেমানানির প্রমাণ। এলএমগুলি সম্ভবত পৃষ্ঠতলের পরিসংখ্যানগত প্যাটার্ন শিখছে যা সরল বাক্যতাত্ত্বিক টেমপ্লেটের সাথে কাকতালীয়ভাবে মিলে যায়, মানব ব্যাকরণের ভিত্তি গঠনকারী বিমূর্ত, শ্রেণিবদ্ধ কাঠামো নয়।

3 যৌক্তিক প্রবাহ: তথ্যের বৈষম্য থেকে পদ্ধতিগত সমালোচনা

যুক্তিটি অস্ত্রোপচারের মতো সূক্ষ্মতার সাথে এগোয়। প্রথমত, এটি এলএম প্রশিক্ষণ এবং শিশু অর্জনের মধ্যে অত্যন্ত বড় তথ্যের স্কেলের ফাটল প্রতিষ্ঠা করে, "ছোট স্কেলের প্রশিক্ষণ" গবেষণাকে একটি প্রয়োজনীয় কিন্তু অপর্যাপ্ত সংশোধনী হিসেবে ফ্রেম করে। দ্বিতীয়ত, এটি প্রদর্শন করে যে এমনকি এই সমতল খেলার মাঠেও (ছোট তথ্য), এলএমগুলিকে সরল বেসলাইন দ্বারা ম্যাচ করা যেতে পারে, তাদের যোগ করা জ্ঞানীয় মূল্য নিয়ে প্রশ্ন তোলে। যৌক্তিক পিভট হলো বেঞ্চমার্ক ডিজাইনের সমালোচনা: টেমপ্লেটযুক্ত কাজগুলিতে বাস্তব ভাষাগত অনুসন্ধানের "কাঠামোগত বৈচিত্র্য"-এর অভাব রয়েছে। চূড়ান্ত, নিন্দনীয় প্রমাণ আসে LI-Adger পরীক্ষা থেকে, যেখানে এলএম পারফরম্যান্স সরাসরি মানুষের ভাষাগত অন্তর্দৃষ্টির বিরোধিতা করে। প্রবাহটি হলো: সমস্যা বিবৃতি (তথ্যের বেমানানি) -> সমাধানের প্রচেষ্টা (ছোট স্কেলের প্রশিক্ষণ) -> গভীর সমস্যার প্রকাশ (ত্রুটিপূর্ণ মূল্যায়ন) -> চূড়ান্ত পাল্টা-প্রমাণ।

4 শক্তি ও ত্রুটি: একটি সমালোচনামূলক বিশ্লেষণ

শক্তি: গবেষণাপত্রের সবচেয়ে বড় শক্তি হলো এর পদ্ধতিগত কঠোরতা এবং আন্তঃশাস্ত্রীয় ভিত্তি। এটি শুধু সমালোচনা করে না; এটি একটি উন্নত বিকল্প (LI-Adger) প্রদান করে। মূল্যায়নকে মূল তাত্ত্বিক ভাষাবিজ্ঞান এবং সাইকোলিংগুইস্টিক্সের সাথে যুক্ত করে, এটি "মানবসদৃশ" জ্ঞানের প্রমাণ কী গঠন করে তার মানদণ্ডকে উচ্চতর করে তোলে। তথ্যের স্কেলের উপর ফোকাসও দূরদর্শী, যা দক্ষ এমএল-এর বৃহত্তর প্রবণতার সাথে সামঞ্জস্যপূর্ণ।

ত্রুটি ও বাদ পড়া: বিশ্লেষণটি তীক্ষ্ণ হলেও, সম্ভাব্যভাবে ব্যর্থতাকে অতিরঞ্জিত করে। LI-Adger-এ বিচ্যুতি কি এলএম শেখা এবং অর্জনের মধ্যে সমস্ত সমান্তরালতাকে অবৈধ করে দেয়? সম্ভবত না। গবেষণাপত্রটি আরও বেশি জড়িত হতে পারে যে এলএমগুলি কী সঠিক পায় এবং কেন। তদুপরি, এটি ব্যাকরণগত জ্ঞানের উপর ব্যাপকভাবে নির্ভর করে; একটি পূর্ণাঙ্গ জ্ঞানীয় মডেলকে অবশ্যই শব্দার্থিক, ব্যবহারিক এবং সামাজিক শেখার দিকগুলিও বিবেচনা করতে হবে। "আরও বাস্তবসম্মত তথ্য"-এর আহ্বান বৈধ কিন্তু অস্পষ্ট—আমরা কীভাবে শিশু-নির্দেশিত ইনপুটের বহুমুখী, ইন্টারেক্টিভ এবং ত্রুটিপূর্ণ প্রকৃতিকে মডেল করব?

5 কার্যকরী অন্তর্দৃষ্টি: সামনের পথ

গবেষকদের জন্য, নির্দেশনা স্পষ্ট: সহজ বেঞ্চমার্কের আরাম ত্যাগ করুন। মূল্যায়ন স্যুটে তাত্ত্বিক ভাষাবিজ্ঞান (LI-Adger প্যারাডাইমের মতো) এবং বিকাশমূলক মনোবিজ্ঞানের সম্পদগুলিকে একীভূত করুন। মানব ভাষা শেখার বৈশিষ্ট্যগুলি পরীক্ষা করার জন্য "জ্ঞানীয় বেঞ্চমার্ক" তৈরিকে অগ্রাধিকার দিন: স্পার্স তথ্য থেকে সাধারণীকরণ, শব্দের প্রতি রোবাস্টনেস এবং বিমূর্ত ব্যাকরণগত নীতির প্রতি আনুগত্য। মডেল ডেভেলপারদের জন্য, লক্ষ্য হওয়া উচিত বেঞ্চমার্ক স্কোর সর্বাধিক করা থেকে সরে গিয়ে এমন আর্কিটেকচার এবং প্রশিক্ষণ শাসন ডিজাইন করা যা তথ্য-দক্ষ এবং মানবসদৃশ ইনপুট থেকে শিখতে পারে (যেমন, বিকাশ দ্বারা অনুপ্রাণিত কারিকুলাম লার্নিং বা অ্যাকটিভ লার্নিং মেকানিজম অন্তর্ভুক্ত করা)। চূড়ান্ত অন্তর্দৃষ্টি: একটি সত্যিকারের জ্ঞানীয় মডেল তৈরি করা একটি পারফর্ম্যান্ট এনএলপি সিস্টেম তৈরি করার চেয়ে আলাদা—এবং কঠিন—সমস্যা।

6 মূল বিশ্লেষণ: ভাষা মডেলিংয়ে জ্ঞানীয় ফাটল

ভাস্কেজ মার্টিনেজ এবং সহকর্মীদের এই গবেষণাপত্রটি এমন একটি যুগে একটি প্রয়োজনীয় এবং সতর্কতামূলক সমালোচনা উপস্থাপন করে যা প্রায়শই স্কেল দ্বারা বিভ্রান্ত হয়। এটি সঠিকভাবে একটি মৌলিক টান শনাক্ত করে: যদিও আধুনিক এলএমগুলি, বিশেষ করে বৃহৎ ভাষা মডেল (এলএলএম)গুলি, চিত্তাকর্ষক পৃষ্ঠতলের ভাষাগত দক্ষতা প্রদর্শন করে, সেই দক্ষতার পথ একটি শিশুর থেকে মহাজাগতিকভাবে আলাদা। লেখকদের বেঞ্চমার্ক অপর্যাপ্ততার উপর ফোকাস বিশেষভাবে বিচক্ষণ। এটি অন্যান্য এআই ডোমেনে উদ্বেগের প্রতিধ্বনি করে যেখানে বেঞ্চমার্ক পারফরম্যান্স রোবাস্ট, সাধারণীকরণযোগ্য বুদ্ধিমত্তায় রূপান্তরিত হয় না। উদাহরণস্বরূপ, কম্পিউটার ভিশনে, ImageNet-এ উৎকর্ষতা প্রদর্শনকারী মডেলগুলিকে সরল প্রতিকূল বিরক্তিতে ফাঁদে ফেলা যেতে পারে, যা সত্যিকারের ভিজ্যুয়াল বোঝার অভাব প্রকাশ করে—এমন একটি ঘটনা যা MIT এবং Google Brain-এর মতো প্রতিষ্ঠানের গবেষণায় বিস্তারিতভাবে বর্ণনা করা হয়েছে। একইভাবে, গবেষণাপত্রটি দেখায় যে BLiMP-এ এলএমগুলির সাফল্য একই ধরনের "ক্লেভার হ্যান্স" প্রভাব হতে পারে, যেখানে মডেলগুলি বেঞ্চমার্ক নির্মাণে পরিসংখ্যানগত নিয়মিততা কাজে লাগায় বরং অন্তর্নিহিত বাক্যতাত্ত্বিক নিয়ম শেখার পরিবর্তে।

LI-Adger ডেটাসেটের পক্ষে মতামত প্রদান করা গবেষণাপত্রের সবচেয়ে উল্লেখযোগ্য অবদান। ন্যূনতম জোড়া এবং গ্রেডিয়েন্ট গ্রহণযোগ্যতা রায়—তাত্ত্বিক সিনট্যাক্সে স্বর্ণমান—এর উপর ভিত্তি করে মূল্যায়ন স্থাপন করে, এটি মডেলগুলিকে ব্যাকরণগততা-র জ্ঞান প্রদর্শনে বাধ্য করে, শুধু সম্ভাব্যতা নয়। এখানে এলএমগুলির ব্যর্থতা তাৎপর্যপূর্ণ। এটি ইঙ্গিত দেয় যে বিপুল টেক্সট কর্পোরা থেকে শেখা সম্ভাব্যতা বন্টন ($P(w_n | w_{1:n-1})$) মানুষের ব্যাকরণগত জ্ঞানের বৈশিষ্ট্যযুক্ত শ্রেণিবদ্ধ বা গ্রেডিয়েন্ট রায়গুলিতে অগত্যা একত্রিত হয় না। এটি নোম চমস্কির মতো ভাষাবিদদের যুক্তির সাথে সামঞ্জস্যপূর্ণ, যারা দীর্ঘদিন ধরে দাবি করে আসছেন যে পৃষ্ঠতলের রূপ থেকে পরিসংখ্যানগত শেখা উদ্দীপনার দারিদ্র্য এবং বাক্যতাত্ত্বিক নিয়মগুলির বিমূর্ত প্রকৃতি ব্যাখ্যা করার জন্য অপর্যাপ্ত।

যাইহোক, গবেষণাপত্রের উপসংহার এই হওয়া উচিত নয় যে এলএমগুলি জ্ঞানীয় বিজ্ঞানের জন্য অপ্রাসঙ্গিক। বরং, এটি চ্যালেঞ্জটিকে পুনর্বিন্যাস করে। ভবিষ্যত "জ্ঞানীয় আর্কিটেকচার-সচেতন" মডেলিং-এ নিহিত। এতে ভাষাগত তত্ত্ব দ্বারা অনুপ্রাণিত আনয়ন পক্ষপাত অন্তর্ভুক্ত করা জড়িত থাকতে পারে (যেমন, শ্রেণিবদ্ধ কাঠামোর জন্য একটি প্রবণতা), যেমন কিছু নিউরো-সিম্বলিক পদ্ধতিতে দেখা যায়, বা পরবর্তী শব্দ ভবিষ্যদ্বাণীর বাইরে প্রশিক্ষণের উদ্দেশ্য ডিজাইন করা। ব্রেন্ডেন লেক এবং মার্কো বারোনির মতো গবেষকদের ফিউ-শট লার্নিং এবং কম্পোজিশনালিটির উপর কাজ এই দিকে ইঙ্গিত করে। সামনের পথটি এলএমগুলি বাতিল করা নয়, বরং সঠিক জ্ঞানীয় বেঞ্চমার্কের বিরুদ্ধে কঠোরভাবে পরীক্ষা করা এবং ব্যর্থতার ভিত্তিতে পুনরাবৃত্তিমূলকভাবে তাদের পুনরায় ডিজাইন করা, অন্যান্য বিজ্ঞানে তত্ত্ব ও পরীক্ষার চক্রের মতোই।

7 প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো

আলোচিত মূল মূল্যায়ন পদ্ধতি হলো মানুষের গ্রহণযোগ্যতা রায় ভবিষ্যদ্বাণী করতে একটি ভাষা মডেলের আউটপুট সম্ভাব্যতা ব্যবহার করা। একটি বাক্য $S = w_1, w_2, ..., w_n$-এর জন্য, একটি স্ট্যান্ডার্ড অটোরিগ্রেসিভ এলএম একটি সম্ভাব্যতা নির্ধারণ করে: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ যেখানে $\theta$ মডেল প্যারামিটার। সুরপ্রাইজাল বা নেগেটিভ লগ-লাইকলিহুড প্রায়শই (অ)গ্রহণযোগ্যতার জন্য একটি প্রক্সি হিসেবে ব্যবহৃত হয়: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ অনুমান হলো যে উচ্চতর সম্ভাব্যতা (নিম্নতর সুরপ্রাইজাল) উচ্চতর মানুষের গ্রহণযোগ্যতা রেটিংয়ের সাথে সম্পর্কিত হওয়া উচিত। গবেষণাপত্রের সমালোচনামূলক অনুসন্ধান হলো যে এই সম্পর্ক LI-Adger ডেটাসেটে ভেঙে পড়ে, যা এলএমের সম্ভাব্যতা-ভিত্তিক "ব্যাকরণগততা" মেট্রিক এবং মানুষের রায়ের মধ্যে বিচ্ছিন্নতা নির্দেশ করে।

গবেষণাপত্রটি শিশু-নির্দেশিত বক্তৃতায় প্রশিক্ষিত মডেলগুলিরও উল্লেখ করে। এখানে মূল প্রযুক্তিগত চ্যালেঞ্জ হলো স্ট্যান্ডার্ড এলএম কর্পোরার ($>10^9$ টোকেন) তুলনায় খুব ছোট ডেটাসেট ($\approx 5\times10^6$ টোকেন) থেকে শেখা। এর জন্য দক্ষ আর্কিটেকচার এবং প্রশিক্ষণ কৌশল প্রয়োজন যাতে ওভারফিটিং এড়ানো যায় এবং স্পার্স তথ্য থেকে সাধারণীকরণযোগ্য প্যাটার্ন বের করা যায়।

8 পরীক্ষামূলক ফলাফল ও চার্ট বিশ্লেষণ

গবেষণাপত্রটি চিত্র 1-এ (পিডিএফ বিষয়বস্তুতে বর্ণিত) একটি মূল ফলাফল উপস্থাপন করে। চার্টটি LI-Adger ডেটাসেটে বিভিন্ন এলএম (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) এর পারফরম্যান্স মানুষের পারফরম্যান্সের একটি বেসলাইনের সাথে তুলনা করে।

চার্ট ব্যাখ্যা: মানুষের পারফরম্যান্সের প্রতিনিধিত্বকারী উল্লম্ব রেখাটি একটি বেঞ্চমার্ক হিসেবে কাজ করে। চার্টটি সম্ভবত প্রতিটি এলএম-এর জন্য মডেল সুরপ্রাইজাল এবং মানুষের গ্রহণযোগ্যতা রেটিংয়ের মধ্যে পারস্পরিক সম্পর্ক সহগ (যেমন, স্পিয়ারম্যানের $\rho$) দেখায়। সমালোচনামূলক অনুসন্ধান হলো যে সমস্ত এলএম বার মানুষের বেঞ্চমার্ক লাইন থেকে উল্লেখযোগ্যভাবে কম। এটি গবেষণাপত্রের কেন্দ্রীয় দাবিটিকে দৃশ্যত প্রদর্শন করে: এমনকি শিশুসদৃশ তথ্যে বিশেষভাবে প্রশিক্ষিত মডেলগুলিও (BabyBERTa, AO-CHILDES) এই বাক্যতাত্ত্বিকভাবে সূক্ষ্ম ডেটাসেটে মানুষের রায়ের সাথে মিলতে ব্যর্থ হয়। পারফরম্যান্স ব্যবধান নির্দেশ করে যে বর্তমান এলএম প্রশিক্ষণের উদ্দেশ্যগুলি এই কঠোর পরীক্ষা দ্বারা পরিমাপ করা মানবসদৃশ ব্যাকরণগত জ্ঞানের অর্জনের দিকে নিয়ে যায় না।

9 বিশ্লেষণ কাঠামো: LI-Adger কেস স্টাডি

কাঠামো: ন্যূনতম জোড়া গ্রহণযোগ্যতার মাধ্যমে জ্ঞানীয় মডেল হিসেবে এলএম মূল্যায়ন।

উদ্দেশ্য: নির্ধারণ করা যে একটি এলএম-এর অভ্যন্তরীণ সম্ভাব্যতা বন্টন কাঠামোগতভাবে বৈপরীত্যমূলক বাক্যগুলির জন্য মানুষের ব্যাকরণগত অন্তর্দৃষ্টির সাথে সামঞ্জস্যপূর্ণ কিনা।

পদ্ধতি:

উদ্দীপনা নির্বাচন: LI-Adger-এর মতো একটি ডেটাসেট ব্যবহার করুন, যা ন্যূনতম জোড়া নিয়ে গঠিত (যেমন, "Who do you think that John saw?" বনাম "Who do you think John saw?") যেখানে একটি বৈকল্পিক ব্যাকরণগত এবং অন্যটি কম গ্রহণযোগ্য বা অব্যাকরণিক, একটি নির্দিষ্ট বাক্যতাত্ত্বিক নীতির ভিত্তিতে (যেমন, "that-trace" ফিল্টার)।
মডেল প্রশ্ন: একটি ন্যূনতম জোড়ার প্রতিটি বাক্য $S$-এর জন্য, মডেলের গড় টোকেন সুরপ্রাইজাল গণনা করুন: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$।
ভবিষ্যদ্বাণী তৈরি: মডেলটি কম সুরপ্রাইজাল সহ বাক্যটিকে "পছন্দ" করে। একটি ন্যূনতম জোড়া (A, B)-এর জন্য, যদি $\text{Surprisal}(A) < \text{Surprisal}(B)$ হয়, মডেলটি ভবিষ্যদ্বাণী করে যে A বেশি গ্রহণযোগ্য।
মানুষের তথ্যের সাথে তুলনা: শত শত এমন ন্যূনতম জোড়ার মধ্যে মডেলের পছন্দের প্যাটার্ন মানুষের অংশগ্রহণকারীদের থেকে সমষ্টিগত গ্রহণযোগ্যতা রায়ের সাথে তুলনা করুন। মডেল সুরপ্রাইজাল এবং মানুষের রেটিং স্কোরের মধ্যে একটি পারস্পরিক সম্পর্ক সহগ (যেমন, স্পিয়ারম্যানের $\rho$) গণনা করুন।
ব্যাখ্যা: একটি উচ্চ, উল্লেখযোগ্য ধনাত্মক সম্পর্ক ইঙ্গিত দেবে যে এলএম-এর জ্ঞান মানুষের বাক্যতাত্ত্বিক রায়ের সাথে সামঞ্জস্যপূর্ণ। একটি নিম্ন বা অ-উল্লেখযোগ্য সম্পর্ক (গবেষণাপত্রে পাওয়া গেছে) একটি বিচ্যুতি নির্দেশ করে।

নন-কোড উদাহরণ: একটি বিভ্রান্তিকর ধারা জুড়ে কর্তা-ক্রিয়া সম্মতি সম্পর্কে জ্ঞান পরীক্ষা করার কথা বিবেচনা করুন: "The key to the cabinets *are/*is on the table." মানুষ দৃঢ়ভাবে "is"-কে সঠিক হিসেবে রেট করে। একটি এলএম যা বিমূর্ত সম্মতি নিয়ম শিখেছে (কর্তা 'key' -> ক্রিয়া 'is') সঠিক বাক্যটিকে উচ্চতর সম্ভাব্যতা নির্ধারণ করা উচিত। স্থানীয় n-gram পরিসংখ্যানের উপর নির্ভরশীল একটি এলএম "cabinets"-এর নৈকট্য দ্বারা বিভ্রান্ত হয়ে "are"-কে পছন্দ করতে পারে। উপরোক্ত কাঠামোটি অনেকগুলি এমন জোড়ায় প্রয়োগ করা এলএম-এর অর্জিত জ্ঞানের প্রকৃতি প্রকাশ করে।

10 ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশ

1. "জ্ঞানীয় বেঞ্চমার্ক"-এর উন্নয়ন: একটি প্রধান দিক হলো স্ট্যান্ডার্ডাইজড, বহুমুখী মূল্যায়ন স্যুট তৈরি করা যা বাক্যতত্ত্বের বাইরে গিয়ে শব্দার্থবিদ্যা, ব্যবহারিক ভাষাবিজ্ঞান এবং ভাষা অর্জনের মাইলফলক (যেমন, শব্দভাণ্ডার স্পার্ট, ওভারজেনারেলাইজেশন ত্রুটি) অন্তর্ভুক্ত করে। এই বেঞ্চমার্কগুলি কম্পিউটেশনাল ভাষাবিদ, বিকাশমূলক মনোবিজ্ঞানী এবং জ্ঞানীয় বিজ্ঞানীদের দ্বারা যৌথভাবে ডিজাইন করা উচিত।

2. ভাষাগত আনয়ন পক্ষপাত সহ আর্কিটেকচার: ভবিষ্যতের মডেলগুলি স্পষ্ট কাঠামোগত প্রায়র অন্তর্ভুক্ত করতে পারে। উদাহরণস্বরূপ, এমন আর্কিটেকচার যা স্বভাবতই শ্রেণিবদ্ধ উপস্থাপনা তৈরি করে বা জেনারেশনের সময় বাক্যতাত্ত্বিক সীমাবদ্ধতা প্রয়োগ করে, ভাষাবিজ্ঞানে নীতিমালা-এবং-প্যারামিটার ফ্রেমওয়ার্কের কাছাকাছি চলে যায়।

3. ইন্টারেক্টিভ এবং বহুমুখী প্রশিক্ষণ: শিশু শেখার আরও ভালো সিমুলেশন করার জন্য, মডেলগুলিকে স্থির টেক্সটে নয়, বরং একটি গ্রাউন্ডেড পরিবেশের মধ্যে ইন্টারেক্টিভ, বহুমুখী তথ্য স্ট্রিম (ভিশন + স্পিচ + টেক্সট) এ প্রশিক্ষিত করা যেতে পারে, যেমন এমবডিড এআই গবেষণায় অন্বেষণ করা হয়েছে।

4. তথ্য-দক্ষ এবং কারিকুলাম লার্নিং: এমন প্রশিক্ষণ অ্যালগরিদম তৈরি করা যা অর্ডার-অফ-ম্যাগনিচিউড কম তথ্য নিয়ে সফল হয়, সম্ভবত কারিকুলাম লার্নিং কৌশল বাস্তবায়ন করে যা শিশু-নির্দেশিত বক্তৃতায় জটিলতার অগ্রগতিকে প্রতিফলিত করে।

5. নিউরোলিংগুইস্টিক্সের সাথে সংযোগ স্থাপন: ভাষার কাজের সময় মানুষের কাছ থেকে নিউরাল তথ্য (যেমন, fMRI, EEG) এর সাথে এলএমগুলির অভ্যন্তরীণ উপস্থাপনা এবং প্রক্রিয়াকরণ গতিশীলতার তুলনা করা, যেমন MIT-এর McGovern Institute-এর গবেষকদের কাজ দ্বারা অগ্রণী, জ্ঞানীয় মডেলগুলির জন্য বৈধতার একটি নতুন স্তর প্রদান করতে পারে।

11 তথ্যসূত্র

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.