NewsQA: এনএলপি গবেষণার জন্য একটি চ্যালেঞ্জিং মেশিন কম্প্রিহেনশন ডেটাসেট

1. ভূমিকা ও সংক্ষিপ্ত বিবরণ

এই নথিটি ২০১৭ সালে এনএলপি-র জন্য রিপ্রেজেন্টেশন লার্নিং-এর দ্বিতীয় কর্মশালায় উপস্থাপিত "NewsQA: A Machine Comprehension Dataset" গবেষণা পত্রটি বিশ্লেষণ করে। এই পত্রটি মেশিন রিডিং কম্প্রিহেনশনের (MRC) সীমানা অতিক্রম করার জন্য নকশাকৃত একটি অভিনব, বৃহৎ-পরিসরের ডেটাসেট উপস্থাপন করে। মূল প্রস্তাবনা হলো যে বিদ্যমান ডেটাসেটগুলি হয় আধুনিক গভীর শিক্ষণের জন্য খুব ছোট ছিল অথবা কৃত্রিমভাবে তৈরি করা হয়েছিল, যা প্রাকৃতিক মানব প্রশ্নের জটিলতা ধারণ করতে ব্যর্থ হয়েছিল। এই ফাঁক পূরণের জন্য NewsQA তৈরি করা হয়েছিল, যা সিএনএন নিউজ নিবন্ধের উপর ভিত্তি করে ১০০,০০০-এরও বেশি মানব-সৃষ্ট প্রশ্ন-উত্তর জোড়া নিয়ে গঠিত, এবং এটি স্পষ্টভাবে এমন প্রশ্নগুলির উপর দৃষ্টি নিবদ্ধ করে যেগুলির জন্য সরল শব্দার্থিক মিলের বাইরে যুক্তির প্রয়োজন হয়।

2. NewsQA ডেটাসেট

NewsQA হল একটি সুপারভাইজড লার্নিং কর্পাস যা (নথি, প্রশ্ন, উত্তর) ট্রিপল নিয়ে গঠিত। উত্তরগুলি মূল নিবন্ধ থেকে টেক্সটের ধারাবাহিক অংশ (span)।

2.1 ডেটাসেট তৈরির পদ্ধতি ও পদ্ধতিবিদ্যা

ডেটাসেটটি তৈরি করা হয়েছিল একটি পরিশীলিত চার-পর্যায়ের ক্রাউডসোর্সিং প্রক্রিয়া ব্যবহার করে, যা অন্বেষণমূলক এবং যুক্তি-নিবিড় প্রশ্ন উত্থাপনের জন্য নকশা করা হয়েছিল:

প্রশ্ন তৈরিঃ কর্মীদের শুধুমাত্র একটি সিএনএন নিবন্ধের হাইলাইটস/সারসংক্ষেপ দেখানো হয়েছিল এবং তাদের কৌতূহলী এমন প্রশ্ন তৈরি করতে বলা হয়েছিল।
উত্তর স্প্যান নির্বাচনঃ কর্মীদের একটি পৃথক দল, সম্পূর্ণ নিবন্ধ দেওয়া হলে, প্রশ্নের উত্তর দেয় এমন টেক্সট স্প্যান চিহ্নিত করেছিল, যদি তা বিদ্যমান থাকে।
এই বিচ্ছিন্নকরণ এমন প্রশ্নগুলিকে উৎসাহিত করে যা উত্তর টেক্সট থেকে শব্দার্থিক এবং বাক্য গঠনগতভাবে ভিন্ন।
এটি স্বাভাবিকভাবেই প্রশ্নগুলির একটি উপসেটের দিকে নিয়ে যায় যা সম্পূর্ণ নিবন্ধ দেওয়া সত্ত্বেও উত্তরযোগ্য নয়, যা আরেকটি স্তরের কঠিনতা যোগ করে।

2.2 প্রধান বৈশিষ্ট্য ও পরিসংখ্যান

পরিসর

১১৯,৬৩৩ প্রশ্ন-উত্তর জোড়া

উৎস

১২,৭৪৪টি সিএনএন নিবন্ধ

নিবন্ধের দৈর্ঘ্য

গড়ে SQuAD নিবন্ধের চেয়ে ~৬ গুণ দীর্ঘ

উত্তরের ধরন

টেক্সট স্প্যান (সত্তা বা বহু-নির্দেশনা নয়)

স্বতন্ত্র বৈশিষ্ট্যঃ দীর্ঘ প্রসঙ্গ নথি, প্রশ্ন ও উত্তরের মধ্যে শব্দার্থিক পার্থক্য, যুক্তিমূলক প্রশ্নের উচ্চ অনুপাত এবং উত্তরহীন প্রশ্নের উপস্থিতি।

3. প্রযুক্তিগত বিশ্লেষণ ও নকশা

3.1 মূল নকশা দর্শন

লেখকদের লক্ষ্য ছিল সুস্পষ্ট: এমন একটি কর্পাস তৈরি করা যা যুক্তি-সদৃশ আচরণের প্রয়োজনীয়তা তৈরি করে, যেমন একটি দীর্ঘ নিবন্ধের বিভিন্ন অংশ জুড়ে তথ্যের সংশ্লেষণ। এটি একটি প্রত্যক্ষ প্রতিক্রিয়া সেই সমালোচনার প্রতি যে অনেক এমসি ডেটাসেট, যেমন CNN/Daily Mail ক্লোজ-স্টাইল পদ্ধতি দ্বারা তৈরি করা, প্রাথমিকভাবে প্যাটার্ন ম্যাচিং পরীক্ষা করে গভীর বোঝার পরিবর্তে [Chen et al., 2016]।

3.2 SQuAD-এর সাথে তুলনা

উভয়ই স্প্যান-ভিত্তিক এবং ক্রাউডসোর্সড হলেও, NewsQA নিজেকে আলাদা করে:

ডোমেইন ও দৈর্ঘ্যঃ সংবাদ নিবন্ধ বনাম উইকিপিডিয়া অনুচ্ছেদ; উল্লেখযোগ্যভাবে দীর্ঘ নথি।
সংগ্রহ প্রক্রিয়াঃ বিচ্ছিন্ন প্রশ্ন-উত্তর উৎপাদন (NewsQA) বনাম একই কর্মী দ্বারা উৎপাদন (SQuAD), যা বৃহত্তর পার্থক্যের দিকে নিয়ে যায়।
প্রশ্নের প্রকৃতিঃ "অন্বেষণমূলক, কৌতূহল-ভিত্তিক" প্রশ্নের জন্য নকশা করা বনাম সরাসরি টেক্সট থেকে প্রশ্ন।
উত্তরহীন প্রশ্নঃ NewsQA স্পষ্টভাবে এমন প্রশ্ন অন্তর্ভুক্ত করে যার কোন উত্তর নেই, যা একটি বাস্তবসম্মত এবং চ্যালেঞ্জিং পরিস্থিতি।

4. পরীক্ষামূলক ফলাফল ও কার্যকারিতা

4.1 মানব বনাম মেশিন কার্যকারিতা

পত্রটি ডেটাসেটে একটি মানব কার্যকারিতা বেসলাইন স্থাপন করে। মূল ফলাফলটি হল মানব কার্যকারিতা এবং সেই সময়ে পরীক্ষিত সেরা নিউরাল মডেলগুলির মধ্যে ১৩.৩% F1 স্কোর ব্যবধান। এই উল্লেখযোগ্য ব্যবধানকে ব্যর্থতা হিসেবে নয়, বরং প্রমাণ হিসেবে উপস্থাপন করা হয়েছিল যে NewsQA একটি চ্যালেঞ্জিং বেঞ্চমার্ক যেখানে "উল্লেখযোগ্য অগ্রগতি করা যেতে পারে"।

4.2 মডেল কার্যকারিতা বিশ্লেষণ

লেখকরা বেশ কয়েকটি শক্তিশালী নিউরাল বেসলাইন (Attentive Reader, Stanford Attentive Reader, এবং AS Reader-এর মতো আর্কিটেকচার) মূল্যায়ন করেছিলেন। মডেলগুলি বিশেষভাবে সংগ্রাম করেছিল:

দীর্ঘ নিবন্ধগুলিতে দীর্ঘ-দূরত্বের নির্ভরতা নিয়ে।
একাধিক তথ্যের সংশ্লেষণের প্রয়োজন এমন প্রশ্ন নিয়ে।
উত্তরহীন প্রশ্ন সঠিকভাবে চিহ্নিত করতে।

চার্টের প্রভাবঃ একটি প্রকল্পিত কার্যকারিতা চার্টে শীর্ষে মানব F1 (~৮০-৯০%) দেখাবে, তার নিচে উল্লেখযোগ্যভাবে নিচে নিউরাল মডেলগুলির একটি গুচ্ছ থাকবে, এবং ব্যবধানটি দৃশ্যত ডেটাসেটের কঠিনতার উপর জোর দেবে।

5. সমালোচনামূলক বিশ্লেষণ ও বিশেষজ্ঞের অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টিঃ NewsQA শুধু আরেকটি ডেটাসেট ছিল না; এটি ছিল একটি কৌশলগত হস্তক্ষেপ। লেখকরা সঠিকভাবে চিহ্নিত করেছিলেন যে ক্ষেত্রের অগ্রগতি বেঞ্চমার্কের গুণমান দ্বারা সীমাবদ্ধ ছিল। যদিও SQuAD [Rajpurkar et al., 2016] স্কেল/প্রাকৃতিকতার সমস্যার সমাধান করেছিল, NewsQA লক্ষ্য করেছিল যুক্তি-গভীরতা সমস্যার সমাধান করতে। এর চার-পর্যায়ের, বিচ্ছিন্ন সংগ্রহ প্রক্রিয়াটি ছিল একটি চালাক হ্যাক যা ক্রাউডওয়ার্কারদের একটি তথ্য-অনুসন্ধানকারী মানসিকতায় বাধ্য করেছিল, অনুকরণ করে যে একজন ব্যক্তি কীভাবে একটি সংবাদ সারসংক্ষেপ পড়তে পারে এবং তারপর বিস্তারিত জানার জন্য সম্পূর্ণ নিবন্ধে ডুব দিতে পারে। এই পদ্ধতিবিদ্যা সরাসরি আক্রমণ করেছিল সেই শব্দার্থিক পক্ষপাতকে যা আগের মডেলগুলিকে পীড়িত করছিল।

যুক্তিগত প্রবাহঃ পত্রটির যুক্তি অকাট্যঃ ১) পূর্ববর্তী ডেটাসেটগুলি ত্রুটিপূর্ণ (খুব ছোট বা কৃত্রিম)। ২) SQuAD ভাল কিন্তু প্রশ্নগুলি খুব আক্ষরিক। ৩) অতএব, আমরা একটি প্রক্রিয়া (সারসংক্ষেপ-প্রথম প্রশ্ন উৎপাদন) নকশা করি যাতে কঠিন, আরও ভিন্ন প্রশ্ন তৈরি হয়। ৪) আমরা একটি বড় মানব-মেশিন ব্যবধান দেখিয়ে এটি যাচাই করি। যুক্তিটি স্পষ্ট পণ্য লক্ষ্যের সেবা করে: এমন একটি বেঞ্চমার্ক তৈরি করা যা বছরের পর বছর প্রাসঙ্গিক এবং অমীমাংসিত থাকবে, যার ফলে গবেষণা এবং উদ্ধৃতি আকর্ষণ করবে।

শক্তি ও ত্রুটিঃ প্রধান শক্তি হল ডেটাসেটের স্থায়ী কঠিনতা এবং বাস্তব-বিশ্বের জটিলতার উপর এর ফোকাস (দীর্ঘ নথি, উত্তরহীন প্রশ্ন)। এর ত্রুটি, সেই যুগের সাধারণ, ছিল মাল্টি-হপ বা স্পষ্ট রচনামূলক যুক্তি প্রশ্নের অভাব যা পরবর্তীতে HotpotQA [Yang et al., 2018] এর মতো ডেটাসেটগুলি চালু করবে। তদুপরি, সংবাদ ডোমেইন, যদিও সমৃদ্ধ, শৈলী এবং কাঠামোর পক্ষপাত প্রবর্তন করে যা অন্যান্য টেক্সট প্রকারের জন্য সাধারণীকরণ নাও হতে পারে। ১৩.৩% F1 ব্যবধান একটি আকর্ষণীয় শিরোনাম ছিল, কিন্তু এটি ডেটার অন্তর্নিহিত বৈশিষ্ট্যের চেয়ে ২০১৭-যুগের মডেলগুলির সীমাবদ্ধতাকেও প্রতিফলিত করেছিল।

কার্যকরী অন্তর্দৃষ্টিঃ অনুশীলনকারীদের জন্য, NewsQA-এর উত্তরাধিকার হল বেঞ্চমার্ক নকশায় একটি মাস্টারক্লাস। আপনি যদি একটি ক্ষেত্র এগিয়ে নিতে চান, শুধু একটি বড় ডেটাসেট তৈরি করবেন না; নির্দিষ্ট মডেল দুর্বলতাগুলি লক্ষ্য করে এর সৃষ্টি প্রকৌশল করুন। মডেল নির্মাতাদের জন্য, NewsQA সংকেত দিয়েছিল আরও ভাল দীর্ঘ-প্রসঙ্গ যুক্তি (একটি প্রয়োজন যা পরে ট্রান্সফরমার দ্বারা সমাধান করা হয়েছিল) এবং "কোন উত্তর নেই" পরিস্থিতির শক্তিশালী পরিচালনার প্রয়োজনীয়তার। ডেটাসেটটি কার্যকরভাবে সম্প্রদায়কে শব্দের ব্যাগের সাদৃশ্য মডেলগুলির বাইরে সেগুলির দিকে নিয়ে যেতে বাধ্য করেছিল যা সত্যিকারের বক্তব্য-স্তরের বোঝাপড়া সম্পাদন করতে পারে।

6. প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো

মূল কাজটি সংজ্ঞায়িত করা হয়েছে: একটি নথি $D$ দেওয়া হয়েছে যা টোকেন $[d_1, d_2, ..., d_m]$ নিয়ে গঠিত এবং একটি প্রশ্ন $Q$ যা টোকেন $[q_1, q_2, ..., q_n]$ নিয়ে গঠিত, মডেলটিকে $D$-তে উত্তর স্প্যানের শুরু সূচক $s$ এবং শেষ সূচক $e$ (যেখানে $1 \leq s \leq e \leq m$) ভবিষ্যদ্বাণী করতে হবে, অথবা নির্দেশ করতে হবে যে কোন উত্তর নেই।

মানক মূল্যায়ন মেট্রিক হল F1 স্কোর, যা ভবিষ্যদ্বাণী করা স্প্যান এবং গ্রাউন্ড ট্রুথ স্প্যান(গুলি) এর মধ্যে শব্দ স্তরে নির্ভুলতা এবং রিকলের হারমোনিক গড় পরিমাপ করে। উত্তরহীন প্রশ্নের জন্য, "কোন উত্তর নেই" এর একটি ভবিষ্যদ্বাণী তখনই সঠিক বিবেচনা করা হয় যদি প্রশ্নটির সত্যিই কোন উত্তর না থাকে।

সেই যুগের একটি সাধারণ নিউরাল মডেল (যেমন, Attentive Reader) করত:

প্রশ্নটিকে একটি ভেক্টর $\mathbf{q}$ এ এনকোড করত।
প্রতিটি নথি টোকেন $d_i$ কে একটি প্রসঙ্গ-সচেতন উপস্থাপনা $\mathbf{d}_i$ তে এনকোড করত, প্রায়শই একটি BiLSTM ব্যবহার করে: $\overrightarrow{\mathbf{h}_i} = \text{LSTM}(\overrightarrow{\mathbf{h}_{i-1}}, \mathbf{E}[d_i])$, $\overleftarrow{\mathbf{h}_i} = \text{LSTM}(\overleftarrow{\mathbf{h}_{i+1}}, \mathbf{E}[d_i])$, $\mathbf{d}_i = [\overrightarrow{\mathbf{h}_i}; \overleftarrow{\mathbf{h}_i}]$।
প্রশ্নের শর্তে নথি টোকেনগুলির উপর একটি মনোযোগ বন্টন গণনা করত: $\alpha_i \propto \exp(\mathbf{d}_i^\top \mathbf{W} \mathbf{q})$।
এই মনোযোগ ব্যবহার করে একটি প্রশ্ন-সচেতন নথি উপস্থাপনা গণনা করত এবং softmax ক্লাসিফায়ারগুলির মাধ্যমে শুরু/শেষ সম্ভাব্যতা ভবিষ্যদ্বাণী করত।

7. বিশ্লেষণ কাঠামো ও কেস স্টাডি

কেস স্টাডি: NewsQA-তে একটি মডেলের ব্যর্থতা বিশ্লেষণ

পরিস্থিতিঃ একটি শক্তিশালী SQuAD মডেল NewsQA-তে প্রয়োগ করা হয়েছে এবং একটি উল্লেখযোগ্য কার্যকারিতা পতন দেখিয়েছে।

নির্ণয়ের কাঠামোঃ

শব্দার্থিক ওভারল্যাপ পক্ষপাত পরীক্ষা করুনঃ ব্যর্থ উদাহরণগুলি বের করুন যেখানে প্রশ্ন এবং সঠিক উত্তর কম কীওয়ার্ড ভাগ করে। এখানে উচ্চ ব্যর্থতার হার নির্দেশ করে যে মডেলটি অগভীর মিলের উপর নির্ভর করেছিল, যা NewsQA-এর নকশা শাস্তি দেয়।
প্রসঙ্গ দৈর্ঘ্য বিশ্লেষণ করুনঃ মডেল নির্ভুলতা (F1) বনাম নথি টোকেন দৈর্ঘ্য প্লট করুন। দীর্ঘ নিবন্ধগুলির জন্য একটি তীক্ষ্ণ পতন দীর্ঘ-পরিসরের নির্ভরতা পরিচালনা করতে মডেলের অক্ষমতার দিকে নির্দেশ করে, যা NewsQA-এর একটি মূল বৈশিষ্ট্য।
উত্তরহীন প্রশ্নগুলিতে মূল্যায়ন করুনঃ উত্তরহীন প্রশ্নগুলির উপসেটে মডেলের নির্ভুলতা/রিকল পরিমাপ করুন। এটি কি উত্তর কল্পনা করে? এটি একটি মডেলের ক্রমাঙ্কন এবং এটি কী জানে না তা জানার ক্ষমতা পরীক্ষা করে।
যুক্তি প্রকার শ্রেণীবিভাগঃ ব্যর্থ প্রশ্নগুলির একটি নমুনা শ্রেণীতে লেবেল করুন: "বহু-বাক্য সংশ্লেষণ," "কোরেফারেন্স রেজোলিউশন," "সময়গত যুক্তি," "কারণগত যুক্তি।" এটি মডেলের অভাবযুক্ত নির্দিষ্ট জ্ঞানীয় দক্ষতাগুলি চিহ্নিত করে।

উদাহরণ ফলাফলঃ এই কাঠামো প্রয়োগ করলে প্রকাশ পেতে পারে: "মডেল X অনুচ্ছেদ জুড়ে সংশ্লেষণের প্রয়োজন এমন ৬০% প্রশ্নে ব্যর্থ হয় (বিভাগ ১) এবং উত্তরহীন প্রশ্নগুলিতে ৯৫% মিথ্যা ইতিবাচক হার রয়েছে। ৩০০ টোকেনের বাইরে নথির দৈর্ঘ্যের সাথে এর কার্যকারিতা রৈখিকভাবে ক্ষয় হয়।" এই সুনির্দিষ্ট নির্ণয় উন্নতির দিকে নির্দেশ করে আরও ভাল ক্রস-অনুচ্ছেদ মনোযোগ প্রক্রিয়া এবং আত্মবিশ্বাস থ্রেশহোল্ডিং-এর দিকে।

8. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা

NewsQA দ্বারা উত্থাপিত চ্যালেঞ্জগুলি সরাসরি বেশ কয়েকটি প্রধান গবেষণা ধারাকে জানিয়েছে:

দীর্ঘ-প্রসঙ্গ মডেলিংঃ NewsQA-এর দীর্ঘ নিবন্ধগুলি RNN/ LSTM-এর সীমাবদ্ধতা তুলে ধরেছে। এই চাহিদা Longformer [Beltagy et al., 2020] এবং BigBird-এর মতো ট্রান্সফরমার-ভিত্তিক মডেলগুলির গ্রহণ এবং পরিমার্জনাকে চালিত করতে সাহায্য করেছে, যা হাজার হাজার টোকেনের নথিগুলির জন্য দক্ষ মনোযোগ প্রক্রিয়া ব্যবহার করে।
শক্তিশালী QA এবং অনিশ্চয়তা অনুমানঃ উত্তরহীন প্রশ্নগুলি সম্প্রদায়কে এমন মডেলগুলি বিকাশ করতে বাধ্য করেছিল যা উত্তর দেওয়া থেকে বিরত থাকতে পারে, গ্রাহক সেবা বা আইনি নথি পর্যালোচনায় বাস্তব-বিশ্বের QA সিস্টেমের নিরাপত্তা এবং নির্ভরযোগ্যতা উন্নত করে।
বহু-উৎস এবং ওপেন-ডোমেইন QAঃ NewsQA প্রশ্নগুলির "তথ্য-অনুসন্ধান" প্রকৃতি ওপেন-ডোমেইন QA-এর জন্য একটি সিঁড়ি, যেখানে একটি সিস্টেমকে একটি বৃহৎ কর্পাস (ওয়েবের মতো) থেকে প্রাসঙ্গিক নথি পুনরুদ্ধার করতে হবে এবং তারপর তাদের উপর ভিত্তি করে জটিল প্রশ্নের উত্তর দিতে হবে, যেমন RAG (Retrieval-Augmented Generation) [Lewis et al., 2020] সিস্টেমে দেখা যায়।
ব্যাখ্যাযোগ্যতা এবং যুক্তি শৃঙ্খলঃ NewsQA-এর যুক্তি প্রশ্নগুলি মোকাবেলা করার জন্য, ভবিষ্যতের কাজগুলি এমন মডেলগুলির দিকে এগিয়েছে যা স্পষ্ট যুক্তি ধাপ তৈরি করে বা সমর্থনকারী বাক্যগুলি হাইলাইট করে, মডেল সিদ্ধান্তগুলিকে আরও ব্যাখ্যাযোগ্য করে তোলে।

ডেটাসেটের মূল চ্যালেঞ্জ—সূক্ষ্ম প্রশ্নের উত্তর দিতে দীর্ঘ, বাস্তব-বিশ্বের আখ্যান বোঝা—স্বয়ংক্রিয় সাংবাদিকতা বিশ্লেষণ, একাডেমিক সাহিত্য পর্যালোচনা এবং এন্টারপ্রাইজ জ্ঞান ভিত্তি জিজ্ঞাসাবাদের প্রয়োগগুলিতে কেন্দ্রীয় থাকে।

9. তথ্যসূত্র

Trischler, A., Wang, T., Yuan, X., Harris, J., Sordoni, A., Bachman, P., & Suleman, K. (2017). NewsQA: A Machine Comprehension Dataset. Proceedings of the 2nd Workshop on Representation Learning for NLP.
Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Chen, D., Bolton, J., & Manning, C. D. (2016). A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL).
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). Teaching Machines to Read and Comprehend. Advances in Neural Information Processing Systems (NeurIPS).
Richardson, M., Burges, C. J., & Renshaw, E. (2013). MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP).