SQuAD: পাঠ্য বোঝার জন্য ১,০০,০০০+ প্রশ্ন

1. ভূমিকা ও সারসংক্ষেপ

এই নথিটি স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের রাজপুরকার ও সহকর্মীদের ২০১৬ সালের যুগান্তকারী গবেষণাপত্র "SQuAD: পাঠ্য বোঝার জন্য ১,০০,০০০+ প্রশ্ন" বিশ্লেষণ করে। এই গবেষণাপত্রটি স্ট্যানফোর্ড প্রশ্নোত্তর ডেটাসেট (SQuAD) উপস্থাপন করে, যা মেশিন রিডিং কম্প্রিহেনশনের (MRC) জন্য একটি বৃহৎ-স্কেল, উচ্চ-মানের বেঞ্চমার্ক। SQuAD-এর আগে, এই ক্ষেত্রটি এমন ডেটাসেট দ্বারা বাধাগ্রস্ত ছিল যা হয় আধুনিক, ডেটা-ক্ষুধার্ত মডেলগুলির জন্য খুব ছোট ছিল, অথবা সিন্থেটিক ছিল এবং প্রকৃত বোঝার কাজ প্রতিফলিত করত না। SQuAD এই ফাঁকটি পূরণ করে উইকিপিডিয়া নিবন্ধের উপর ভিত্তি করে ১,০০,০০০-এরও বেশি প্রশ্ন-উত্তর জোড়া প্রদান করে, যেখানে প্রতিটি উত্তর সংশ্লিষ্ট অনুচ্ছেদ থেকে একটি অবিচ্ছিন্ন পাঠ্য স্প্যান (একটি অংশ)। এই নকশা পছন্দ একটি সুসংজ্ঞায়িত, তবুও চ্যালেঞ্জিং কাজ তৈরি করেছিল যা তারপর থেকে এনএলপি মডেল মূল্যায়নের একটি ভিত্তিপ্রস্তর হয়ে উঠেছে।

2. SQuAD ডেটাসেট

2.1 ডেটাসেট নির্মাণ ও পরিসংখ্যান

SQuAD নির্মাণ করা হয়েছিল অ্যামাজন মেকানিক্যাল টার্ক-এ ক্রাউডওয়ার্কারদের ব্যবহার করে। শ্রমিকদের একটি উইকিপিডিয়া অনুচ্ছেদ দেওয়া হয়েছিল এবং সেই অনুচ্ছেদের মধ্যে একটি অংশ দ্বারা উত্তর দেওয়া যায় এমন প্রশ্ন জিজ্ঞাসা করতে এবং উত্তর স্প্যানটি হাইলাইট করতে বলা হয়েছিল। এই প্রক্রিয়ার ফলে নিম্নলিখিত মূল পরিসংখ্যান সহ একটি ডেটাসেট তৈরি হয়েছিল:

১০৭,৭৮৫

প্রশ্ন-উত্তর জোড়া

৫৩৬

উইকিপিডিয়া নিবন্ধ

~২০x

MCTest-এর চেয়ে বড়

ডেটাসেটটি একটি প্রশিক্ষণ সেট (৮৭,৫৯৯ উদাহরণ), একটি উন্নয়ন সেট (১০,৫৭০ উদাহরণ) এবং অফিসিয়াল লিডারবোর্ড মূল্যায়নের জন্য ব্যবহৃত একটি লুকানো পরীক্ষা সেটে বিভক্ত।

2.2 মূল বৈশিষ্ট্য ও নকশা

SQuAD-এর মূল উদ্ভাবনটি এর স্প্যান-ভিত্তিক উত্তর গঠনে নিহিত। বহু-পছন্দ প্রশ্ন (যেমন, MCTest) বা ক্লোজ-স্টাইল প্রশ্ন (যেমন, CNN/Daily Mail ডেটাসেট) এর বিপরীতে, SQuAD-এর জন্য মডেলগুলিকে একটি অনুচ্ছেদের মধ্যে উত্তরের সঠিক শুরু এবং শেষ সূচক চিহ্নিত করতে হয়। এই গঠন:

কঠিনতা বাড়ায়: মডেলগুলিকে কয়েকটি প্রার্থী নয়, সমস্ত সম্ভাব্য স্প্যান মূল্যায়ন করতে হবে।
সুনির্দিষ্ট মূল্যায়ন সক্ষম করে: উত্তরগুলি উদ্দেশ্যমূলক (পাঠ্য মিল), যা সঠিক মিল (EM) এবং F1 স্কোর (টোকেন ওভারল্যাপ) এর মতো মেট্রিক ব্যবহার করে স্বয়ংক্রিয় মূল্যায়নের অনুমতি দেয়।
বাস্তবসম্মত প্রশ্নোত্তর প্রতিফলিত করে: বাস্তব-বিশ্বের সেটিংয়ে অনেক তথ্যমূলক প্রশ্নের উত্তর পাঠ্য অংশ হয়।

গবেষণাপত্রের চিত্র ১-এ নমুনা প্রশ্ন-উত্তর জোড়া চিত্রিত করা হয়েছে, যেমন "বৃষ্টিপাত পড়ার কারণ কী?" যার উত্তর অনুচ্ছেদ থেকে নেওয়া "মাধ্যাকর্ষণ"।

3. বিশ্লেষণ ও পদ্ধতি

3.1 প্রশ্নের কঠিনতা ও যুক্তির প্রকার

লেখকরা প্রশ্নগুলির একটি গুণগত এবং পরিমাণগত বিশ্লেষণ করেছিলেন। তারা প্রশ্ন এবং উত্তর বাক্যের মধ্যে ভাষাগত সম্পর্কের ভিত্তিতে প্রশ্নগুলিকে শ্রেণীবদ্ধ করেছিলেন, নির্ভরতা গাছের দূরত্ব ব্যবহার করে। উদাহরণস্বরূপ, তারা নির্ভরতা পার্স গাছে প্রশ্ন শব্দ (যেমন, "কী," "কোথায়") এবং উত্তর স্প্যানের প্রধান শব্দের মধ্যে দূরত্ব পরিমাপ করেছিলেন। তারা দেখেছেন যে দীর্ঘ নির্ভরতা পথ বা আরও জটিল বাক্য গঠনমূলক রূপান্তর (যেমন, প্যারাফ্রেজিং) প্রয়োজন এমন প্রশ্নগুলি তাদের বেসলাইন মডেলের জন্য আরও চ্যালেঞ্জিং ছিল।

3.2 বেসলাইন মডেল: লজিস্টিক রিগ্রেশন

একটি বেসলাইন স্থাপন করার জন্য, লেখকরা একটি লজিস্টিক রিগ্রেশন মডেল প্রয়োগ করেছিলেন। একটি অনুচ্ছেদের প্রতিটি প্রার্থী স্প্যানের জন্য, মডেলটি সমৃদ্ধ বৈশিষ্ট্যগুলির একটি সেটের উপর ভিত্তি করে একটি স্কোর গণনা করেছিল, যার মধ্যে রয়েছে:

শব্দভাণ্ডারগত বৈশিষ্ট্য: প্রশ্ন এবং স্প্যানের মধ্যে শব্দ ওভারল্যাপ, এন-গ্রাম মিল।
বাক্য গঠনমূলক বৈশিষ্ট্য: প্রশ্ন শব্দগুলিকে প্রার্থী উত্তর শব্দের সাথে সংযোগকারী নির্ভরতা গাছ পথ বৈশিষ্ট্য।
সারিবদ্ধকরণ বৈশিষ্ট্য: প্রশ্ন এবং প্রার্থী ধারণকারী বাক্যটি কতটা ভালোভাবে সারিবদ্ধ হয় তার পরিমাপ।

মডেলের উদ্দেশ্য ছিল সর্বোচ্চ স্কোর সহ স্প্যানটি নির্বাচন করা। এই বৈশিষ্ট্য-ইঞ্জিনিয়ার্ড মডেলের পারফরম্যান্স সম্প্রদায়ের জন্য একটি গুরুত্বপূর্ণ নন-নিউরাল বেসলাইন প্রদান করেছিল।

4. পরীক্ষামূলক ফলাফল

গবেষণাপত্রটি নিম্নলিখিত মূল ফলাফলগুলি রিপোর্ট করে:

বেসলাইন (সাধারণ শব্দ মিল): প্রায় ২০% F1 স্কোর অর্জন করেছিল।
লজিস্টিক রিগ্রেশন মডেল: ৫১.০% F1 স্কোর এবং ৪০.০% সঠিক মিল স্কোর অর্জন করেছিল। এটি একটি উল্লেখযোগ্য উন্নতি প্রতিনিধিত্ব করেছিল, যা বাক্য গঠনমূলক এবং শব্দভাণ্ডারগত বৈশিষ্ট্যগুলির মূল্য প্রদর্শন করেছিল।
মানুষের পারফরম্যান্স: একটি উপসেটে মূল্যায়ন করা হলে, মানুষের অ্যানোটেটররা ৮৬.৮% F1 স্কোর এবং ৭৬.২% EM অর্জন করেছিল।

শক্তিশালী বেসলাইন (৫১%) এবং মানুষের পারফরম্যান্স (৮৭%) এর মধ্যে বড় ব্যবধান স্পষ্টভাবে দেখিয়েছিল যে SQuAD ভবিষ্যতের গবেষণার জন্য একটি উল্লেখযোগ্য এবং অর্থপূর্ণ চ্যালেঞ্জ উপস্থাপন করেছিল।

5. প্রযুক্তিগত বিবরণ ও কাঠামো

SQuAD-এ মূল মডেলিং চ্যালেঞ্জটি একটি স্প্যান নির্বাচন সমস্যা হিসাবে চিহ্নিত করা হয়েছে। $n$ টোকেন $[p_1, p_2, ..., p_n]$ সহ একটি অনুচ্ছেদ $P$ এবং একটি প্রশ্ন $Q$ দেওয়া হলে, লক্ষ্য হল উত্তর স্প্যানের শুরু সূচক $i$ এবং শেষ সূচক $j$ (যেখানে $1 \le i \le j \le n$) ভবিষ্যদ্বাণী করা।

লজিস্টিক রিগ্রেশন মডেল একটি বৈশিষ্ট্য ভেক্টর $\phi(P, Q, i, j)$ এবং একটি ওজন ভেক্টর $w$ ব্যবহার করে একটি প্রার্থী স্প্যান $(i, j)$ স্কোর করে:

$\text{score}(i, j) = w^T \cdot \phi(P, Q, i, j)$

মডেলটি সঠিক স্প্যানের সম্ভাবনা সর্বাধিক করার জন্য প্রশিক্ষিত। মূল বৈশিষ্ট্য বিভাগগুলির মধ্যে অন্তর্ভুক্ত ছিল:

টার্ম ম্যাচ: প্রশ্ন শব্দগুলির সংখ্যা যা প্রার্থী স্প্যান এবং এর প্রসঙ্গে উপস্থিত হয়।
নির্ভরতা গাছ পথ: প্রশ্ন শব্দগুলির (যেমন "কী" বা "কে") এবং প্রার্থী উত্তরের প্রধান শব্দের মধ্যে নির্ভরতা গাছের সংক্ষিপ্ততম পথ এনকোড করে। পথটি নির্ভরতা লেবেল এবং শব্দ রূপগুলির একটি স্ট্রিং হিসাবে উপস্থাপিত হয়।
উত্তরের ধরন: প্রশ্ন শব্দের উপর ভিত্তি করে হিউরিস্টিক্স (যেমন, "কে" এর জন্য একজন ব্যক্তি, "কোথায়" এর জন্য একটি অবস্থান আশা করা)।

6. সমালোচনামূলক বিশ্লেষণ ও শিল্প দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: SQuAD শুধু আরেকটি ডেটাসেট ছিল না; এটি একটি কৌশলগত অনুঘটক ছিল। একটি বৃহৎ-স্কেল, স্বয়ংক্রিয়ভাবে মূল্যায়নযোগ্য, তবুও সত্যিই কঠিন বেঞ্চমার্ক প্রদান করে, এটি রিডিং কম্প্রিহেনশনের জন্য সেই কাজটি করেছিল যা ইমেজনেট কম্পিউটার ভিশনের জন্য করেছিল: এটি একটি মানসম্মত, উচ্চ-স্টেকের খেলার মাঠ তৈরি করেছিল যা সম্পূর্ণ এনএলপি সম্প্রদায়কে তার প্রকৌশল এবং গবেষণা শক্তি কেন্দ্রীভূত করতে বাধ্য করেছিল। ৫১% F1 বেসলাইনটি একটি ব্যর্থতা ছিল না—এটি ছিল একটি দূরবর্তী পাহাড়ে দারুণভাবে স্থাপিত একটি পতাকা, যা এই ক্ষেত্রটিকে আরোহণ করার সাহস দেখাতে আহ্বান জানাচ্ছিল।

যুক্তিপূর্ণ প্রবাহ: গবেষণাপত্রের যুক্তি অত্যন্ত উদ্যোগী। প্রথমে, বাজারের ফাঁক নির্ণয় করুন: বিদ্যমান RC ডেটাসেটগুলি হয় বুটিক এবং ক্ষুদ্র (MCTest) অথবা বিশাল কিন্তু সিন্থেটিক এবং তুচ্ছ (CNN/DM)। তারপর, পণ্যের স্পেসিফিকেশন সংজ্ঞায়িত করুন: এটি অবশ্যই বৃহৎ (নিউরাল নেটওয়ার্কের জন্য), উচ্চ-মানের (মানুষ দ্বারা তৈরি), এবং উদ্দেশ্যমূলক মূল্যায়ন (স্প্যান-ভিত্তিক উত্তর) থাকতে হবে। ক্রাউডসোর্সিংয়ের মাধ্যমে এটি তৈরি করুন। অবশেষে, পণ্য যাচাই করুন: একটি শক্তিশালী বেসলাইন দেখান যা সম্ভাব্যতা প্রমাণ করার জন্য যথেষ্ট ভালো কিন্তু একটি বিশাল পারফরম্যান্স ব্যবধান রেখে যাওয়ার জন্য যথেষ্ট খারাপ, স্পষ্টভাবে এটিকে একটি "চ্যালেঞ্জ সমস্যা" হিসাবে ফ্রেম করা। এটি প্ল্যাটফর্ম তৈরির পাঠ্যপুস্তক উদাহরণ।

শক্তি ও ত্রুটি: প্রাথমিক শক্তি হল এর মনুমেন্টাল প্রভাব। SQuAD সরাসরি ট্রান্সফরমার/BERT বিপ্লবকে জ্বালানি দিয়েছে; মডেলগুলি আক্ষরিক অর্থেই তাদের SQuAD স্কোর দ্বারা বেঞ্চমার্ক করা হয়েছিল। যাইহোক, এর ত্রুটিগুলি পরে স্পষ্ট হয়ে ওঠে। স্প্যান-ভিত্তিক সীমাবদ্ধতা একটি দ্বি-ধারালো তরোয়াল—এটি পরিষ্কার মূল্যায়ন সক্ষম করে কিন্তু কাজের বাস্তবতা সীমিত করে। অনেক বাস্তব-বিশ্বের প্রশ্নের জন্য সংশ্লেষণ, অনুমান, বা বহু-স্প্যান উত্তর প্রয়োজন, যা SQuAD বাদ দেয়। এর ফলে এমন মডেলগুলি তৈরি হয়েছিল যা বিশেষজ্ঞ "স্প্যান শিকারী" হয়ে ওঠে, কখনও কখনও গভীর বোঝার ছাড়াই, একটি ঘটনা যা পরে "What does BERT look at?" (Clark et al., 2019) এর মতো কাজগুলিতে অন্বেষণ করা হয়েছিল। তদুপরি, ডেটাসেটের উইকিপিডিয়ার উপর ফোকাস পক্ষপাত এবং একটি জ্ঞান কাটঅফ প্রবর্তন করেছিল।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারী এবং গবেষকদের জন্য, পাঠটি হল একটি গবেষণা কৌশল হিসাবে ডেটাসেট নকশায়। আপনি যদি একটি উপক্ষেত্রে অগ্রগতি চালাতে চান, তবে শুধুমাত্র একটি সামান্য ভালো মডেল তৈরি করবেন না; চূড়ান্ত বেঞ্চমার্ক তৈরি করুন। নিশ্চিত করুন যে এটির একটি পরিষ্কার, স্কেলযোগ্য মূল্যায়ন মেট্রিক রয়েছে। একটি শক্তিশালী কিন্তু পরাজিতযোগ্য বেসলাইন দিয়ে এটি শুরু করুন। SQuAD-এর সাফল্যও একটি একক বেঞ্চমার্কে অত্যধিক অপ্টিমাইজেশনের বিরুদ্ধে সতর্ক করে, একটি পাঠ যা ক্ষেত্রটি পরবর্তীতে আরও বৈচিত্র্যময় এবং চ্যালেঞ্জিং উত্তরসূরি যেমন HotpotQA (মাল্টি-হপ যুক্তি) এবং Natural Questions (বাস্তব ব্যবহারকারী প্রশ্ন) তৈরি করার সাথে শিখেছিল। গবেষণাপত্রটি আমাদের শেখায় যে সবচেয়ে প্রভাবশালী গবেষণা প্রায়শই শুধুমাত্র একটি উত্তর নয়, বরং সম্ভাব্য সর্বোত্তম প্রশ্ন প্রদান করে।

7. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

SQuAD প্যারাডাইম এনএলপি এবং এআই-এর অসংখ্য দিককে প্রভাবিত করেছে:

মডেল আর্কিটেকচার উদ্ভাবন: এটি সরাসরি BiDAF, QANet এবং ট্রান্সফরমারগুলিতে অ্যাটেনশন মেকানিজমের মতো আর্কিটেকচারগুলিকে অনুপ্রাণিত করেছিল যা BERT-এর জন্য গুরুত্বপূর্ণ ছিল।
স্প্যান এক্সট্রাকশনের বাইরে: উত্তরসূরি ডেটাসেটগুলি সুযোগ প্রসারিত করেছে। Natural Questions (NQ) বাস্তব গুগল অনুসন্ধান প্রশ্ন ব্যবহার করে এবং দীর্ঘ, হ্যাঁ/না, বা নাল উত্তরগুলির অনুমতি দেয়। HotpotQA এর জন্য মাল্টি-ডকুমেন্ট, মাল্টি-হপ যুক্তি প্রয়োজন। CoQA এবং QuAC কথোপকথনমূলক QA প্রবর্তন করে।
ডোমেন-নির্দিষ্ট QA: SQuAD ফরম্যাটটি আইনি নথি (LexGLUE), চিকিৎসা পাঠ্য (PubMedQA), এবং প্রযুক্তিগত সহায়তার জন্য অভিযোজিত হয়েছে।
ব্যাখ্যাযোগ্য এআই (XAI): স্প্যান-ভিত্তিক উত্তর একটি প্রাকৃতিক, যদিও সীমিত, ব্যাখ্যার ফর্ম প্রদান করে ("উত্তরটি এখানে")। গবেষণা আরও ব্যাপক যুক্তি তৈরি করতে এর উপর ভিত্তি করে গড়ে উঠেছে।
নলেজ বেসের সাথে একীকরণ: ভবিষ্যতের সিস্টেমগুলি সম্ভবত SQuAD-স্টাইল পাঠ্য বোঝার সাথে কাঠামোগত জ্ঞান পুনরুদ্ধারকে সংকরিত করবে, প্রকৃত জ্ঞান-ভিত্তিক প্রশ্নোত্তরের দিকে এগিয়ে যাবে যেমন গুগলের REALM বা ফেসবুকের RAG প্রকল্পগুলিতে কল্পনা করা হয়েছে।

8. তথ্যসূত্র

Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2383–2392.
Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition.
Marcus, M. P., Marcinkiewicz, M. A., & Santorini, B. (1993). Building a large annotated corpus of English: The Penn Treebank. Computational linguistics, 19(2), 313-330.
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). Teaching machines to read and comprehend. Advances in neural information processing systems, 28.
Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What does BERT look at? An analysis of BERT's attention. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP.
Kwiatkowski, T., Palomaki, J., Redfield, O., Collins, M., Parikh, A., Alberti, C., ... & Petrov, S. (2019). Natural Questions: a Benchmark for Question Answering Research. Transactions of the Association for Computational Linguistics, 7, 452-466.