ভাষা নির্বাচন করুন

VNHSGE ইংরেজি ডেটাসেটে ChatGPT, Bing Chat, এবং Bard-এর কর্মদক্ষতার তুলনা

ভিয়েতনামি উচ্চ মাধ্যমিক সমাপনী পরীক্ষার ইংরেজি ডেটাসেটে OpenAI ChatGPT, Microsoft Bing Chat, এবং Google Bard-এর কর্মদক্ষতার একটি তুলনামূলক বিশ্লেষণ।
learn-en.org | PDF Size: 0.1 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - VNHSGE ইংরেজি ডেটাসেটে ChatGPT, Bing Chat, এবং Bard-এর কর্মদক্ষতার তুলনা

1. ভূমিকা

এই গবেষণাপত্রটি তিনটি বিশিষ্ট বৃহৎ ভাষা মডেল (এলএলএম)—OpenAI-এর ChatGPT (GPT-3.5), Microsoft-এর Bing Chat, এবং Google-এর Bard—এর কর্মদক্ষতার তুলনা উপস্থাপন করে ভিয়েতনামি উচ্চ মাধ্যমিক সমাপনী পরীক্ষার (VNHSGE) ইংরেজি ডেটাসেটে। এই গবেষণার লক্ষ্য ভিয়েতনামি উচ্চ মাধ্যমিক ইংরেজি শিক্ষার নির্দিষ্ট প্রেক্ষাপটে তাদের সক্ষমতা মূল্যায়ন করা, বিশেষত যেহেতু ভিয়েতনামে ChatGPT আনুষ্ঠানিকভাবে উপলব্ধ নয়। মডেলের কর্মদক্ষতা, মানব শিক্ষার্থীদের সাথে তুলনা এবং এই শিক্ষামূলক পরিবেশে এলএলএমগুলোর সম্ভাব্য প্রয়োগ সম্পর্কিত তিনটি মূল প্রশ্নের সমাধান এই গবেষণা করে।

2. সম্পর্কিত গবেষণা

এই গবেষণাপত্রটি শিক্ষায় কৃত্রিম বুদ্ধিমত্তার একীকরণের বৃহত্তর প্রেক্ষাপটে নিজেকে স্থাপন করেছে, BERT এবং GPT আর্কিটেকচারের মতো এলএলএমগুলোর রূপান্তরমূলক সম্ভাবনার উপর আলোকপাত করে।

2.1 বৃহৎ ভাষা মডেল

ট্রান্সফরমার আর্কিটেকচার দ্বারা চালিত এলএলএমগুলি ব্যক্তিগতকৃত শিক্ষা, বিষয়বস্তু উন্নয়ন এবং ভাষা অনুবাদ সহ শিক্ষামূলক প্রয়োগে উল্লেখযোগ্য সম্ভাবনা প্রদর্শন করেছে। তাদের মানবসদৃশ কথোপকথন দক্ষতা তাদের ভার্চুয়াল সহকারী এবং অনলাইন শিক্ষা সহায়তা ব্যবস্থার জন্য উপযুক্ত করে তোলে।

3. পদ্ধতিবিদ্যা

মূল পদ্ধতিতে তিনটি এলএলএম-কে VNHSGE ইংরেজি ডেটাসেট প্রদান করা জড়িত। ডেটাসেটটি সম্ভবত উচ্চ মাধ্যমিক স্তরে ইংরেজি ভাষার দক্ষতা মূল্যায়নকারী প্রমিত পরীক্ষার প্রশ্ন নিয়ে গঠিত। আনুষ্ঠানিক উত্তর কীয়ের তুলনায় মডেলগুলোর প্রতিক্রিয়ার নির্ভুলতা দ্বারা কর্মদক্ষতা পরিমাপ করা হয়।

4. পরীক্ষামূলক ফলাফল

Bing Chat কর্মদক্ষতা

৯২.৪%

VNHSGE ইংরেজি ডেটাসেটে নির্ভুলতা

Google Bard কর্মদক্ষতা

৮৬.০%

VNHSGE ইংরেজি ডেটাসেটে নির্ভুলতা

ChatGPT (GPT-3.5) কর্মদক্ষতা

৭৯.২%

VNHSGE ইংরেজি ডেটাসেটে নির্ভুলতা

মূল ফলাফল:

  • কর্মদক্ষতা ক্রম: Microsoft Bing Chat (৯২.৪%) Google Bard (৮৬%) এবং OpenAI ChatGPT (৭৯.২%) উভয়কেই ছাড়িয়ে গেছে।
  • ব্যবহারিক প্রভাব: ভিয়েতনামে ইংরেজি শিক্ষার জন্য, যেখানে ChatGPT-এর প্রবেশাধিকার সীমিত, সেখানে Bing Chat এবং Bard-কে ChatGPT-এর কার্যকর বিকল্প হিসাবে উপস্থাপন করা হয়েছে।
  • মানব তুলনা: একই ইংরেজি দক্ষতা পরীক্ষায় তিনটি এলএলএমই ভিয়েতনামি উচ্চ মাধ্যমিক শিক্ষার্থীদের গড় কর্মদক্ষতাকে ছাড়িয়ে গেছে, যা তাদের উচ্চতর জ্ঞান সম্পদ বা শিক্ষা সহায়ক হিসাবে সম্ভাবনা নির্দেশ করে।

চার্ট বর্ণনা: একটি বার চার্ট এই কর্মদক্ষতা অনুক্রমকে কার্যকরভাবে দৃশ্যায়িত করবে, যেখানে y-অক্ষ নির্ভুলতা (%) এবং x-অক্ষ তিনটি এলএলএম তালিকাভুক্ত করবে। Bing Chat-এর বারটি সবচেয়ে লম্বা হবে, তারপরে Bard, তারপরে ChatGPT। সরাসরি তুলনার জন্য একটি পৃথক বেঞ্চমার্ক লাইন গড় ভিয়েতনামি শিক্ষার্থীর স্কোর নির্দেশ করতে পারে।

5. আলোচনা

ফলাফলগুলি ইংরেজি ভাষা শিক্ষার সরঞ্জাম হিসাবে বাণিজ্যিকভাবে উপলব্ধ এলএলএমগুলোর উল্লেখযোগ্য সম্ভাবনা প্রদর্শন করে। Bing Chat-এর উচ্চতর কর্মদক্ষতা একটি সার্চ ইঞ্জিনের সাথে এর একীকরণের কারণে হতে পারে, যা আরও সাম্প্রতিক বা প্রসঙ্গ-নির্দিষ্ট তথ্যে প্রবেশাধিকার প্রদান করে। সমস্ত মডেল মানব শিক্ষার্থীদের ছাড়িয়ে যাওয়ার বিষয়টি একটি প্যারাডাইম শিফটকে তুলে ধরে, যেখানে কৃত্রিম বুদ্ধিমত্তা কেবল একজন সহকারী হিসাবে নয়, একটি উচ্চ-দক্ষতার রেফারেন্স পয়েন্ট হিসাবে কাজ করতে পারে, সম্ভাব্যভাবে নির্দেশনা ব্যক্তিগতকরণ এবং তাৎক্ষণিক, নির্ভুল প্রতিক্রিয়া প্রদান করতে পারে।

6. মূল বিশ্লেষণ ও বিশেষজ্ঞ মন্তব্য

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি কেবল একটি বেঞ্চমার্ক নয়; এটি একটি বাজার সংকেত। একটি অঞ্চলে (ভিয়েতনাম) যেখানে ফ্ল্যাগশিপ মডেল (ChatGPT) সীমাবদ্ধ, সেখানে গবেষণা সক্রিয়ভাবে কার্যকরী বিকল্পগুলি (Bing Chat, Bard) সনাক্ত করে এবং যাচাই করে, শিক্ষায় কৃত্রিম বুদ্ধিমত্তা গ্রহণের জন্য একটি ব্যবহারিক, প্রয়োগ-প্রথম পদ্ধতি প্রকাশ করে। সমস্ত এলএলএম গড় শিক্ষার্থীর কর্মদক্ষতাকে ছাড়িয়ে যাওয়ার সন্ধানটি কেবল একটি একাডেমিক বিষয় নয়—এটি একটি বিঘ্নিত শক্তি, যা পরামর্শ দেয় যে কৃত্রিম বুদ্ধিমত্তার ভূমিকা একটি সম্পূরক সরঞ্জাম থেকে একটি প্রাথমিক শিক্ষামূলক এজেন্ট বা বেঞ্চমার্কে বিবর্তিত হতে পারে।

যুক্তিসঙ্গত প্রবাহ ও শক্তি: পদ্ধতিটি সরল এবং প্রভাবশালী: মূল্যায়ন মেট্রিক হিসাবে একটি জাতীয়ভাবে স্বীকৃত, উচ্চ-স্টেক পরীক্ষা ব্যবহার করুন। এটি শিক্ষক এবং নীতিনির্ধারকদের জন্য তাৎক্ষণিক, সম্পর্কিত বিশ্বাসযোগ্যতা প্রদান করে। তাত্ত্বিক শ্রেষ্ঠত্বের চেয়ে প্রবেশাধিকার (“যা আসলে উপলব্ধ”) এর উপর ফোকাস একটি প্রধান শক্তি, যা গবেষণাকে তাৎক্ষণিকভাবে কার্যকর করে তোলে। এটি স্ট্যানফোর্ড ইনস্টিটিউট ফর হিউম্যান-সেন্টার্ড এআই-এর মতো প্রতিষ্ঠানগুলোর দ্বারা উল্লিখিত প্রবণতার সাথে সামঞ্জস্যপূর্ণ, যা বাস্তব-বিশ্ব, সীমাবদ্ধ প্রেক্ষাপটে কৃত্রিম বুদ্ধিমত্তা মূল্যায়নের উপর জোর দেয়।

ত্রুটি ও সমালোচনামূলক ফাঁক: বিশ্লেষণটি পৃষ্ঠতল-স্তরের। এটি স্কোর রিপোর্ট করে কিন্তু ত্রুটির প্রকৃতি সম্পর্কে খুব কমই দেয়। মডেলগুলি ব্যাকরণ, পড়া বোঝা, নাকি সাংস্কৃতিক সূক্ষ্মতায় ব্যর্থ হয়েছে? এই ব্ল্যাক-বক্স মূল্যায়ন ক্ষেত্রের নিজস্ব একটি সীমাবদ্ধতার প্রতিফলন ঘটায়। তদুপরি, একটি "গড়" শিক্ষার্থীর স্কোরের সাথে তুলনা করা পরিসংখ্যানগতভাবে অগভীর। সাইকোমেট্রিক্সে ব্যবহৃত আইটেম-রেসপন্স থিওরির অনুরূপ একটি আরও শক্তিশালী বিশ্লেষণ, পরীক্ষার নির্দিষ্ট দক্ষতার স্তরে মডেলের দক্ষতা ম্যাপ করতে পারে। গবেষণাপত্রটি কিভাবে এই সরঞ্জামগুলিকে একীভূত করা যায় সেই সমালোচনামূলক বিষয়টিও সম্পূর্ণরূপে এড়িয়ে যায়। কেবল একটি উচ্চ-স্কোরিং এআই থাকা কার্যকর শিক্ষাবিদ্যায় অনুবাদ করে না, এটি International Journal of Artificial Intelligence in Education-এ ব্যাপকভাবে নথিভুক্ত একটি চ্যালেঞ্জ।

কার্যকরী অন্তর্দৃষ্টি: অনুরূপ সীমিত-প্রবেশাধিকার বাজারের শিক্ষকদের জন্য, এই গবেষণাপত্রটি একটি খেলার বই: ১) স্থানীয়ভাবে বেঞ্চমার্ক করুন: বিশ্বব্যাপী হাইপের উপর নির্ভর করবেন না; আপনার নির্দিষ্ট পাঠ্যক্রমের বিরুদ্ধে উপলব্ধ সরঞ্জামগুলি পরীক্ষা করুন। ২) নেতার বাইরে দেখুন: প্রতিযোগিতামূলক মডেলগুলি পর্যাপ্ত বা প্রসঙ্গগতভাবে ভাল কর্মদক্ষতা প্রদান করতে পারে। ৩) "কীভাবে" এর উপর ফোকাস করুন: পরবর্তী জরুরি গবেষণা পর্যায়টি যদি এলএলএম কাজ করে থেকে কীভাবে দায়িত্বের সাথে তাদের মোতায়েন করতে স্থানান্তরিত করতে হবে—উত্তর পুনরুদ্ধারের চেয়ে সমালোচনামূলক চিন্তাভাবনাকে উত্সাহিত করে এমন প্রম্পট ডিজাইন করা, এআই-সমৃদ্ধ মূল্যায়নের জন্য কাঠামো তৈরি করা এবং প্রবেশাধিকারে সমতা মোকাবেলা করা। আসল বিজয় হবে একটি উচ্চতর এআই পরীক্ষার স্কোর নয়, বরং উন্নত মানব শিক্ষার ফলাফল।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো

যদিও গবেষণাপত্রটি মডেল আর্কিটেকচারে গভীরভাবে যায় না, কর্মদক্ষতাকে সম্ভাব্যতা এবং কাজের নির্ভুলতার লেন্সের মাধ্যমে ধারণা করা যেতে পারে। মূল মূল্যায়ন মেট্রিক হল নির্ভুলতা ($Acc$), যা সঠিকভাবে উত্তর দেওয়া আইটেমের সংখ্যার সাথে মোট আইটেম সংখ্যা ($N$) এর অনুপাত হিসাবে সংজ্ঞায়িত করা হয়।

$Acc = \frac{\text{সঠিক প্রতিক্রিয়ার সংখ্যা}}{N} \times 100\%$

একটি আরও সূক্ষ্ম বোঝার জন্য, একজন সম্ভাব্য উত্তরের উপর একটি বহু-পছন্দ পরীক্ষার আইটেমে একটি এলএলএমের কর্মদক্ষতাকে সম্ভাব্যতা বন্টন হিসাবে মডেল করতে পারে। একটি অপশন সেট $O$ থেকে সঠিক উত্তর $c$ নির্বাচন করার মডেলের সম্ভাবনা $P_M(c | q, \theta)$ হতে দিন, যেখানে $q$ হল প্রশ্ন এবং $\theta$ মডেলের প্যারামিটার এবং কোনও পুনরুদ্ধারকৃত প্রসঙ্গকে উপস্থাপন করে (বিশেষত Bing Chat-এর সার্চ অগমেন্টেশনের জন্য প্রাসঙ্গিক)। চূড়ান্ত স্কোর হল সমস্ত আইটেম জুড়ে এই সম্ভাবনাগুলির একটি সমষ্টি। মডেলগুলোর মধ্যে কর্মদক্ষতার ব্যবধান তাদের অভ্যন্তরীণ উপস্থাপনা $\theta$ বা $P_M$ তৈরি করার জন্য তাদের পুনরুদ্ধার-অগমেন্টেশন মেকানিজম $R(q)$-এ উল্লেখযোগ্য পার্থক্য নির্দেশ করে।

$P_{\text{BingChat}}(c|q) \approx P(c|q, \theta_{\text{Bing}}, R_{\text{Web}}(q))$

$P_{\text{ChatGPT}}(c|q) \approx P(c|q, \theta_{\text{GPT-3.5}})$

8. বিশ্লেষণ কাঠামো: একটি নন-কোড কেস স্টাডি

পরিস্থিতি: হ্যানয়ের একজন ইংরেজি বিভাগের প্রধান গ্রেড ১২ শিক্ষার্থীদের সহায়তার জন্য এআই সরঞ্জাম মূল্যায়ন করতে চান।

কাঠামো প্রয়োগ:

  1. স্থানীয় উদ্দেশ্য নির্ধারণ করুন: VNHSGE-এর ব্যাকরণ এবং পড়া বোঝার বিভাগে শিক্ষার্থীদের কর্মদক্ষতা উন্নত করুন।
  2. সরঞ্জাম সনাক্তকরণ ও প্রবেশাধিকার পরীক্ষা: উপলব্ধ সরঞ্জাম তালিকাভুক্ত করুন: Bing Chat (প্রবেশযোগ্য), Google Bard (প্রবেশযোগ্য), ChatGPT (VPN প্রয়োজন, আনুষ্ঠানিকভাবে সমর্থিত নয়)। এই গবেষণাপত্রের ফলাফলের ভিত্তিতে প্রথম দুটিকে অগ্রাধিকার দিন।
  3. সূক্ষ্ম বেঞ্চমার্কিং: শুধু পুরো পুরানো প্রশ্নপত্র ব্যবহার করবেন না। একটি ফোকাসড ডায়াগনস্টিক টেস্ট তৈরি করুন:
    • সাবসেট A: ২০টি ব্যাকরণ প্রশ্ন (ক্রিয়ার কাল, অব্যয়)।
    • সাবসেট B: ২০টি পড়া বোঝার প্রশ্ন।
    • সাবসেট A এবং B Bing Chat এবং Bard-কে প্রদান করুন। শুধু নির্ভুলতা নয়, তাদের উত্তরে প্রদত্ত যুক্তিও রেকর্ড করুন।
  4. ত্রুটি বিশ্লেষণ ও ম্যাপিং: প্রতিটি এআই দ্বারা করা ত্রুটিগুলি শ্রেণীবদ্ধ করুন। উদাহরণস্বরূপ: "Bing Chat ৩/৫টি সাবজাংকটিভ মুড প্রশ্নে ব্যর্থ হয়েছে; Bard অনুমানমূলক প্রশ্নের জন্য সংক্ষিপ্ত কিন্তু কখনও কখনও অসম্পূর্ণ যুক্তি দিয়েছে।"
  5. একীকরণ নকশা: বিশ্লেষণের ভিত্তিতে: উচ্চতর নির্ভুলতার কারণে ব্যাকরণ ড্রিল ব্যাখ্যার জন্য Bing Chat ব্যবহার করুন। পড়া বোঝার জন্য Bard-এর প্রতিক্রিয়াগুলিকে "নমুনা উত্তর" হিসাবে ব্যবহার করুন, কিন্তু একটি শিক্ষার্থী ওয়ার্কশিট ডিজাইন করুন যা জিজ্ঞাসা করে: "Bard-এর সারসংক্ষেপটি আপনার নিজেরটির সাথে তুলনা করুন। এটি কী মিস করেছে?" এটি নিষ্ক্রিয় গ্রহণের পরিবর্তে সমালোচনামূলক মূল্যায়নকে উত্সাহিত করে।

এই কাঠামোটি "কোন এআই ভাল" থেকে "আমাদের শিক্ষাগত সীমাবদ্ধতার মধ্যে আমরা কীভাবে প্রতিটি এআই-এর শক্তিগুলি কৌশলগতভাবে ব্যবহার করতে পারি" তে চলে যায়।

9. ভবিষ্যৎ প্রয়োগ ও গবেষণার দিকনির্দেশনা

তাৎক্ষণিক প্রয়োগ:

  • ব্যক্তিগতকৃত শিক্ষা ব্যবস্থা: VNHSGE পাঠ্যক্রমের সাথে সামঞ্জস্যপূর্ণ অনুশীলন এবং ব্যাখ্যা চাহিদা অনুযায়ী প্রদান করে এমন এআই শিক্ষকদের জন্য ব্যাকবোন হিসাবে Bing Chat বা Bard মোতায়েন করা।
  • স্বয়ংক্রিয় উপাদান উৎপাদন: জাতীয় পাঠ্যক্রমের সাথে সামঞ্জস্যপূর্ণ অনুশীলনের প্রশ্ন, নমুনা প্রবন্ধ এবং জটিল পাঠ্যের সরলীকৃত ব্যাখ্যা তৈরি করতে এই এলএলএমগুলি ব্যবহার করা।
  • শিক্ষক সহায়তা সরঞ্জাম: শিক্ষকদের গ্রেডিং, শিক্ষার্থীদের লেখার উপর প্রতিক্রিয়া প্রদান এবং পাঠ পরিকল্পনা ধারণা তৈরি করতে সহায়তা করা।

সমালোচনামূলক গবেষণার দিকনির্দেশনা:

  • শিক্ষাবিদ্যার জন্য প্রম্পট ইঞ্জিনিয়ারিং: এমন প্রম্পট ডিজাইনের উপর পদ্ধতিগত গবেষণা যা এলএলএমগুলিকে শুধু উত্তর দেওয়ার পরিবর্তে যুক্তি ব্যাখ্যা করতে, শিক্ষার্থীদের ভুল ধারণা সনাক্ত করতে বা শেখার ভিত্তি তৈরি করতে বাধ্য করে।
  • দীর্ঘমেয়াদী প্রভাব গবেষণা: একটি সেমিস্টার বা বছরের বেশি সময় ধরে একটি এলএলএম শিক্ষক ব্যবহার করা কি আসলে শিক্ষার্থীদের শেখার ফলাফল এবং পরীক্ষার স্কোর উন্নত করে? নিয়ন্ত্রিত গবেষণা প্রয়োজন।
  • মাল্টিমোডাল মূল্যায়ন: ভবিষ্যতে উচ্চ-স্টেক পরীক্ষায় মৌখিক উপাদান অন্তর্ভুক্ত হতে পারে। একটি শিক্ষামূলক প্রেক্ষাপটে এলএলএমগুলোর বক্তৃতা স্বীকৃতি এবং উৎপাদন ক্ষমতা মূল্যায়ন করা পরবর্তী সীমান্ত।
  • সমতা ও প্রবেশাধিকার: ডিজিটাল বিভাজন প্রসারিত হওয়ার ঝুঁকি প্রশমিত করার গবেষণা—নিশ্চিত করা যে সুবিধাগুলি কম সম্পদযুক্ত স্কুলের শিক্ষার্থীদের কাছে পৌঁছায় যাদের নির্ভরযোগ্য ইন্টারনেট বা ডিভাইস নেই।
  • সাংস্কৃতিক ও প্রসঙ্গগত অভিযোজন: ফাইন-টিউনিং বা পুনরুদ্ধার মেকানিজম বিকাশ যা বিশ্বব্যাপী এলএলএমগুলিকে স্থানীয় ভিয়েতনামি শিক্ষামূলক উপকরণ, ইতিহাস এবং সংস্কৃতি আরও ভালভাবে বুঝতে এবং উল্লেখ করতে দেয়।

10. তথ্যসূত্র

  1. Dao, X. Q. (2023). Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard. arXiv preprint arXiv:2307.02288v3.
  2. OpenAI. (2023). ChatGPT: Optimizing Language Models for Dialogue. OpenAI Blog.
  3. Kasneci, E., et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274.
  4. Kung, T. H., et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2), e0000198.
  5. Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). The AI Index 2023 Annual Report. Stanford University.
  6. International Society for Artificial Intelligence in Education (IAIED). International Journal of Artificial Intelligence in Education.
  7. Thorp, H. H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313.