ভাষা নির্বাচন করুন

নিউরাল ল্যাঙ্গুয়েজ মডেলের দ্বিতীয় ভাষা অর্জন: একটি ভাষাতাত্ত্বিক দৃষ্টিভঙ্গি

নিউরাল ল্যাঙ্গুয়েজ মডেল কীভাবে দ্বিতীয় ভাষা অর্জন করে তার বিশ্লেষণ, আন্তঃভাষিক স্থানান্তর, প্রথম ভাষার প্রভাব এবং ভাষাগত সাধারণীকরণ পরীক্ষা করা।
learn-en.org | PDF Size: 0.5 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - নিউরাল ল্যাঙ্গুয়েজ মডেলের দ্বিতীয় ভাষা অর্জন: একটি ভাষাতাত্ত্বিক দৃষ্টিভঙ্গি

সূচিপত্র

1. ভূমিকা

এই গবেষণা দ্বিতীয় ভাষা (L2) অর্জনের দৃষ্টিকোণ থেকে নিউরাল ল্যাঙ্গুয়েজ মডেলগুলোর (LMs) আন্তঃভাষিক স্থানান্তরযোগ্যতা তদন্ত করে। পূর্ববর্তী গবেষণাগুলো প্রথম ভাষা (L1) অর্জনের উপর দৃষ্টি নিবদ্ধ করলেও, এই গবেষণাটি পরীক্ষা করে যে কীভাবে প্রথম ভাষার জ্ঞান দ্বিতীয় ভাষায় ব্যাকরণ অর্জনের দক্ষতাকে প্রভাবিত করে। কেন্দ্রীয় গবেষণা প্রশ্নটি হলো: ল্যাঙ্গুয়েজ মডেলের প্রথম ভাষা (L1) অর্জন কীভাবে একটি দ্বিতীয় ভাষায় (L2) ব্যাকরণ অর্জনের দক্ষতাকে প্রভাবিত করে?

প্রেরণা এসেছে এই পর্যবেক্ষণ থেকে যে বৃহৎ ইংরেজি ল্যাঙ্গুয়েজ মডেলগুলো ন্যূনতম অ-ইংরেজি প্রশিক্ষণ তথ্য দিয়ে অনুবাদ ক্ষমতা প্রদর্শন করে, যা দক্ষ আন্তঃভাষিক স্থানান্তরের ইঙ্গিত দেয়। তবে, বেশিরভাগ মূল্যায়ন পেরপ্লেক্সিটি বা ডাউনস্ট্রিম টাস্ক নির্ভুলতার মতো সামগ্রিক পরিমাপের উপর নির্ভর করে। এই গবেষণাটি ভাষাতাত্ত্বিক দৃষ্টিকোণ থেকে স্থানান্তর বিশ্লেষণ করে, ব্যাকরণিক জ্ঞান অর্জন এবং ভাষা স্থানান্তর প্রবণতার উপর দৃষ্টি নিবদ্ধ করে এই শূন্যতা পূরণের লক্ষ্য রাখে।

2. পরীক্ষামূলক পদ্ধতি

পরীক্ষামূলক নকশাটি একটি মানবসদৃশ দ্বিতীয় ভাষা অর্জনের দৃশ্যকল্পকে প্রতিফলিত করে:

  1. প্রথম ভাষা প্রাক-প্রশিক্ষণ (প্রথম ভাষা অর্জন): একটি নির্দিষ্ট প্রথম ভাষায় (ফরাসি, জার্মান, রাশিয়ান বা জাপানি) একটি একভাষিক মাস্কড ল্যাঙ্গুয়েজ মডেল প্রশিক্ষণ দিন।
  2. দ্বিতীয় ভাষা প্রশিক্ষণ (দ্বিতীয় ভাষা অর্জন): দ্বিভাষিক পরিবেশে ইংরেজি (দ্বিতীয় ভাষা) উপর মডেলটিকে আরও প্রশিক্ষণ দিন।
  3. মূল্যায়ন: BLiMP বেঞ্চমার্ক ব্যবহার করে ইংরেজিতে একটি ব্যাকরণিক বিচার পরীক্ষার মাধ্যমে প্রথম ভাষার দ্বিতীয় ভাষার উপর প্রভাব বিশ্লেষণ করুন।

মানুষের দ্বিতীয় ভাষা অর্জনের প্রবণতার সাথে ভালোভাবে তুলনা করার জন্য প্রশিক্ষণ তথ্যের আকার সীমিত রাখা হয়েছে। নির্বাচিত প্রথম ভাষাগুলো ইংরেজিতে স্থানান্তরের জন্য ভাষাতাত্ত্বিক দূরত্ব এবং অনুমিত কঠিনতার বিভিন্ন স্তরকে প্রতিনিধিত্ব করে।

3. দ্বিতীয় ভাষা প্রশিক্ষণ পদ্ধতির আনয়নমূলক পক্ষপাত

প্রাথমিক পরীক্ষাগুলো বিভিন্ন দ্বিতীয় ভাষা তথ্য সেটিং অন্বেষণ করেছে:

  • শুধুমাত্র দ্বিতীয় ভাষা (ইংরেজি) একভাষিক পাঠ্যে প্রশিক্ষণ।
  • প্রথম ভাষা-দ্বিতীয় ভাষা অনুবাদ জোড়ায় প্রশিক্ষণ।

মূল সন্ধান: প্রতি দুইটি ইপকের পর শুধুমাত্র দ্বিতীয় ভাষার একভাষিক পাঠ্য সরবরাহের তুলনায়, প্রথম ভাষা-দ্বিতীয় ভাষা অনুবাদ জোড়া ল্যাঙ্গুয়েজ মডেলগুলোকে সরবরাহ করা তাদের দ্বিতীয় ভাষা ব্যাকরণ অর্জনকে ধীর করে দিয়েছে। এটি ইঙ্গিত দেয় যে দ্বিতীয় ভাষার সংস্পর্শের পদ্ধতি শেখার দক্ষতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে।

4. প্রথম ভাষা প্রশিক্ষণের দ্বিতীয় ভাষা ব্যাকরণ অর্জনের উপর প্রভাব

4.1 প্রথম ভাষার জ্ঞান দ্বিতীয় ভাষার সাধারণীকরণকে উন্নীত করে

শূন্য থেকে দ্বিতীয় ভাষায় প্রশিক্ষিত মডেলগুলোর তুলনায়, প্রথম ভাষা প্রাক-প্রশিক্ষণ সহ মডেলগুলো দ্বিতীয় ভাষায় ভালো ভাষাগত সাধারণীকরণ প্রদর্শন করেছে। এটি ইঙ্গিত দেয় যে পূর্ববর্তী ভাষাগত জ্ঞান (এমনকি একটি ভিন্ন ভাষায়ও) নতুন ভাষা কাঠামো অর্জনের জন্য একটি উপকারী আনয়নমূলক পক্ষপাত সরবরাহ করে।

4.2 প্রথম ভাষার পছন্দ দ্বিতীয় ভাষার কার্যকারিতাকে প্রভাবিত করে

উৎস প্রথম ভাষাটি দ্বিতীয় ভাষা (ইংরেজি) সাধারণীকরণ কার্যকারিতাকে যথেষ্ট পরিমাণে প্রভাবিত করেছে। প্রথম ভাষা হিসেবে ফরাসি বা জার্মান সহ মডেলগুলো প্রথম ভাষা হিসেবে জাপানি বা রাশিয়ান সহ মডেলগুলোর তুলনায় উল্লেখযোগ্যভাবে ভালো কার্যকারিতা দেখিয়েছে। এই শ্রেণিবিন্যাসটি মানব-সংজ্ঞায়িত ভাষা স্থানান্তর কঠিনতার (চিসউইক এবং মিলার, ২০০৪) সাথে সামঞ্জস্যপূর্ণ, যেখানে ভাষাতাত্ত্বিক সাদৃশ্য (যেমন, জার্মানিক/রোমান্স ভাষা থেকে ইংরেজি) স্থানান্তরকে সহজ করে।

4.3 ব্যাকরণের প্রকারভেদে ভিন্ন প্রভাব

প্রথম ভাষা প্রাক-প্রশিক্ষণের দ্বিতীয় ভাষায় বিভিন্ন ব্যাকরণিক ঘটনার উপর বিভিন্ন প্রভাব ছিল:

  • বৃহত্তর লাভ: রূপতাত্ত্বিক ও বাক্যতাত্ত্বিক বিষয় (যেমন, কর্তা-ক্রিয়া সম্মতি, শব্দক্রম)।
  • ক্ষুদ্রতর লাভ: শব্দার্থিক এবং বাক্যতত্ত্ব-শব্দার্থিক ইন্টারফেস বিষয় (যেমন, কোয়ান্টিফায়ার স্কোপ, বাইন্ডিং)।

এটি ইঙ্গিত দেয় যে বিমূর্ত বাক্যতাত্ত্বিক জ্ঞান অর্থ-নির্দিষ্ট বা ইন্টারফেস জ্ঞানের তুলনায় আরও সহজে স্থানান্তরিত হতে পারে।

5. দ্বিতীয় ভাষা অর্জনের প্রক্রিয়া

5.1 অগ্রগতি ও তথ্যের অদক্ষতা

শেখার গতিপথের বিশ্লেষণে প্রকাশ পেয়েছে যে মডেলটি পুরো দ্বিতীয় ভাষা ডেটাসেটটি বহুবার (যেমন, ৫০-১০০ ইপক) না দেখা পর্যন্ত দ্বিতীয় ভাষা জ্ঞান অর্জন উল্লেখযোগ্যভাবে অগ্রসর হয়নি। এটি এই ল্যাঙ্গুয়েজ মডেলগুলোর দ্বিতীয় ভাষা অর্জন প্রক্রিয়ায় একটি মাত্রার তথ্যের অদক্ষতা নির্দেশ করে। তদুপরি, গবেষণাটি দ্বিতীয় ভাষা প্রশিক্ষণের সময় প্রথম ভাষা জ্ঞানের অবনতি পর্যবেক্ষণ করেছে, যা একটি ট্রেড-অফ এবং উৎস ও লক্ষ্য ভাষাগত জ্ঞানের ভারসাম্য বজায় রাখার প্রয়োজনীয়তা তুলে ধরে।

6. মূল অন্তর্দৃষ্টি ও বিশ্লেষকের দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ, প্রায়শই উপেক্ষিত সত্য সরবরাহ করে: নিউরাল ল্যাঙ্গুয়েজ মডেলগুলো ভাষা-নিরপেক্ষ পরিসংখ্যানগত ইঞ্জিন নয়। তাদের "প্রথম ভাষা" একটি গভীর কাঠামোগত পক্ষপাত মুদ্রিত করে যা "দ্বিতীয় ভাষা" শেখার দক্ষতা ও গতিপথ নির্ধারণ করে। অনুবাদ জোড়া দ্বিতীয় ভাষা ব্যাকরণ অর্জনে বাধা দিতে পারে এই সন্ধানটি বিশেষভাবে প্রতিবাদী-স্বজ্ঞাত এবং আদর্শ বহুভাষিক প্রশিক্ষণ মতবাদকে চ্যালেঞ্জ করে।

যুক্তিসঙ্গত প্রবাহ: গবেষণাটি কম্পিউটেশনাল ভাষাবিজ্ঞান এবং দ্বিতীয় ভাষা অর্জন তত্ত্বকে সুন্দরভাবে সংযুক্ত করে। এটি একটি স্পষ্ট অনুমান (প্রথম ভাষা দ্বিতীয় ভাষার দক্ষতাকে প্রভাবিত করে) দিয়ে শুরু হয়, একটি নিয়ন্ত্রিত মানবসদৃশ দৃষ্টান্ত (সীমিত তথ্য, নির্দিষ্ট প্রথম ভাষা) নকশা করে, প্রশিক্ষণের প্রকরণগুলিকে পদ্ধতিগতভাবে পরীক্ষা করে এবং সূক্ষ্ম ভাষাতাত্ত্বিক বিশ্লেষণে পরিণত হয়। ম্যাক্রো-স্থানান্তর (ভাষা পছন্দ) থেকে মাইক্রো-স্থানান্তর (ব্যাকরণ প্রকার) পর্যন্ত প্রবাহটি যুক্তিসঙ্গতভাবে সঠিক।

শক্তি ও ত্রুটি: প্রধান শক্তি হলো এর ভাষাতাত্ত্বিক সূক্ষ্মতা। নির্ভুলতার মতো সমষ্টিগত মেট্রিকের বাইরে গিয়ে BLiMP-এর বাক্যতাত্ত্বিক ঘটনাগুলোর উপর কার্যকারিতা বিশ্লেষণ করা একটি উল্লেখযোগ্য অবদান, যা "What does BERT look at?" (ক্লার্ক এট আল., ২০১৯) এর মতো কাজ দ্বারা জনপ্রিয় হওয়া প্রোবিং দৃষ্টান্তের কথা স্মরণ করিয়ে দেয়। মানুষ-ল্যাঙ্গুয়েজ মডেল তুলনা কাঠামোটিও উদ্ভাবনী। প্রাথমিক ত্রুটি হলো স্কেল। ছোট ল্যাঙ্গুয়েজ মডেল ব্যবহার করা (সীমিত তথ্য দ্বারা বোঝানো) GPT-4 বা LLaMA-এর মতো আধুনিক বৃহৎ ভাষা মডেলগুলোর সাথে সরাসরি প্রযোজ্যতা সীমিত করে, যাদের ফিউ-শট আন্তঃভাষিক ক্ষমতা বিস্ময়কর। গবেষণাটি এটি স্বীকার করে কিন্তু এটি একটি শূন্যস্থান হিসেবেই রয়ে গেছে। তদুপরি, প্রথম ভাষার "বিপর্যয়কর ভুলে যাওয়া" লক্ষ্য করা হয়েছে কিন্তু গভীরভাবে বিশ্লেষণ করা হয়নি—এটি একটি হারানো সুযোগ।

কার্যকরী অন্তর্দৃষ্টি: অনুশীলনকারীদের জন্য, এই গবেষণা একটি সর্বজনীন বহুভাষিক কৌশলের বিরুদ্ধে পরামর্শ দেয়। একটি লক্ষ্য ভাষার জন্য একটি মডেল তৈরি করার সময়, ভাষাতাত্ত্বিক সাদৃশ্যের ভিত্তিতে কৌশলগতভাবে প্রাক-প্রশিক্ষণ ভাষা(গুলি) নির্বাচন করুন। উদাহরণস্বরূপ, থাই ভাষার কার্যকারিতা বৃদ্ধি শুধুমাত্র ইংরেজির পরিবর্তে সম্পর্কিত তাই-কাদাই ভাষায় প্রাক-প্রশিক্ষণ থেকে আরও বেশি উপকৃত হতে পারে। তথ্যের অদক্ষতা সন্ধানটি দ্বিতীয় ভাষা প্রশিক্ষণের জন্য আরও পাঠ্যক্রম-ভিত্তিক বা মেটা-লার্নিং পদ্ধতির গবেষণার আহ্বান জানায়, কাঁচা শক্তি ধারাবাহিক প্রশিক্ষণের পরিবর্তে। অবশেষে, দ্বিতীয় ভাষা অর্জনের সময় প্রথম ভাষা ভুলে যাওয়া প্রশমিত করার জন্য ক্ষেত্রটিকে আরও ভালো ধারাবাহিক শেখার কৌশল বিকাশ করতে হবে, যা ফ্ল্যামিঙ্গোর মতো কাজে (আলায়রাক এট আল., ২০২২) দেখা গেছে মাল্টিমোডাল লার্নিং-এও একটি চ্যালেঞ্জ।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো

প্রাক-প্রশিক্ষণে ব্যবহৃত মাস্কড ল্যাঙ্গুয়েজ মডেলিং উদ্দেশ্যের (ডেভলিন এট আল., ২০১৯) মূল হলো মাস্কড টোকেন পুনর্গঠনের লগ-সম্ভাবনা সর্বাধিক করা:

$\mathcal{L}_{MLM} = -\sum_{i \in M} \log P(x_i | \mathbf{x}_{\backslash M}; \theta)$

যেখানে $M$ হলো মাস্কড টোকেন সূচকের সেট, $x_i$ হলো মূল টোকেন, $\mathbf{x}_{\backslash M}$ হলো $M$ এ টোকেন মাস্ক করা ক্রম, এবং $\theta$ হলো মডেল প্যারামিটার।

দ্বিতীয় ভাষা অর্জনের পর্যায়ে, মডেল প্যারামিটার $\theta$, যা প্রথম ভাষা প্রাক-প্রশিক্ষণ থেকে শুরু করা হয়েছে, প্রথম ভাষা এবং দ্বিতীয় ভাষা তথ্যের মিশ্রণে বা শুধুমাত্র দ্বিতীয় ভাষা তথ্যের উপর আরও অপ্টিমাইজ করা হয়। গবেষণার মূল ম্যানিপুলেশন হলো এই পর্যায়ে তথ্য সময়সূচি এবং গঠন, যা মডেলটি যে কার্যকরী লস ফাংশন অপ্টিমাইজ করে তা পরিবর্তন করে।

8. পরীক্ষামূলক ফলাফল ও চার্ট বর্ণনা

মূল ফলাফল ১ (প্রথম ভাষা ত্বরণ): লাইন চার্টটি (পাঠ্য বর্ণনা দ্বারা বোঝানো) y-অক্ষে দ্বিতীয় ভাষা ব্যাকরণিক নির্ভুলতা (BLiMP-এ) এবং x-অক্ষে দ্বিতীয় ভাষা প্রশিক্ষণ ইপক দেখাবে। একাধিক লাইন বিভিন্ন প্রথম ভাষা (ফরাসি, জার্মান, রাশিয়ান, জাপানি) সহ মডেল এবং প্রথম ভাষা ছাড়া একটি বেসলাইন (শূন্য থেকে দ্বিতীয় ভাষা) প্রতিনিধিত্ব করবে। চার্টটি প্রদর্শন করবে যে সমস্ত প্রথম ভাষা-প্রাক-প্রশিক্ষিত মডেল বেসলাইনের তুলনায় উচ্চতর থেকে শুরু করে এবং দ্রুত শেখে, ফরাসি এবং জার্মান লাইনগুলি সবচেয়ে খাড়াভাবে এবং সর্বোচ্চ উচ্চতায় উঠে।

মূল ফলাফল ২ (ব্যাকরণ প্রকার পার্থক্য): একটি গ্রুপড বার চার্ট BLiMP-এ চূড়ান্ত নির্ভুলতা প্রদর্শন করবে। x-অক্ষে বিভাগ থাকবে: রূপতত্ত্ব, বাক্যতত্ত্ব, শব্দার্থবিদ্যা, বাক্যতত্ত্ব-শব্দার্থবিদ্যা। প্রতিটি বিভাগের জন্য দুটি বার থাকবে: একটি "প্রথম ভাষা প্রাক-প্রশিক্ষণ ছাড়া" এবং একটি "প্রথম ভাষা প্রাক-প্রশিক্ষণ সহ"। দুটি বারের মধ্যে উচ্চতার পার্থক্য (প্রথম ভাষা থেকে লাভ) রূপতত্ত্ব এবং বাক্যতত্ত্বের জন্য দৃশ্যত সবচেয়ে বড় এবং শব্দার্থবিদ্যার জন্য সবচেয়ে ছোট হবে।

9. বিশ্লেষণ কাঠামো: উদাহরণ কেস

কেস: কর্তা-ক্রিয়া সম্মতির জন্য প্রথম ভাষা জাপানি (জা) থেকে দ্বিতীয় ভাষা ইংরেজি (এন) স্থানান্তর বিশ্লেষণ।

  1. ভাষাগত বৈশিষ্ট্য: ইংরেজিতে সংখ্যায় কর্তা-ক্রিয়া সম্মতি প্রয়োজন (যেমন, "The dog runs" বনাম "The dogs run")। জাপানি কর্তা সম্মতির জন্য ক্রিয়া চিহ্নিত করে না।
  2. অনুমান: জাপানি (প্রথম ভাষা) এ প্রাক-প্রশিক্ষিত একটি ল্যাঙ্গুয়েজ মডেল ফরাসি (যার সম্মতি আছে) এ প্রাক-প্রশিক্ষিত একটি ল্যাঙ্গুয়েজ মডেলের তুলনায় ইংরেজিতে এই সম্মতি বৈশিষ্ট্য শেখার জন্য একটি দুর্বল প্রাথমিক পক্ষপাত থাকতে পারে।
  3. প্রোবিং পরীক্ষা: দ্বিতীয় ভাষা প্রশিক্ষণের পরে, মডেলটিকে BLiMP থেকে ন্যূনতম জোড়া উপস্থাপন করুন:
    • ব্যাকরণিক: "The key to the cabinets is on the table."
    • অব্যাকরণিক: "The key to the cabinets are on the table."
  4. মেট্রিক: সঠিক ক্রিয়া রূপ বনাম ভুল ক্রিয়া রূপের জন্য মডেলের সম্ভাব্যতা বরাদ্দের তুলনা করুন। ফরাসি-প্রথম ভাষা মডেলের তুলনায় জাপানি-প্রথম ভাষা মডেলের জন্য একটি নিম্ন সম্ভাব্যতা ব্যবধান একটি অ-সম্মতিপূর্ণ প্রথম ভাষা থেকে নেতিবাচক স্থানান্তরের অনুমান নিশ্চিত করবে।

এই কাঠামোটি প্রথম ভাষা-দ্বিতীয় ভাষা কাঠামোগত সারিবদ্ধতার ভিত্তিতে নির্দিষ্ট ব্যাকরণিক বৈশিষ্ট্যগুলোর স্থানান্তর বিচ্ছিন্ন করার অনুমতি দেয়।

10. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

  • দক্ষ স্বল্প-সম্পদ ভাষা মডেলিং: সত্যিকারের লক্ষ্য স্বল্প-সম্পদ ভাষায় ফাইন-টিউন করার আগে কৌশলগতভাবে একটি উচ্চ-সম্পদ, ভাষাতাত্ত্বিকভাবে অনুরূপ "প্যারেন্ট" ভাষা প্রাক-প্রশিক্ষণের জন্য নির্বাচন করুন, তথ্যের দক্ষতা অপ্টিমাইজ করুন।
  • ব্যক্তিগতকৃত ভাষা শেখার সরঞ্জাম: এমন AI টিউটর বিকাশ করুন যা একজন শিক্ষার্থীর মাতৃভাষার উপর ভিত্তি করে শিক্ষাদান কৌশলগুলি অভিযোজিত করে, ল্যাঙ্গুয়েজ মডেল স্থানান্তর প্যাটার্ন দ্বারা অবহিত হিসাবে কঠিনতার ক্ষেত্রগুলি (যেমন, রাশিয়ান ভাষাভাষীদের জন্য আর্টিকেল ব্যবহার) ভবিষ্যদ্বাণী করে।
  • ব্যাখ্যাযোগ্য বহুভাষিক বৃহৎ ভাষা মডেল: নিয়ন্ত্রিত পরীক্ষামূলক সেটআপ হিসাবে প্রথম ভাষা-দ্বিতীয় ভাষা স্থানান্তর দৃষ্টান্ত ব্যবহার করুন মডেল প্যারামিটারের মধ্যে কী ভাষাগত জ্ঞান সংরক্ষিত এবং স্থানান্তরিত হয় তা আলাদা করতে এবং দৃশ্যমান করতে, মডেল ব্যাখ্যাযোগ্যতা এগিয়ে নিতে।
  • স্নায়ুভাষাবিদ্যাগত বৈধতা: জ্ঞানীয় বিজ্ঞানীদের সাথে সহযোগিতা করুন ল্যাঙ্গুয়েজ মডেল দ্বিতীয় ভাষা অর্জনের গতিপথ (যেমন, ত্রুটি প্যাটার্ন, শেখার মালভূমি) মানুষের মস্তিষ্ক ইমেজিং বা আচরণগত তথ্যের সাথে তুলনা করতে, ভাষা অর্জনের গণনামূলক তত্ত্ব পরীক্ষা করতে।
  • গতিশীল, অ-ভুলে যাওয়া বহুভাষিক মডেল: ধারাবাহিক শেখার অ্যালগরিদমের গবেষণা যা একটি ল্যাঙ্গুয়েজ মডেলকে পূর্ববর্তী ভাষা দক্ষতা হ্রাস না করে একাধিক ভাষা ক্রমান্বয়ে অর্জন করতে দেয়, সত্যিকারের বহুভাষিক AI-এর দিকে অগ্রসর হতে।

11. তথ্যসূত্র

  1. Oba, M., Kuribayashi, T., Ouchi, H., & Watanabe, T. (2023). Second Language Acquisition of Neural Language Models. arXiv preprint arXiv:2306.02920.
  2. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
  3. Chiswick, B. R., & Miller, P. W. (2004). Linguistic Distance: A Quantitative Measure of the Distance Between English and Other Languages. Journal of Multilingual and Multicultural Development.
  4. Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP.
  5. Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
  6. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems.
  7. Papadimitriou, I., & Jurafsky, D. (2020). Pretraining on Non-English Data Improves Cross-lingual Generalization. Proceedings of the 1st Conference of the Asia-Pacific Chapter of the ACL.