1. ভূমিকা ও সারসংক্ষেপ
এই গবেষণাটি গণনামূলক ভাষাবিজ্ঞান ও মনোবিজ্ঞানের সংযোগস্থলে একটি মাইলফলক তদন্তের প্রতিনিধিত্ব করে। ৭৫,০০০ ফেসবুক ব্যবহারকারীর কাছ থেকে ৭০ কোটি শব্দ, বাক্যাংশ ও বিষয়ের উদাহরণের একটি অভূতপূর্ব উপাত্ত বিশ্লেষণ করে, গবেষণা দল সামাজিক যোগাযোগমাধ্যমের ভাষা কীভাবে মানুষের মৌলিক বৈশিষ্ট্য—ব্যক্তিত্ব, লিঙ্গ ও বয়স—এর সাথে সম্পর্কিত তা বোঝার জন্য একটি উন্মুক্ত-শব্দভাণ্ডার পদ্ধতি উদ্ভাবন করেছে। এই কাজটি পূর্বনির্ধারিত শব্দ-বিভাগ বিশ্লেষণ (যেমন LIWC) থেকে এগিয়ে গিয়ে উপাত্তকেই ব্যক্তি ও গোষ্ঠীকে আলাদা করে এমন ভাষাগত চিহ্নগুলো প্রকাশ করতে দেয়।
মূল প্রস্তাবনা হলো যে ফেসবুকের মতো প্ল্যাটফর্মে উৎপন্ন বিপুল, প্রাকৃতিক ভাষার উপাত্ত মানব মনোবিজ্ঞানের একটি অনন্য দৃষ্টিভঙ্গি প্রদান করে। গবেষণাটি দেখায় যে এই উপাত্ত-চালিত পদ্ধতি স্পষ্ট সংযোগ (যেমন, উচ্চভূমির মানুষদের পর্বত নিয়ে আলোচনা), পরিচিত মনস্তাত্ত্বিক ফলাফলের পুনরাবৃত্তি (যেমন, নিউরোটিসিজমের সাথে "হতাশ" এর মতো শব্দের সম্পর্ক), এবং সবচেয়ে গুরুত্বপূর্ণভাবে, নতুন অনুমান তৈরি করতে পারে যা গবেষকদের পূর্বধারণা ছিল না।
2. পদ্ধতি ও উপাত্ত
এই গবেষণার পদ্ধতিগত কঠোরতা এর অবদানের একটি মূল উপাদান। এটি বৃহৎ-পরিসরের উপাত্ত সংগ্রহকে উদ্ভাবনী বিশ্লেষণাত্মক কৌশলের সাথে একত্রিত করেছে।
2.1 উপাত্ত সংগ্রহ ও অংশগ্রহণকারী
উপাত্তের পরিসর তার সময়ের জন্য বিশাল:
- অংশগ্রহণকারী: ৭৫,০০০ স্বেচ্ছাসেবক।
- উপাত্তের উৎস: ফেসবুক স্ট্যাটাস আপডেট ও বার্তা।
- পাঠ্যের পরিমাণ: ১৫.৪ মিলিয়নেরও বেশি বার্তা, যা ৭০ কোটি বিশ্লেষণযোগ্য ভাষার উদাহরণ (শব্দ, বাক্যাংশ, বিষয়) তৈরি করেছে।
- মনস্তাত্ত্বিক পরিমাপ: অংশগ্রহণকারীরা স্ট্যান্ডার্ড ব্যক্তিত্ব পরীক্ষা (যেমন, বিগ ফাইভ ইনভেন্টরি) সম্পন্ন করেছে, যা বিশ্লেষণের জন্য ভিত্তি-সত্য লেবেল সরবরাহ করেছে।
2.2 উন্মুক্ত-শব্দভাণ্ডার পদ্ধতি
এটি গবেষণার কেন্দ্রীয় উদ্ভাবন। পূর্বনির্ধারিত শব্দ বিভাগ সম্পর্কে অনুমান পরীক্ষা করা বদ্ধ-শব্দভাণ্ডার পদ্ধতির (যেমন, "নেতিবাচক আবেগের শব্দ") বিপরীতে, উন্মুক্ত-শব্দভাণ্ডার পদ্ধতি অন্বেষণমূলক ও উপাত্ত-চালিত। অ্যালগরিদম পুরো কর্পাস স্ক্যান করে যেকোনো ভাষার বৈশিষ্ট্য—একক শব্দ, বহু-শব্দের বাক্যাংশ, বা অন্তর্নিহিত বিষয়—শনাক্ত করে যা পরিসংখ্যানগতভাবে একটি লক্ষ্য চলকের (যেমন, উচ্চ নিউরোটিসিজম) সাথে সম্পর্কিত। এটি বৈশিষ্ট্য নির্বাচনে গবেষকের পক্ষপাত দূর করে এবং অপ্রত্যাশিত ভাষাগত ধরণ আবিষ্কারের সুযোগ তৈরি করে।
2.3 ডিফারেনশিয়াল ল্যাঙ্গুয়েজ অ্যানালাইসিস (ডিএলএ)
ডিএলএ হলো এখানে ব্যবহৃত উন্মুক্ত-শব্দভাণ্ডার পদ্ধতির নির্দিষ্ট বাস্তবায়ন। এটি নিম্নলিখিতভাবে কাজ করে:
- বৈশিষ্ট্য নিষ্কাশন: কর্পাস থেকে স্বয়ংক্রিয়ভাবে সমস্ত এন-গ্রাম (শব্দ ক্রম) ও অন্তর্নিহিত বিষয় শনাক্তকরণ।
- সম্পর্কের হিসাব: প্রতিটি ভাষার বৈশিষ্ট্য ও আগ্রহের জনসংখ্যাগত/মনস্তাত্ত্বিক চলকের মধ্যে সম্পর্কের শক্তি গণনা করা।
- ক্রমায়ন ও ব্যাখ্যা: বৈশিষ্ট্যগুলোকে তাদের সম্পর্কের শক্তির ভিত্তিতে ক্রমায়ন করে একটি নির্দিষ্ট গোষ্ঠী বা বৈশিষ্ট্যের জন্য সবচেয়ে স্বতন্ত্র চিহ্নগুলো শনাক্ত করা।
3. মূল ফলাফল ও সিদ্ধান্ত
বিশ্লেষণ ভাষা ব্যবহারের মনোবিজ্ঞান সম্পর্কে সমৃদ্ধ, সূক্ষ্ম অন্তর্দৃষ্টি প্রদান করেছে।
3.1 ভাষা ও ব্যক্তিত্ব বৈশিষ্ট্য
ভাষা ও বিগ ফাইভ ব্যক্তিত্ব বৈশিষ্ট্যের মধ্যে শক্তিশালী সম্পর্ক পাওয়া গেছে:
- নিউরোটিসিজম: "হতাশ," "উদ্বিগ্ন" এর মতো শব্দ এবং "পেরিয়ে গেছে" এর মতো বাক্যাংশের সাথে সম্পর্কিত, যা নেতিবাচক আবেগ ও চাপের প্রতি মনোনিবেশ নির্দেশ করে।
- এক্সট্রাভার্শন: সামাজিক শব্দ ("পার্টি," "অসাধারণ," "ভালোবাসা"), বিস্ময়সূচক শব্দ ("হাহা," "উহু") এবং সামাজিক অনুষ্ঠানের উল্লেখের সাথে যুক্ত।
- অভিজ্ঞতার প্রতি উন্মুক্ততা: নান্দনিক ও বুদ্ধিবৃত্তিক শব্দ ("শিল্প," "দর্শন," "বিশ্ব") এবং জটিল শব্দভাণ্ডার ব্যবহারের সাথে সম্পর্কিত।
- সহমর্মিতা: সামাজিক কল্যাণমূলক ভাষা ("আমরা," "ধন্যবাদ," "চমৎকার") এবং গালিগালাজের কম ব্যবহার দ্বারা চিহ্নিত।
- সতর্কতা: সাফল্য-ভিত্তিক শব্দ ("কাজ," "পরিকল্পনা," "সাফল্য") এবং তাৎক্ষণিক তৃপ্তির (যেমন, "আজ রাতে," "পানীয়") কম উল্লেখের সাথে সম্পর্কিত।
3.2 ভাষায় লিঙ্গভিত্তিক পার্থক্য
গবেষণাটি পরিচিত লিঙ্গভিত্তিক পার্থক্য নিশ্চিত ও পরিমার্জিত করেছে:
- নারী বেশি আবেগপূর্ণ শব্দ, সামাজিক শব্দ ও সর্বনাম ("আমি," "তুমি," "আমরা") ব্যবহার করেছে।
- পুরুষ বেশি বস্তুর উল্লেখ, গালিগালাজ ও ব্যক্তিত্বহীন বিষয় (খেলাধুলা, রাজনীতি) ব্যবহার করেছে।
- উল্লেখযোগ্য অন্তর্দৃষ্টি: "স্ত্রী" বা "বান্ধবী" উল্লেখ করার সময় পুরুষরা "আমার" অধিকারসূচক সর্বনাম ব্যবহারের সম্ভাবনা বেশি দেখিয়েছে, যেখানে নারীরা "স্বামী" বা "বন্ধু" এর ক্ষেত্রে একই ধরণ দেখায়নি। এটি সম্পর্কগত অধিকারের প্রকাশে সূক্ষ্ম পার্থক্য নির্দেশ করে।
3.3 বয়স-সম্পর্কিত ভাষার ধরণ
ভাষার ব্যবহার বয়সের সাথে সাথে পদ্ধতিগতভাবে পরিবর্তিত হয়েছে:
- তরুণ প্রাপ্তবয়স্ক: সামাজিক কার্যকলাপ, নাইটলাইফ ও প্রযুক্তির ("ফোন," "ইন্টারনেট") বেশি উল্লেখ।
- বয়স্ক প্রাপ্তবয়স্ক: পরিবার, স্বাস্থ্য ও কাজ-সম্পর্কিত বিষয় নিয়ে আলোচনা বৃদ্ধি। সামগ্রিকভাবে ইতিবাচক আবেগপূর্ণ শব্দের বেশি ব্যবহার।
- এই ফলাফলগুলো সামাজিক-আবেগগত নির্বাচন তত্ত্বের সাথে সামঞ্জস্যপূর্ণ, যা বয়সের সাথে সাথে প্রেরণাদায়ী অগ্রাধিকারে পরিবর্তনের প্রস্তাব করে।
4. প্রযুক্তিগত বিবরণ ও কাঠামো
4.1 গাণিতিক ভিত্তি
ডিএলএ-এর মূল হলো একটি ভাষার বৈশিষ্ট্য $f$ (যেমন, একটি শব্দ) এবং একটি বাইনারি বা অবিচ্ছিন্ন বৈশিষ্ট্য $a$ (যেমন, লিঙ্গ বা নিউরোটিসিজম স্কোর) এর মধ্যে পয়েন্টওয়াইজ পারস্পরিক তথ্য (PMI) বা সম্পর্ক সহগ গণনা করা। একটি বাইনারি বৈশিষ্ট্যের জন্য:
$PMI(f, a) = \log \frac{P(f, a)}{P(f)P(a)}$
যেখানে $P(f, a)$ হলো বৈশিষ্ট্য ও বৈশিষ্ট্য একত্রে ঘটার যৌথ সম্ভাবনা (যেমন, "অসাধারণ" শব্দটি একজন এক্সট্রাভার্টের বার্তায় উপস্থিত হওয়া), এবং $P(f)$ ও $P(a)$ হলো প্রান্তিক সম্ভাবনা। তারপর বৈশিষ্ট্যগুলো তাদের PMI বা সম্পর্ক স্কোর দ্বারা ক্রমায়ন করা হয় গোষ্ঠী $a$-এর জন্য সবচেয়ে স্বতন্ত্র চিহ্নগুলো শনাক্ত করতে।
বিষয় মডেলিং-এর জন্য, যা সম্ভবত "বিষয়ের উদাহরণ" তৈরি করতে ব্যবহৃত হয়েছিল, লেটেন্ট ডিরিচলেট অ্যালোকেশন (LDA) এর মতো কৌশল প্রয়োগ করা হয়েছিল। LDA প্রতিটি নথিকে $K$ বিষয়ের মিশ্রণ হিসেবে মডেল করে, এবং প্রতিটি বিষয়কে শব্দের উপর বন্টন হিসেবে মডেল করে। নথি $d$-এ একটি শব্দ $w$-এর সম্ভাবনা নিম্নরূপ দেওয়া হয়:
$P(w|d) = \sum_{k=1}^{K} P(w|z=k) P(z=k|d)$
যেখানে $z$ একটি অন্তর্নিহিত বিষয় চলক। এই আবিষ্কৃত বিষয়গুলো তখন ডিএলএ-তে বৈশিষ্ট্যে পরিণত হয়।
4.2 বিশ্লেষণ কাঠামোর উদাহরণ
কেস: উচ্চ সতর্কতার ভাষাগত চিহ্ন শনাক্তকরণ
- উপাত্ত প্রস্তুতি: ৭৫,০০০ অংশগ্রহণকারীকে তাদের সতর্কতা স্কোরের মধ্যমা বিভাজনের ভিত্তিতে দুটি গোষ্ঠীতে বিভক্ত করা (উচ্চ-সি বনাম নিম্ন-সি)।
- বৈশিষ্ট্য উৎপাদন: সমস্ত ফেসবুক বার্তা প্রক্রিয়া করে নিষ্কাশন করা:
- ইউনিগ্রাম (একক শব্দ): "কাজ," "পরিকল্পনা," "সম্পন্ন।"
- বিগ্রাম (দুই-শব্দের বাক্যাংশ): "আমার চাকরি," "পরের সপ্তাহ," "করতে হবে।"
- বিষয় (LDA-এর মাধ্যমে): যেমন, বিষয় ২৩: {কাজ: ০.০৫, প্রকল্প: ০.০৪, শেষ তারিখ: ০.০৩, দল: ০.০২, ...}।
- পরিসংখ্যানগত পরীক্ষা: প্রতিটি বৈশিষ্ট্যের জন্য, উচ্চ-সি গোষ্ঠীতে বনাম নিম্ন-সি গোষ্ঠীতে এর কম্পাঙ্ক তুলনা করতে একটি চি-স্কোয়ার পরীক্ষা বা PMI গণনা করা।
- ফলাফলের ব্যাখ্যা: বৈশিষ্ট্যগুলোকে তাদের সম্পর্কের শক্তির ভিত্তিতে ক্রমায়ন করা। উচ্চ-সি-এর জন্য শীর্ষ বৈশিষ্ট্যগুলোর মধ্যে থাকতে পারে "কাজ," "পরিকল্পনা," "সম্পন্ন," "আমার লক্ষ্য" বিগ্রাম, এবং সংগঠন ও সাফল্য সম্পর্কিত LDA বিষয়গুলোর উচ্চ লোডিং। এই বৈশিষ্ট্যগুলো সম্মিলিতভাবে সতর্ক ব্যক্তিদের ভাষাগত ছাপের একটি উপাত্ত-চালিত চিত্র আঁকে।
5. ফলাফল ও উপাত্ত দৃশ্যায়ন
মূল PDF-এ চিত্র না থাকলেও, ফলাফলগুলো মূল দৃশ্যায়নের মাধ্যমে ধারণা করা যেতে পারে:
- বৈশিষ্ট্যের জন্য ওয়ার্ড ক্লাউড/বার চার্ট: প্রতিটি বিগ ফাইভ ব্যক্তিত্ব বৈশিষ্ট্যের সাথে সবচেয়ে শক্তিশালীভাবে সম্পর্কিত শীর্ষ ২০-৩০টি শব্দ দেখানো দৃশ্যায়ন। উদাহরণস্বরূপ, এক্সট্রাভার্শনের জন্য একটি বার চার্ট "পার্টি," "ভালোবাসা," "অসাধারণ," "দারুণ সময়" এর জন্য উচ্চ-কম্পাঙ্কের বার দেখাবে।
- লিঙ্গ তুলনা হিটম্যাপ: পুরুষ ও নারী দ্বারা শব্দ বিভাগের (আবেগ, সামাজিক, বস্তু) পার্থক্যমূলক ব্যবহার দেখানো একটি ম্যাট্রিক্স, যা স্পষ্ট বৈসাদৃশ্য তুলে ধরে।
- বয়স ট্র্যাজেক্টরি প্লট: লাইন গ্রাফ যা দেখায় কীভাবে নির্দিষ্ট শব্দ বিভাগের (যেমন, সামাজিক শব্দ, ভবিষ্যৎ-ভিত্তিক শব্দ, স্বাস্থ্য শব্দ) আপেক্ষিক কম্পাঙ্ক অংশগ্রহণকারীর বয়সের একটি ফাংশন হিসেবে পরিবর্তিত হয়।
- সম্পর্ক নেটওয়ার্ক: ব্যক্তিত্ব বৈশিষ্ট্যগুলোকে সম্পর্কিত শব্দ ও বাক্যাংশের ক্লাস্টারের সাথে সংযুক্তকারী একটি নেটওয়ার্ক ডায়াগ্রাম, যা মনোবিজ্ঞান ও শব্দভাণ্ডারের মধ্যে জটিল ম্যাপিং দৃশ্যত প্রদর্শন করে।
যাচাইয়ের বিশাল পরিসরই একটি মূল ফলাফল: ৭০ কোটি ভাষার উদাহরণে পর্যবেক্ষিত ধরণগুলো দুর্দান্ত পরিসংখ্যানগত শক্তি ও দৃঢ়তা প্রদান করে।
6. সমালোচনামূলক বিশ্লেষকের দৃষ্টিভঙ্গি
মূল অন্তর্দৃষ্টি: Schwartz et al.-এর ২০১৩ সালের গবেষণাপত্রটি কেবল একটি গবেষণা নয়; এটি একটি দৃষ্টান্ত পরিবর্তন। এটি মনোবিজ্ঞানের একটি মৌলিক সমস্যা—পর্যবেক্ষণযোগ্য আচরণের মাধ্যমে ব্যক্তিত্বের মতো অন্তর্নিহিত গঠন পরিমাপ করা—আক্রমণ করতে সামাজিক যোগাযোগমাধ্যমের "বিগ ডেটা" কে সফলভাবে অস্ত্র হিসেবে ব্যবহার করেছে। মূল অন্তর্দৃষ্টি হলো যে আমাদের ডিজিটাল নিঃসরণ আমাদের অভ্যন্তরীণ সত্তার একটি উচ্চ-নির্ভুল, আচরণগত প্রতিলিপি। গবেষণাপত্রটি প্রমাণ করে যে একটি যথেষ্ট শক্তিশালী, নিরপেক্ষ লেন্স (উন্মুক্ত-শব্দভাণ্ডার বিশ্লেষণ) প্রয়োগ করে, আপনি সেই প্রতিলিপিটিকে বিস্ময়কর নির্ভুলতার সাথে ডিকোড করতে পারেন, স্টেরিওটাইপ থেকে এগিয়ে গিয়ে সূক্ষ্ম, প্রায়শই অপ্রত্যাশিত, ভাষাগত স্বাক্ষর প্রকাশ করতে পারেন।
যুক্তিগত প্রবাহ: যুক্তিটি মার্জিতভাবে বলপ্রয়োগী: ১) স্বর্ণমান মনস্তাত্ত্বিক উপাত্তের সাথে যুক্ত একটি বিশাল, বাস্তব-বিশ্বের পাঠ্য কর্পাস অর্জন (ফেসবুক + ব্যক্তিত্ব পরীক্ষা)। ২) পূর্বনির্ধারিত অভিধানের তাত্ত্বিক বাঁধন ত্যাগ করা। ৩) মেশিন লার্নিং অ্যালগরিদমকে পরিসংখ্যানগত সংকেতের জন্য সমগ্র ভাষাগত ভূদৃশ্য অনুসন্ধান করতে দেওয়া। ৪) সবচেয়ে শক্তিশালী সংকেতগুলোর ব্যাখ্যা করা, যা সম্পূর্ণ স্পষ্ট (নিউরোটিক মানুষ "হতাশ" বলে) থেকে উজ্জ্বলভাবে সূক্ষ্ম (অধিকারসূচক সর্বনামের লিঙ্গভিত্তিক ব্যবহার) পর্যন্ত বিস্তৃত। উপাত্ত-পরিসর থেকে পদ্ধতিগত উদ্ভাবন হয়ে নতুন আবিষ্কারের দিকে প্রবাহটি আকর্ষণীয় ও পুনরাবৃত্তিযোগ্য।
শক্তি ও ত্রুটি: এর বিশাল শক্তি হলো এর অন্বেষণমূলক ক্ষমতা। বদ্ধ-শব্দভাণ্ডার কাজের (যেমন, LIWC ব্যবহার) বিপরীতে, যা কেবল পূর্ব-বিদ্যমান অনুমান নিশ্চিত বা অস্বীকার করতে পারে, এই পদ্ধতি অনুমান উৎপন্ন করে। এটি একটি আবিষ্কার ইঞ্জিন। এটি কম্পিউটার ভিশনের মতো ক্ষেত্রে প্রচারিত উপাত্ত-চালিত নীতির সাথে সামঞ্জস্যপূর্ণ, যেমন CycleGAN গবেষণাপত্রে (Zhu et al., 2017) চিত্র বৈশিষ্ট্যের অনিরীক্ষিত আবিষ্কারে দেখা যায়, যেখানে মডেলটি ভারী হস্তক্ষেপমূলক মানব লেবেলিং ছাড়াই উপস্থাপনা শেখে। তবে, ত্রুটিটি এর শক্তির আয়না-প্রতিবিম্ব: ব্যাখ্যাগত ঝুঁকি। "স্নোবোর্ডিং" ও নিম্ন নিউরোটিসিজমের মধ্যে একটি সম্পর্ক খুঁজে পাওয়ার অর্থ এই নয় যে স্নোবোর্ডিং স্থিতিশীলতার কারণ; এটি একটি ভ্রান্ত সংযোগ বা একটি তৃতীয় চলক (বয়স, ভূগোল) প্রতিফলিত করতে পারে। গবেষণাপত্রটি, এটি সচেতন থাকা সত্ত্বেও, অত্যধিক ব্যাখ্যার দরজা খুলে দেয়। তদুপরি, ২০১৩ সালের ফেসবুক উপাত্তের উপর এর নির্ভরতা অন্যান্য প্ল্যাটফর্ম (টুইটার, টিকটক) ও আধুনিক অনলাইন ভাষার জন্য সাধারণীকরণযোগ্যতা নিয়ে প্রশ্ন তোলে।
কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য, আদেশটি স্পষ্ট: তত্ত্ব-চালিত গবেষণার একটি পরিপূরক সরঞ্জাম হিসেবে উন্মুক্ত-শব্দভাণ্ডার পদ্ধতি গ্রহণ করুন। অনুমান উৎপাদনের জন্য এটি ব্যবহার করুন, তারপর নিয়ন্ত্রিত গবেষণার মাধ্যমে যাচাই করুন। শিল্পের জন্য, প্রভাব ব্যাপক। এই পদ্ধতিটি লক্ষ্যবস্তু বিজ্ঞাপন, বিষয়বস্তু সুপারিশ এবং এমনকি ঝুঁকি মূল্যায়নের (যেমন, বীমা বা অর্থসংস্থানে) জন্য আধুনিক মনস্তাত্ত্বিক প্রোফাইলিং-এর মেরুদণ্ড। কার্যকরী অন্তর্দৃষ্টি হলো আপনার মালিকানাধীন পাঠ্য উপাত্তের জন্য—গ্রাহক পর্যালোচনা, সহায়তা টিকিট, অভ্যন্তরীণ যোগাযোগ—অনুরূপ পাইপলাইন তৈরি করা লুকানো বিভাজন ও আচরণগত পূর্বাভাসক উন্মোচনের জন্য। তবে, চরম নৈতিক সতর্কতার সাথে এগিয়ে যান। ভাষা থেকে অন্তরঙ্গ মনস্তাত্ত্বিক বৈশিষ্ট্য অনুমান করার ক্ষমতা একটি দ্বিধাবিভক্ত তরবারি, যা হেরফের ও পক্ষপাত রোধ করতে শক্তিশালী শাসন কাঠামোর দাবি রাখে, AI Now Institute এবং অন্যত্রের গবেষকদের পরবর্তী সমালোচনায় এই উদ্বেগ তুলে ধরা হয়েছে।
7. ভবিষ্যৎ প্রয়োগ ও দিকনির্দেশনা
এখানে প্রতিষ্ঠিত উন্মুক্ত-শব্দভাণ্ডার কাঠামো অসংখ্য গবেষণা ও প্রয়োগের পথ তৈরি করেছে:
- মানসিক স্বাস্থ্য ট্রায়েজ: সামাজিক যোগাযোগমাধ্যমে হতাশা, উদ্বেগ বা আত্মহত্যার চিন্তার ঝুঁকিতে থাকা ব্যক্তিদের শনাক্ত করার জন্য নিষ্ক্রিয়, ভাষা-ভিত্তিক স্ক্রিনিং সরঞ্জাম তৈরি, যা প্রাথমিক হস্তক্ষেপ সক্ষম করে।
- ব্যক্তিগতকৃত শিক্ষা ও কোচিং: একটি ব্যবহারকারীর লেখা থেকে অনুমিত ব্যক্তিত্ব ও শেখার শৈলীর ভাষাগত চিহ্নের ভিত্তিতে শিক্ষামূলক বিষয়বস্তু, ক্যারিয়ার পরামর্শ বা সুস্থতা কোচিংয়ের উপযোগী করা।
- গতিশীল ব্যক্তিত্ব মূল্যায়ন: স্থির পরীক্ষার বাইরে গিয়ে ইমেল, বার্তা বা নথি লেখার শৈলী বিশ্লেষণের মাধ্যমে সময়ের সাথে সাথে ব্যক্তিত্বের অবস্থা ও পরিবর্তনের অবিচ্ছিন্ন, পরিবেষ্টিত মূল্যায়নে যাওয়া।
- সাংস্কৃতিক মনোবিজ্ঞান: বিভিন্ন ভাষায় সামাজিক যোগাযোগমাধ্যমের উপাত্তে ডিএলএ প্রয়োগ করে আবিষ্কার করা যে কোন ব্যক্তিত্ব-ভাষা সংযোগ সার্বজনীন এবং কোনটি সাংস্কৃতিকভাবে নির্দিষ্ট।
- বহুমুখী উপাত্তের সাথে একীকরণ: পরবর্তী সীমান্ত হলো ভাষাগত বিশ্লেষণকে অন্যান্য ডিজিটাল পদচিহ্নের সাথে—চিত্র পছন্দ, সঙ্গীত শোনার ইতিহাস, সামাজিক নেটওয়ার্ক কাঠামো—একত্রিত করে সমৃদ্ধ, বহু-মুখী মনস্তাত্ত্বিক মডেল তৈরি করা, যা World Well-Being Project এবং অন্যান্যদের পরবর্তী কাজে দেখা গেছে।
- নৈতিক AI ও পক্ষপাত দূরীকরণ: AI সিস্টেমে পক্ষপাত নিরীক্ষণ ও প্রশমিত করতে এই কৌশলগুলো ব্যবহার করা। ভাষা মডেল কীভাবে নির্দিষ্ট উপভাষা বা বক্তৃতার ধরণকে স্টেরিওটাইপিক বৈশিষ্ট্যের সাথে যুক্ত করতে পারে তা বোঝার মাধ্যমে, ডেভেলপাররা প্রশিক্ষণ উপাত্ত ও অ্যালগরিদমের পক্ষপাত দূর করতে কাজ করতে পারেন।
8. তথ্যসূত্র
- Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., ... & Ungar, L. H. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PLoS ONE, 8(9), e73791.
- Pennebaker, J. W., Boyd, R. L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC2015. University of Texas at Austin.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (অন্য ডোমেনে অনিরীক্ষিত, উপাত্ত-চালিত বৈশিষ্ট্য আবিষ্কারের উদাহরণ হিসেবে উদ্ধৃত)।
- Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022. (ভিত্তিগত বিষয় মডেলিং কৌশল)।
- AI Now Institute. (2019). Disability, Bias, and AI. New York University. (অ্যালগরিদমিক প্রোফাইলিং-এ নৈতিকতা ও পক্ষপাতের সমালোচনামূলক দৃষ্টিভঙ্গির জন্য)।
- Eichstaedt, J. C., et al. (2021). Facebook language predicts depression in medical records. Proceedings of the National Academy of Sciences, 118(9). (মানসিক স্বাস্থ্যে পরবর্তী প্রয়োগকৃত কাজের উদাহরণ)।