1. Utangulizi na Muhtasari
Utafiti huu unawakilisha uchunguzi wa kihistoria katika makutano ya isimu ya kompyuta na saikolojia. Kwa kuchambua seti ya data isiyo na kifani ya maneno milioni 700, misemo, na mifano ya mada kutoka kwa watumiaji 75,000 wa Facebook, timu ya watafiti ilianzisha mbinu ya msamiati wazi ili kuelewa jinsi lugha katika mitandao ya kijamii inavyohusiana na sifa za msingi za kibinadamu: tabia, jinsia, na umri. Kazi hii inapita zaidi ya uchambuzi wa jadi, uliowekwa mapema wa jamii za maneno (kama LIWC) na kuacha data yenyewe ionyeshe alama za lugha zinazotofautisha watu binafsi na makundi.
Dhana kuu ni kwamba data kubwa ya lugha asilia inayozalishwa kwenye majukwaa kama Facebook hutoa mtazamo wa kipekee katika saikolojia ya kibinadamu. Utafiti unaonyesha kwamba mbinu hii inayotokana na data inaweza kugundua miunganisho ya uhalisi wa uso (mfano, watu katika maeneo ya juu wakijadili milima), kurudia matokeo yanayojulikana ya kisaikolojia (mfano, wasiwasi unaohusishwa na maneno kama "huzuni"), na, muhimu zaidi, kuzalisha nadharia mpya kuhusu tabia ya kibinadamu ambazo hazikuwa na maandalizi ya watafiti.
2. Mbinu na Data
Uadilifu wa kimbinu wa utafiti huu ni sehemu muhimu ya mchango wake. Unachanganya ukusanyaji wa data kwa kiwango kikubwa na mbinu za uchambuzi za uvumbuzi.
2.1 Ukusanyaji wa Data na Washiriki
Seti ya data ilikuwa ya kiwango kikubwa kwa wakati wake:
- Washiriki: Wajitolea 75,000.
- Chanzo cha Data: Sasisho za hali na ujumbe wa Facebook.
- Kiasi cha Maandishi: Zaidi ya ujumbe milioni 15.4, ikitoa mifano milioni 700 ya lugha inayoweza kuchambuliwa (maneno, misemo, mada).
- Vipimo vya Kisaikolojia: Washiriki walikamilisha vipimo vya kawaida vya tabia (mfano, Orodha ya Tabia Tano Kubwa), ikitoa lebo za ukweli wa msingi kwa uchambuzi.
2.2 Mbinu ya Msamiati Wazi
Huu ndio uvumbuzi mkuu wa utafiti huu. Tofauti na mbinu za msamiati uliofungwa ambazo hujaribu nadharia kuhusu jamii za maneno zilizowekwa mapema (mfano, "maneno ya hisia hasi"), mbinu ya msamiati wazi ni ya uchunguzi na inayotokana na data. Algorithm inachunguza mkusanyiko mzima wa maandishi kutambua kipengele chochote cha lugha—neno moja, misemo yenye maneno mengi, au mada zilizofichika—ambazo zinahusiana kihisabati na kigezo lengwa (mfano, wasiwasi wa hali ya juu). Hii inaondoa upendeleo wa mtafiti katika kuchagua vipengele na kuruhusu ugunduzi wa mienendo isiyotarajiwa ya lugha.
2.3 Uchambuzi wa Lugha Tofauti (DLA)
DLA ndio utekelezaji maalum wa mbinu ya msamiati wazi inayotumika hapa. Inafanya kazi kwa:
- Uchimbaji wa Vipengele: Kutambua kiotomatiki n-grams zote (mlolongo wa maneno) na mada zilizofichika kutoka kwenye mkusanyiko wa maandishi.
- Hesabu ya Uunganisho: Kuhesabu nguvu ya uhusiano kati ya kila kipengele cha lugha na kigezo cha kijamii/cha kisaikolojia kinachovutia.
- Kupanga na Ufafanuzi: Kupanga vipengele kulingana na nguvu ya uunganisho wao kutambua alama za kipekee zaidi kwa kikundi au sifa fulani.
3. Matokeo Muhimu
Uchambuzi ulitoa ufahamu mwingi na wa kina kuhusu saikolojia ya matumizi ya lugha.
3.1 Lugha na Sifa za Tabia
Uhusiano mkali ulipatikana kati ya lugha na sifa tano kubwa za tabia:
- Wasiwasi: Kuhusishwa na maneno kama "huzuni," "wasiwasi," na misemo kama "nimechoka," ikionyesha mwelekeo kwenye hisia hasi na vichocheo vya msongo.
- Ujulikaji: Kuhusishwa na maneno ya kijamii ("sherehe," "zuri sana," "upendo"), milalamiko ("haha," "woo"), na marejeo ya matukio ya kijamii.
- Ufunguzi kwa Uzoefu: Kuhusishwa na maneno ya urembo na kiakili ("sanaa," "falsafa," "ulimwengu"), na matumizi ya msamiati tata.
- Upendano: Unaonyeshwa na lugha ya kujali ("sisi," "asante," "ajabu") na matumizi machache ya maneno ya kuapa.
- Uangalifu: Kuhusishwa na maneno yanayolenga mafanikio ("kazi," "mpango," "mafanikio") na marejeo machache ya kuridhika ya papo hapo (mfano, "usiku wa leo," "kinywaji").
3.2 Tofauti za Lugha Kulingana na Jinsia
Utafiti ulithibitisha na kuboresha tofauti za jinsia zinazojulikana:
- Wanawake walitumia maneno zaidi ya hisia, maneno ya kijamii, na vivumishi vya nafsi ("mimi," "wewe," "sisi").
- Wanaume walitumia marejeo zaidi ya vitu, maneno ya kuapa, na mada zisizo za kibinafsi (michezo, siasa).
- Ufahamu Muhimu: Wanaume walikuwa na uwezekano mkubwa wa kutumia kivumishi cha umiliki "yangu" wakitaja "mke" au "msichana," wakati wanawake hawakuonyesha muundo huo huo na "mume" au "mvulana." Hii inaonyesha tofauti za kina katika usemi wa umiliki wa mahusiano.
3.3 Mienendo ya Lugha Inayohusiana na Umri
Matumizi ya lugha yalibadilika kwa utaratibu na umri:
- Watu wachanga: Marejeo zaidi ya shughuli za kijamii, maisha ya usiku, na teknolojia ("simu," "mtandao").
- Watu wazima wakubwa: Mazungumzo yaliongezeka kuhusu familia, afya, na mambo yanayohusiana na kazi. Matumizi makubwa ya maneno ya hisia chanya kwa ujumla.
- Matokeo yanalingana na nadharia ya uteuzi wa kihisia ya kijamii, ambayo inasema mabadiliko katika vipaumbele vya motisha na umri.
4. Maelezo ya Kiufundi na Mfumo
4.1 Msingi wa Hisabati
Kiini cha DLA kinajumuisha kuhesabu habari ya pande zote za pande (PMI) au mgawo wa uunganisho kati ya kipengele cha lugha $f$ (mfano, neno) na sifa ya binary au endelevu $a$ (mfano, jinsia au alama ya wasiwasi). Kwa sifa ya binary:
$PMI(f, a) = \log \frac{P(f, a)}{P(f)P(a)}$
Ambapo $P(f, a)$ ndio uwezekano wa pamoja wa kipengele na sifa kutokea pamoja (mfano, neno "zuri sana" likionekana katika ujumbe wa mtu mwenye ujulikaji), na $P(f)$ na $P(a)$ ndio uwezekano wa pembeni. Vipengele vinawekwa kwa mpangilio kulingana na alama zao za PMI au uunganisho kutambua alama za kipekee zaidi za kikundi $a$.
Kwa mfano wa mada, ambao uwezekano ulitumika kuzalisha "mifano ya mada," mbinu kama Usambazaji wa Latent Dirichlet (LDA) zilitumika. LDA inaiga kila hati kama mchanganyiko wa mada $K$, na kila mada kama usambazaji juu ya maneno. Uwezekano wa neno $w$ katika hati $d$ unatolewa na:
$P(w|d) = \sum_{k=1}^{K} P(w|z=k) P(z=k|d)$
ambapo $z$ ndio kigezo cha mada kilichofichika. Mada hizi zilizogunduliwa kisha zinakuwa vipengele katika DLA.
4.2 Mfano wa Mfumo wa Uchambuzi
Kesi: Kutambua Alama za Lugha za Uangalifu wa Juu
- Maandalizi ya Data: Gawanya washiriki 75,000 katika makundi mawili kulingana na mgawanyiko wa kati wa alama zao za Uangalifu (Uangalifu wa Juu dhidi ya Uangalifu wa Chini).
- Uzalishaji wa Vipengele: Chambua ujumbe wote wa Facebook kuchimba:
- Unigrams (maneno moja): "kazi," "mpango," "kumaliza."
- Bigrams (misemo ya maneno mawili): "kazi yangu," "wiki ijayo," "kufanya."
- Mada (kupitia LDA): mfano, Mada 23: {kazi: 0.05, mradi: 0.04, tarehe ya mwisho: 0.03, timu: 0.02, ...}.
- Kupima Takwimu: Kwa kila kipengele, fanya jaribio la chi-squared au hesabu PMI kulinganisha mzunguko wake katika kikundi cha Uangalifu wa Juu dhidi ya kikundi cha Uangalifu wa Chini.
- Ufafanuzi wa Matokeo: Panga vipengele kulingana na nguvu ya uhusiano wao. Vipengele vya juu zaidi kwa Uangalifu wa Juu vinaweza kujumuisha "kazi," "mpango," "kumaliza," bigram "malengo yangu," na mizigo ya juu kwenye mada za LDA zinazohusiana na utaratibu na mafanikio. Vipengele hivi kwa pamoja huonyesha picha inayotokana na data ya alama ya lugha ya watu wenye uangalifu.
5. Matokeo na Uwasilishaji wa Data
Ingawa PDF asili inaweza isiwe na takwimu, matokeo yanaweza kufikiriwa kupitia uwasilishaji muhimu:
- Wingu la Maneno/Chati za Mistari kwa Sifa: Uwasilishaji unaonyesha maneno 20-30 ya juu yanayohusishwa kwa nguvu na kila sifa ya tabia ya Tano Kubwa. Kwa mfano, chati ya mstari kwa Ujulikaji ingeonyesha baa za mzunguko wa juu kwa "sherehe," "upendo," "zuri sana," "wakati mzuri."
- Ramani ya Joto ya Kulinganisha Jinsia: Matriki inayoonyesha matumizi tofauti ya jamii za maneno (hisa, kijamii, kitu) na wanaume na wanawake, ikionyesha tofauti kubwa.
- Picha za Mwendo wa Umri: Grafu za mstari zinazoonyesha jinsi mzunguko wa jamaa wa jamii fulani za maneno (mfano, maneno ya kijamii, maneno yanayolenga baadaye, maneno ya afya) inavyobadilika kama kazi ya umri wa mshiriki.
- Mtandao wa Uunganisho: Mchoro wa mtandao unaounganisha sifa za tabia na vikundi vya maneno na misemo yanayohusiana, ukionyesha kwa kuona ramani tata kati ya saikolojia na msamiati.
Kiwango kikubwa cha uthibitisho ndio matokeo muhimu: mienendo iliyozingatiwa katika mifano milioni 700 ya lugha hutoa nguvu kubwa ya takwimu na uthabiti.
6. Mtazamo wa Mchambuzi Mkali
Ufahamu Mkuu: Karatasi ya Schwartz et al. ya 2013 sio tu utafiti; ni mabadiliko ya dhana. Imefanikiwa kutumia "data kubwa" ya mitandao ya kijamii kushambulia tatizo la msingi katika saikolojia—kupima miundo iliyofichika kama tabia kupitia tabia inayoweza kuonekana. Ufahamu mkuu ni kwamba uchafu wetu wa kidijitali ni nakala ya tabia ya usahihi wa juu ya ndani yetu wenyewe. Karatasi inathibitisha kwamba kwa kutumia lenzi yenye nguvu ya kutosha, isiyo na imani (uchambuzi wa msamiati wazi), unaweza kusimbua nakala hiyo kwa usahihi wa kushangaza, ukipita zaidi ya dhana za kawaida kufunua saini za kina za lugha, mara nyingi zisizoeleweka.
Mtiririko wa Mantiki: Mantiki ni nzuri na ya nguvu: 1) Pata mkusanyiko mkubwa wa maandishi wa ulimwengu halisi unaohusishwa na data ya kiwango cha dhahabu ya kisaikometri (Facebook + vipimo vya tabia). 2) Acha kamusi zilizowekwa mapema za kinadharia. 3) Acha algorithm za kujifunza mashine zichungue eneo lote la lugha kwa ishara za takwimu. 4) Fafanua ishara zenye nguvu zaidi, ambazo zinatoka kwenye dhahiri kabisa (watu wenye wasiwasi husema "huzuni") hadi hila nzuri (matumizi ya jinsia ya vivumishi vya umiliki). Mtiririko kutoka kiwango cha data hadi uvumbuzi wa mbinu hadi ugunduzi mpya ni wa kulazimisha na unaweza kurudiwa.
Nguvu na Kasoro: Nguvu yake kubwa ni nguvu yake ya uchunguzi. Tofauti na kazi ya msamiati uliofungwa (mfano, kutumia LIWC), ambayo inaweza tu kuthibitisha au kukataa nadharia zilizopo, mbinu hii inazalisha nadharia. Ni injini ya ugunduzi. Hii inalingana na maadili yanayotokana na data yanayotangazwa katika nyanja kama maono ya kompyuta, kama inavyoonekana katika ugunduzi usio na usimamizi wa vipengele vya picha katika kazi kama karatasi ya CycleGAN (Zhu et al., 2017), ambapo mfano unajifunza uwakilishi bila lebo nzito za kibinadamu. Hata hivyo, kasoro ni kioo cha nguvu yake: hatari ya ufafanuzi. Kupata uhusiano kati ya "snowboarding" na wasiwasi wa chini haimaanishi snowboarding husababisha utulivu; inaweza kuwa kiungo cha uwongo au kuonyesha kigezo cha tatu (umri, jiografia). Karatasi, ingawa inajua hili, inafungua mlango wa ufafanuzi kupita kiasi. Zaidi ya hayo, kutegemea kwa data ya Facebook kutoka 201inauliza maswali kuhusu uwezekano wa kutumika kwa majukwaa mengine (Twitter, TikTok) na lugha ya kisasa ya mtandaoni.
Ufahamu Unaoweza Kutekelezwa: Kwa watafiti, agizo ni wazi: kukubali mbinu za msamiati wazi kama zana ya nyongeza kwa utafiti unaoongozwa na nadharia. Tumia kwa uzalishaji wa nadharia, kisha thibitisha kwa masomo yaliyodhibitiwa. Kwa tasnia, athari ni kubwa. Mbinu hii ndio msingi wa uchambuzi wa kisasa wa saikografia kwa utangazaji unaolengwa, mapendekezo ya maudhui, na hata tathmini ya hatari (mfano, katika bima au fedha). Ufahamu unaoweza kutekelezwa ni kujenga mifumo sawa kwa data yako ya maandishi ya kibiashara—maoni ya wateja, tiketi za usaidizi, mawasiliano ya ndani—kugundua mgawanyiko uliofichika na viashiria vya tabia. Hata hivyo, endelea kwa tahadhari kali ya kimaadili. Uwezo wa kudhania sifa za kisaikolojia za karibu kutoka kwa lugha ni upanga wenye makali mawili, unaohitaji mifumo imara ya utawala ili kuzuia udanganyifu na upendeleo, wasiwasi ulioangaziwa katika ukosoaji unaofuata kutoka kwa watafiti wa Taasisi ya AI Sasa na mahali pengine.
7. Matumizi ya Baadaye na Mwelekeo
Mfumo wa msamiati wazi uliowekwa hapa umezaa njia nyingi za utafiti na matumizi:
- Uchambuzi wa Afya ya Akili: Kukuza zana za uchunguzi za msingi za lugha kwenye mitandao ya kijamii kutambua watu walio katika hatari ya unyogovu, wasiwasi, au wazo la kujiua, kuwezesha ushirikiano wa mapema.
- Elimu ya Kibinafsi na Ufundishaji: Kubinafsisha maudhui ya elimu, ushauri wa kazi, au ufundishaji wa ustawi kulingana na alama za lugha za tabia na mtindo wa kujifunza unaodhaniwa kutoka kwa maandishi ya mtumiaji.
- Tathmini ya Tabia ya Kukua: Kuendelea zaidi ya vipimo vya kudumu hadi tathmini endelevu, ya mazingira ya hali za tabia na mabadiliko kwa muda kupitia uchambuzi wa barua pepe, ujumbe, au mitindo ya kuandika hati.
- Saikolojia ya Kikanda: Kutumia DLA kwa data ya mitandao ya kijamii katika lugha tofauti kugundua ni uhusiano gani wa tabia-lugha ni wa ulimwengu wote na ni upi maalum wa kitamaduni.
- Ushirikiano na Data ya Njia Nyingi: Mipaka ijayo ni kuchanganya uchambuzi wa lugha na nyayo zingine za kidijitali—mapendeleo ya picha, historia ya kusikiliza muziki, muundo wa mtandao wa kijamii—kuunda miundo tajiri zaidi ya kisaikolojia ya njia nyingi, mwelekeo unaoonekana katika kazi ya baadaye kutoka kwa Mradi wa Ustawi wa Dunia na wengine.
- AI ya Kimaadili na Kuondoa Upendeleo: Kutumia mbinu hizi kukagua na kupunguza upendeleo katika mifumo ya AI. Kwa kuelewa jinsi miundo ya lugha inavyoweza kuhusisha lahaja fulani au mienendo ya usemi na sifa za dhana za kawaida, wasanidi programu wanaweza kufanya kazi kuondoa upendeleo katika data ya mafunzo na algorithm.
8. Marejeo
- Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., ... & Ungar, L. H. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PLoS ONE, 8(9), e73791.
- Pennebaker, J. W., Boyd, R. L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC2015. University of Texas at Austin.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (Imetajwa kama mfano wa ugunduzi wa kipengele usio na usimamizi, unaotokana na data katika nyanja nyingine).
- Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022. (Mbinu ya msingi ya mfano wa mada).
- AI Now Institute. (2019). Disability, Bias, and AI. New York University. (Kwa mtazamo mkali juu ya maadili na upendeleo katika uchambuzi wa algorithm).
- Eichstaedt, J. C., et al. (2021). Facebook language predicts depression in medical records. Proceedings of the National Academy of Sciences, 118(9). (Mfano wa kazi ya baadaye iliyotumika katika afya ya akili).