Kutathmini Mifano ya Lugha ya Neural kama Mifano ya Kiutambuzi ya Ujifunzaji wa Lugha

1 Utangulizi

Makala hii inachunguza kwa kina mwenendo unaokua wa kutumia mifano ya lugha ya neural (LM) kama mbadala wa nadharia za ujifunzaji wa lugha ya binadamu. Ingawa LM zimefanikiwa kwa kiwango kikubwa katika kazi mbalimbali za NLP, umuhimu wao kama mifano ya kiutambuzi unatiliwa shaka kutokana na tofauti za msingi katika kiwango na asili ya data ya mafunzo ikilinganishwa na ujifunzaji wa lugha kwa watoto.

Waandishi wanadai kuwa viwango maarufu vya tathmini ya kisintaksia (k.m., BLiMP, SyntaxGym) huenda vikakosa utofauti wa kimuundo na uhalisi wa kisaikolojia unaohitajika kutathmini ikiwa LM zinajifunza lugha kwa njia inayofanana na ya binadamu. Wanatetea kutumia seti za data zilizochakatwa kwa uangalifu zaidi za kilugha kama seti ya data ya LI-Adger, ambayo ina maamuzi ya kiwango cha kukubalika kutoka kwa wenyeji wa lugha.

1.1 Maana kwa Ujifunzaji wa Lugha?

Sehemu hii inasisitiza tofauti kubwa ya data: mifano kama BERT hufunzwa kwa mabilioni ya alama, huku mtoto akipokea maneno milioni kumi tu kwa mwaka. Kazi ya hivi karibuni inajaribu kuziba pengo hili kwa kufunza mifano kwa hotuba inayoelekezwa kwa watoto (CDS) kwa kiwango kinachofanana zaidi na cha binadamu (k.m., alama milioni 5). Swali kuu ni ikiwa mifano iliyofunzwa kwa mchango huo "ulioondolewa" bado inaweza kufanya vizuri kwenye viwango vya tabia na hivyo kutumika kama mifano halali ya kiutambuzi.

2 Uelewa Mkuu: Kuwaza kwa Viwango vya Kipimo

Nadharia kuu ya makala hii ni changamoto ya moja kwa moja kwa utulivu wa jamii ya NLP. Utafiti mzuri kwenye viwango vya kipimo vilivyotengenezwa kwa kiolezo, kama BLiMP, huunda mwongozo wa ustadi wa kisarufi. Waandishi wanaonyesha hii kama kipengele cha kibinadamu cha mbinu. LM zinapopimwa kwenye seti ya data ya LI-Adger—seti iliyojengwa kwa uangalifu ya jozi ndogo zilizoundwa na wanaanu ya kinadharia kuchunguza kanuni maalum za kisintaksia—tathmini zao hutofautiana kwa kiasi kikubwa na maamuzi ya binadamu. Hii sio tu pengo la utendaji; ni ushahidi wa kutolingana kwa msingi wa uwakilishi. LM huenda zinajifunza muundo wa takwimu wa uso ambao unalingana kwa bahati nasibu na violezo rahisi vya kisintaksia, sio miundo ya juu, ya ngazi inayounga mkono sarufi ya binadamu.

3 Mtiririko wa Mantiki: Kutoka Tofauti ya Data hadi Ukosoaji wa Mbinu

Hoja inaendelea kwa usahihi wa upasuaji. Kwanza, inaweka pengo lisilokataliwa la kiwango cha data kati ya mafunzo ya LM na upatikanaji wa watoto, ikielezea utafiti wa "mafunzo ya kiwango kidogo" kama marekebisho muhimu lakini yasiyotosha. Pili, inaonyesha kuwa hata kwenye uwanja huu uliosawazishwa (data ndogo), LM zinaweza kufananishwa na viwango vya msingi rahisi, na hivyo kutilia shaka thamani yao ya ziada ya kiutambuzi. Mzunguko wa mantiki ni ukosoaji wa muundo wa kiwango cha kipimo: kazi zilizotengenezwa kwa kiolezo hazina "utofauti wa kimuundo" wa uchunguzi halisi wa kilugha. Ushahidi wa mwisho, wenye kulaumiwa, unatoka kwenye jaribio la LI-Adger, ambapo utendaji wa LM unapingana wazi na utambuzi wa kilugha wa binadamu. Mtiririko ni: taarifa ya tatizo (kutolingana kwa data) -> suluhisho lililojaribiwa (mafunzo ya kiwango kidogo) -> kufunua tatizo la kina (tathmini yenye kasoro) -> ushahidi wa kupinga wenye kuthibitisha.

4 Nguvu na Kasoro: Uchambuzi Mkali

Nguvu: Nguvu kuu ya makala hii ni ukali wake wa mbinu na msingi wa taaluma nyingi. Haukosoi tu; hutoa mbadala bora (LI-Adger). Kwa kuunganisha tathmini na isimu ya kinadharia ya msingi na isimu ya kisaikolojia, inainua kiwango cha kile kinachounda ushahidi wa ujuzi "unaofanana na wa binadamu". Mwelekeo wa kiwango cha data pia ni wa kutabiri, unaolingana na mienendo mikubwa katika ML yenye ufanisi.

Kasoro na Ukosefu: Uchambuzi huu, ingawa mkali, huenda ukazidisha kushindwa. Je, kutofautiana kwenye LI-Adger kunabatilisha mifano yote kati ya ujifunzaji wa LM na upatikanaji? Labda sivyo. Makala yanaweza kushiriki zaidi na kile LM zinachofanya kwa usahihi na kwa nini. Zaidi ya hayo, inategemea sana ujuzi wa kisintaksia; mfano kamili zaidi wa kiutambuzi lazima pia uzingatie maana, matumizi ya lugha, na mambo ya kijamii ya ujifunzaji. Wito wa "data yenye ukweli zaidi" ni halali lakini haujafafanuliwa vizuri—tunamuaje mfano wa asili ya mwingiliano, ya njia nyingi, na yenye makosa ya mchango unaoelekezwa kwa watoto?

5 Uelewa Unaoweza Kutekelezwa: Njia ya Kusonga Mbele

Kwa watafiti, agizo ni wazi: acha faraja ya viwango vya kipimo rahisi. Unganisha rasilimali kutoka kwa isimu ya kinadharia (kama mfano wa LI-Adger) na saikolojia ya maendeleo ndani ya seti za tathmini. Kipaumbele uundaji wa "viwango vya kipimo vya kiutambuzi" vinavyopima sifa za ujifunzaji wa lugha ya binadamu: ujumuishaji kutoka kwa data chache, uthabiti dhidi ya kelele, na kufuata kanuni za kisarufi za juu. Kwa watengenezaji wa mifano, lengo linapaswa kubadilika kutoka kuongeza alama za kiwango cha kipimo hadi kubuni miundo na mifumo ya mafunzo ambayo ni yenye ufanisi wa data na inaweza kujifunza kutoka kwa mchango unaofanana na wa binadamu (k.m., kujumuisha ujifunzaji wa mtaala au utaratibu wa ujifunzaji unaoongozwa na maendeleo). Uelewa wa mwisho: kujenga mfano wa kweli wa kiutambuzi ni tatizo tofauti—na gumu zaidi—kuliko kujenga mfumo wa NLP wenye utendaji mzuri.

6 Uchambuzi wa Asili: Pengo la Kiutambuzi katika Uundaji wa Lugha

Makala hii ya Vázquez Martínez na wenzake inatoa ukosoaji muhimu na wenye kufanya mtu ajitambue katika enzi ambayo mara nyingi hushangazwa na kiwango. Inatambua kwa usahihi msongo wa msingi: wakati LM za kisasa, hasa mifano kubwa ya lugha (LLM), zinaonyesha ustadi wa kisawa wa lugha wa uso, njia yao ya kufikia ustadi huo ni tofauti sana na ya mtoto. Mwelekeo wa waandishi kwenye kutotosha kwa kiwango cha kipimo ni mzuri hasa. Inalingana na wasiwasi katika nyanja zingine za AI ambapo utendaji wa kiwango cha kipimo hauwezi kubadilishwa kuwa akili thabiti, inayoweza kujumuishwa. Kwa mfano, katika taswira ya kompyuta, mifano inayofanya vizuri kwenye ImageNet inaweza kudanganywa na usumbufu rahisi wa adui, na hivyo kufunua ukosefu wa uelewa wa kweli wa kuona—jambo lililoelezewa kwa kina katika utafiti kutoka taasisi kama MIT na Google Brain. Vile vile, makala yanaonyesha kuwa mafanikio ya LM kwenye BLiMP yanaweza kuwa athari ya aina hiyo ya "Clever Hans", ambapo mifano inatumia utaratibu wa takwimu katika ujenzi wa kiwango cha kipimo badala ya kujifunza kanuni ya msingi ya kisintaksia.

Uteuzi wa seti ya data ya LI-Adger ndio mchango muhimu zaidi wa makala hii. Kwa kuweka tathmini katika jozi ndogo na maamuzi ya kiwango cha kukubalika—kiwango cha dhahabu katika sintaksia ya kinadharia—inamlazimisha mfano kuonyesha ujuzi wa usahihi wa kisarufi, sio uwezekano tu. Ugunduzi kwamba LM zinashindwa hapa ni muhimu. Unapendekeza kuwa usambazaji wa uwezekano uliojifunza kutoka kwa mkusanyiko mkubwa wa maandishi ($P(w_n | w_{1:n-1})$) haukutakiwi kukutana na maamuzi ya kiwango au ya kiwango kinachojulikana na ujuzi wa kisarufi wa binadamu. Hii inalingana na hoja za wanaanu kama Noam Chomsky, ambao kwa muda mrefu wamedai kuwa ujifunzaji wa takwimu kutoka kwa aina za uso hautoshi kuelezea uhitaji wa msukumo na asili ya juu ya kanuni za kisintaksia.

Hata hivyo, hitimisho la makala halipaswi kuwa LM hazina maana kwa sayansi ya kiutambuzi. Badala yake, inaweka upya changamoto. Baadaye iko katika "muundo wa kiutambuzi unaojulikana". Hii inaweza kuhusisha kujumuisha upendeleo wa kufikiria unaoongozwa na nadharia ya kilugha (k.m., mwelekeo wa muundo wa ngazi), kama inavyoonekana katika baadhi ya mbinu za nevisimbu, au kubuni malengo ya mafunzo yanayozidi utabiri wa neno linalofuata. Kazi ya watafiti kama Brenden Lake na Marco Baroni kuhusu ujifunzaji wa chache na utungaji inaelekea kwenye mwelekeo huu. Njia ya mbele sio kuachana na LM lakini kuzipima kwa ukali dhidi ya viwango sahihi vya kipimo vya kiutambuzi na kuzibuni upya kwa mzunguko kulingana na kushindwa, sawa na mzunguko wa nadharia na jaribio katika sayansi zingine.

7 Maelezo ya Kiufundi na Mfumo wa Hisabati

Mbinu kuu ya tathmini inayojadiliwa ni kutumia uwezekano wa pato la mfano wa lugha kutabiri maamuzi ya kukubalika ya binadamu. Kwa sentensi $S = w_1, w_2, ..., w_n$, LM ya kawaida ya kujirejesha hupeana uwezekano: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ ambapo $\theta$ ni vigezo vya mfano. Mshangao au hasi ya logi ya uwezekano mara nyingi hutumiwa kama mwakilishi wa kutokubalika: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ Dhana ni kwamba uwezekano wa juu (mshangao wa chini) unapaswa kuwa na uhusiano na viwango vya juu vya kukubalika vya binadamu. Ugunduzi muhimu wa makala ni kwamba uhusiano huu unavunjika kwenye seti ya data ya LI-Adger, na hivyo kuonyesha kutokuwepo kwa uhusiano kati ya kipimo cha "usahihi wa kisarufi" cha LM kinachotegemea uwezekano na maamuzi ya binadamu.

Makala pia yanarejelea mifano iliyofunzwa kwa hotuba inayoelekezwa kwa watoto. Changamoto kuu ya kiufundi hapa ni kujifunza kutoka kwa seti ndogo sana za data ($\approx 5\times10^6$ alama) ikilinganishwa na mkusanyiko wa kawaida wa LM ($>10^9$ alama). Hii inahitaji miundo na mbinu bora za mafunzo ili kuepuka kuzidi na kutoa muundo unaoweza kujumuishwa kutoka kwa data chache.

8 Matokeo ya Majaribio na Uchambuzi wa Chati

Makala yanaonyesha matokeo muhimu katika Mchoro 1 (ulioelezewa katika maudhui ya PDF). Chati inalinganisha utendaji wa LM tofauti (BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1) kwenye seti ya data ya LI-Adger dhidi ya kiwango cha msingi cha utendaji wa binadamu.

Ufafanuzi wa Chati: Mstari wima unaowakilisha utendaji wa binadamu unafanya kazi kama kiwango cha kipimo. Chati inaonyesha uhusiano wa mgawo (k.m., $\rho$ ya Spearman) kati ya mshangao wa mfano na viwango vya kukubalika vya binadamu kwa kila LM. Ugunduzi muhimu ni kwamba mistari yote ya LM inashindwa kufikia mstari wa kiwango cha binadamu. Hii inaonyesha kwa macho madai kuu ya makala: hata mifano iliyofunzwa mahsusi kwa data inayofanana na ya watoto (BabyBERTa, AO-CHILDES) inashindwa kufanana na maamuzi ya binadamu kwenye seti hii ya data yenye utata wa kisintaksia. Pengo la utendaji linaonyesha kuwa malengo ya sasa ya mafunzo ya LM hayasababishi upatikanaji wa ujuzi wa kisarufi unaofanana na wa binadamu, kama ilivyopimwa na jaribio hili lenye ukali.

9 Mfumo wa Uchambuzi: Uchunguzi wa Kesi ya LI-Adger

Mfumo: Kutathmini LM kama Mifano ya Kiutambuzi kupitia Kukubalika kwa Jozi Ndogo.

Lengo: Kubaini ikiwa usambazaji wa ndani wa uwezekano wa LM unalingana na utambuzi wa kisarufi wa binadamu kwa sentensi zenye kulinganishwa kimuundo.

Utaratibu:

Uchaguzi wa Kichocheo: Tumia seti ya data kama LI-Adger, ambayo inajumuisha jozi ndogo (k.m., "Who do you think that John saw?" dhidi ya "Who do you think John saw?") ambapo lahaja moja ni ya kisarufi na nyingine haikubaliki au sio ya kisarufi, kulingana na kanuni maalum ya kisintaksia (k.m., kichujio cha "that-trace").
Uulizaji wa Mfano: Kwa kila sentensi $S$ katika jozi ndogo, hesabu mshangao wa wastani wa alama ya mfano: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$.
Uundaji wa Utabiri: Mfano "unapendelea" sentensi yenye mshangao mdogo. Kwa jozi ndogo (A, B), ikiwa $\text{Surprisal}(A) < \text{Surprisal}(B)$, mfano unatabiri A inakubalika zaidi.
Kulinganisha na Data ya Binadamu: Linganisha muundo wa upendeleo wa mfano katika mamia ya jozi kama hizo na maamuzi ya kukubalika yaliyokusanywa kutoka kwa washiriki wa binadamu. Hesabu mgawo wa uhusiano (k.m., $\rho$ ya Spearman) kati ya mshangao wa mfano na alama za kiwango cha binadamu.
Ufafanuzi: Uhusiano mzuri, muhimu wa chanya ungependekeza ujuzi wa LM unalingana na maamuzi ya kisintaksia ya binadamu. Uhusiano mdogo au usio na maana (kama ulivyopatikana katika makala) unaonyesha kutofautiana.

Mfano usio na Msimbo: Fikiria kupima ujuzi wa makubaliano ya kitu-kitenzi katika kifungu kinachosumbua: "The key to the cabinets *are/*is on the table." Binadamu wanaweka kiwango cha "is" kama sahihi. LM ambayo imejifunza kanuni ya juu ya makubaliano (kitu 'key' -> kitenzi 'is') inapaswa kupeana uwezekano wa juu kwa sentensi sahihi. LM inayotegemea takwimu za n-gram za ndani inaweza kudanganywa na ukaribu wa "cabinets" na kupendelea "are." Kutumia mfumo hapo juu kwa jozi nyingi kama hizo kunafunua asili ya ujuzi uliopatikana wa LM.

10 Matumizi ya Baadaye na Mwelekeo wa Utafiti

1. Uundaji wa "Viwango vya Kipimo vya Kiutambuzi": Mwelekeo mkuu ni uundaji wa seti za kiwango cha kipimo zilizosanifishwa, zenye pande nyingi ambazo zinaenda zaidi ya sintaksia kujumuisha semantiki, pragmatiki, na hatua za ujifunzaji wa lugha (k.m., mwamko wa msamiati, makosa ya jumla). Viwango hivi vya kipimo vinapaswa kuundwa pamoja na wanaanu wa kompyuta, wanasaikolojia wa maendeleo, na wanasayansi wa kiutambuzi.

2. Miundo yenye Upendeleo wa Kufikiria wa Kilugha: Mifano ya baadaye inaweza kujumuisha upendeleo wa kimuundo wa wazi. Kwa mfano, miundo ambayo kimsingi inajenga uwakilishi wa ngazi au inalazimisha vikwazo vya kisintaksia wakati wa uzalishaji, ikisogea karibu na mfumo wa kanuni-na-vigezo katika isimu.

3. Mafunzo ya Mwingiliano na Njia Nyingi: Ili kuiga vyema ujifunzaji wa watoto, mifano inaweza kufunzwa sio kwenye maandishi tuli lakini kwenye mtiririko wa data ya mwingiliano, ya njia nyingi (taswira + hotuba + maandishi) ndani ya mazingira yenye msingi, kama ilivyochunguzwa katika utafiti wa AI uliojikita.

4. Ujifunzaji wa Data Yenye Ufanisi na Mtaala: Kuendeleza algoriti za mafunzo zinazofanikiwa kwa data ndogo sana, labda kwa kutekeleza mikakati ya ujifunzaji ya mtaala inayofanana na maendeleo ya utata katika hotuba inayoelekezwa kwa watoto.

5. Kuunganisha na Nevolugha: Kulinganisha uwakilishi wa ndani na mienendo ya usindikaji wa LM na data ya neva kutoka kwa binadamu (k.m., fMRI, EEG) wakati wa kazi za lugha, kama ilivyoanzishwa na kazi ya watafiti katika Taasisi ya McGovern ya MIT, kunaweza kutoa kiwango kipya cha uthibitisho kwa mifano ya kiutambuzi.

11 Marejeo

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.