1. Utangulizi
Ushahidi wa lugha kwa watoto hufuata mlolongo thabiti sana: kuanzia katika uainishaji wa sauti (fonimu), kisha ukuzaji wa msamiati, na hatimaye kufikia ujuzi wa miundo changamano ya kisintaksia. Njia hii ya ukuzaji, inayoonekana kutoka utotoni hadi umri wa takriban miaka sita, inazua maswali muhimu kuhusu kanuni za msingi za kompyuta. Je, hii ya kujifunza kwa hatua ni sifa ya kipekee ya neyrobiolojia ya binadamu, au inaweza kutokea katika mifumo ya bandia? Utafiti huu unashughulikia moja kwa moja swali hili kwa kulinganisha njia za kujifunza za watoto 54 (wenye umri wa miezi 18 hadi miaka 6) na zile za mifano 48 ya GPT-2 iliyofunzwa kutoka mwanzo. Dhana kuu ni kwamba ikiwa hatua zinazofanana zitajitokeza katika zote mbili, inaweza kuashiria vikwazo vya kujifunza vinavyotokana na data vinavyoshirikiwa.
2. Njia ya Utafiti
Utafiti huu unatumia mfumo wa kulinganisha, ukichunguza wanaojifunza wa kibinadamu na wa bandia katika hatua nyingi za ukuzaji wao.
2.1 Usanidi wa Jaribio
Watoto: Uzalishaji wa lugha ulichambuliwa kwa watoto 54. Usemi wao wa hiari na uwezo wao wa kurudia sentensi zenye utata tofauti wa kisintaksia ulitathminiwa, kufuatia njia zilizowekwa na Friedmann et al. (2021).
Mifano ya GPT-2: Mfano 48 wa mfano wa GPT-2 (aina ya parameta 124M) ulifunzwa kutoka kwa uanzishaji wa nasibu kwenye malengo ya kawaida ya kuiga lugha (k.m., WebText). Hali zao za ndani zilichunguzwa kwa vipindi vya kawaida wakati wote wa mafunzo.
2.2 Ukusanyaji wa Data & Uchunguzi
Kundi la uchunguzi wa utambuzi 96 lilitayarishwa kutoka kwa viwango vilivyowekwa:
- BLiMP: Kwa kutathmini ujuzi wa kisarufi katika matukio 67 ya kisintaksia.
- Zorro: Kwa kuchunguza mantiki ya maana na busara ya kawaida.
- BIG-Bench: Kwa kutathmini uwezo mpana wa lugha na utambuzi.
Uchunguzi huu ulitumika kwa mifano ya GPT-2 katika kila kituo cha ukaguzi cha mafunzo na ulitumika kama vipimo vinavyolingana na kazi za uzalishaji za watoto.
3. Matokeo & Uchambuzi
3.1 Ulinganisho wa Njia ya Kujifunza
Uchambuzi ulionyesha kwamba mifano ya GPT-2, kama watoto, hupata ujuzi wa lugha kwa mpangilio wa kimfumo. Kazi rahisi (k.m., makubaliano ya kimsingi ya kisarufi) hufahamika mapema katika mafunzo, wakati kazi ngumu zaidi (k.m., miundo changamani ya kisintaksia kama vishazi vya sifa) zinahitaji hatua nyingi zaidi za mafunzo (zinazolingana na wakati wa ukuzaji).
3.2 Mpango wa Kujifunza Sambamba
Upatikanaji muhimu ni asili ya sambamba ya kujifunza. Hata kazi ambazo hufahamika kabisa mwishoni mwa mafunzo zinaonyesha uboreshaji unaoweza kupimika kutoka hatua za kwanza kabisa. Hii inaonyesha kwamba mfano hujenga uwakilishi wa msingi ambao unaboreshwa kila wakati, badala ya kujifunza ujuzi kwa mlolongo mkali na uliotengwa.
3.3 Hatua za Pamoja dhidi ya Zilizotofautiana
Utafiti huu unatambua mwingiliano na tofauti muhimu:
- Zinazoshirikiwa: Maendeleo mapana kutoka kwa aina rahisi za kisintaksia hadi zile changamani zaidi.
- Zilizotofautiana: Mpangilio maalum wa baadhi ya ujuzi ndogo ulitofautiana. Kwa mfano, mifano inaweza kupata sheria fulani rasmi za kisintaksia kwa mpangilio tofauti na watoto, labda kwa sababu ya tofauti katika usambazaji wa data ya mafunzo dhidi ya uzoefu wa utambuzi na kijamii wa binadamu.
Hii inasisitiza kwamba ingawa shinikizo linalotokana na data linalounda hatua, maelezo ya mlolongo wa hatua yanarekebishwa na muundo na mchango wa mwanafunzi.
Vipimo Muhimu vya Jaribio
Mifano Iliyofunzwa: Mfano 48 wa GPT-2
Uchunguzi wa Utambuzi: Kazi 96 kutoka BLiMP, Zorro, BIG-Bench
Washiriki Watoto: 54 (miezi 18 - miaka 6)
Upatikanaji Mkuu: Uwiano mkubwa katika mpangilio wa hatua za kujifunza kati ya watoto na mifano, lakini sio sawa kabisa.
4. Mfumo wa Kiufundi
4.1 Uundaji wa Kihisabati
Lengo kuu la kujifunza kwa GPT-2 ni utabiri wa tokeni inayofuata kupitia makadirio ya uwezekano mkubwa zaidi. Kwa kuzingatia mlolongo wa tokeni $x_1, x_2, ..., x_t$, mfano uliowekwa parameta $ heta$ unafunzwa kupunguza hasara ya logi hasi:
$L(\theta) = -\sum_{t} \log P(x_t | x_{ Usahihi wa uchunguzi $A_p(\theta, \tau)$ kwa uchunguzi maalum wa lugha $p$ katika hatua ya mafunzo $\tau$ hupima uwezo unaojitokeza. Njia ya kujifunza ni kazi $\tau \rightarrow \{A_{p_1}(\theta, \tau), A_{p_2}(\theta, \tau), ...\}$. Uchambuzi wa utafiti huu unalinganisha mpangilio ambao uchunguzi tofauti $p$ huvuka kizingiti cha utendaji (k.m., usahihi wa 80%) katika $\tau$ kwa mifano na katika umri kwa watoto. Kesi: Kufuatilia Upatikanaji wa Kishazi cha Sifa Kazi ya Uchunguzi: Tofautisha sentensi za kisarufi ("Kijana niliyemwona alimba") na zisizo za kisarufi ("Kijana niliyemwona aimba"). Hatua za Uchambuzi: Mfumo huu unaruhusu ulinganishaji wa kiasi wa ratiba za ukuzaji katika mifumo tofauti kabisa ya kujifunza. Chati ya Dhana: Ulinganisho wa Njia ya Kujifunza Matokeo yanaweza kuonyeshwa kwenye chati yenye mihimili miwili: Chati ingeonyesha njia zote mbili zikiwa na mkunjo wa kujifunza wa umbo la S kwa kila ujuzi, lakini kwa mpangilio wa mistari (ujuzi gani unainuka kwanza) ukiwa sawa ingawa sio sawa kabisa. Uwasilishaji muhimu wa pili ungekuwa ramani ya joto inayoonyesha matriki ya uwiano wa mpangilio wa upatikanaji katika uchunguzi wote 96 kwa kundi la mifano dhidi ya mpangilio ulioonekana kwa watoto, ikionyesha vikundi vya uwiano wa juu na wa chini. Uelewa Mkuu: Karatasi hii inatoa utafiti muhimu, wenye undani: hatua za kujifunza lugha sio siri ya kipekee ya binadamu bali ni sifa inayojitokeza ya uboreshaji unaoongezeka, unaotokana na data chini ya vikwazo. Hata hivyo, mpango wa hatua hizo huandikwa pamoja na muundo wa asili wa mwanafunzi. GPT-2 na watoto hukubaliana kwenye mtaala "rahisi-hadi-changamani" kwa sababu data ina mtaala huo. Wanatofautiana kwenye maelezo kwa sababu "upendeleo wa kukisia" wa transformer (Vaswani et al., 2017) unatofautiana na misingi ya utambuzi na ufahamu wa mtoto wa kibinadamu. Mtiririko wa Mantiki: Hoja imejengwa kwa ustadi. Huanza na ukweli thabiti wa kimajaribio (hatua zilizopangwa kwa watoto), huuliza swali la kompyuta (je, mpangilio huu unajitokeza katika AI?), na hutumia njia thabiti, yenye uchunguzi mwingi kuijaribu. Hatua ya kuonyesha "mpangilio upo" hadi kuchambua "asili yake ya sambamba" na hatimaye kuchambua vipengele "vinavyoshirikiwa/vinavyotofautiana" ina nguvu ya kimantiki. Inafanana na maendeleo ya uchambuzi katika kazi za msingi kama karatasi ya CycleGAN (Zhu et al., 2017), ambayo haikuwasilisha tu mfano mpya lakini pia ilitenganisha shida ya tafsiri ya picha isiyo na jozi katika vikwazo vya uthabiti wa mzunguko. Nguvu & Kasoro: Nguvu ya utafiti huu ni ukali wa njia na uwezo wa kulinganishwa moja kwa moja. Kutumia mifano mingi na seti kubwa ya uchunguzi kunapunguza kelele. Kasoro kuu, iliyokubaliwa kwa njia isiyo wazi, ni kutofautiana kwa kipimo: uzalishaji kwa watoto dhidi ya usahihi wa uchunguzi wa ndani kwa mifano. Je, mfano "kujua" sheria ya kisintaksia katika uchunguzi kunalingana na mtoto "kuitumia" katika usemi wa hiari? Si lazima. Hii inafanana na ukosoaji wa viwango kama ImageNet ambapo mifano hujifunza njia za mkato (Geirhos et al., 2020). Kundi la uchunguzi, ingawa ni pana, huenda lisichukue kiini cha muunganisho, cha mawasiliano cha ushahidi wa lugha ya binadamu. Uelewa Unaoweza Kutekelezwa: Kwa watafiti wa AI, hii ni mgodi wa dhahabu kwa kujifunza mitaala na uchunguzi wa mifano. Ikiwa tunataka mifano ijifunze kama watu, tunahitaji kubuni mlolongo wa data ya mafunzo au kazi za hasara zinazofanana zaidi na ratiba ya ukuzaji wa binadamu. Kwa wanasayansi wa utambuzi, kazi hii inatoa kituo kipya cha majaribio kinachoweza kubadilishwa: badilisha muundo wa mfano (k.m., ingiza miunganisho ya kurudia kama katika LSTM) au data ya mafunzo (k.m., ongeza mchango wa hali nyingi), na uone jinsi njia ya ukuzaji inavyobadilika. Hii inaweza kusaidia kutenganisha mchango wa upendeleo maalum wa kibinadamu. Uelewa wa mwisho ni kwamba kujenga AI bora na kuelewa utambuzi wa binadamu sasa ni juhudi moja, iliyounganishwa.4.2 Mfano wa Mfumo wa Uchambuzi
5. Uwasilishaji wa Matokeo
6. Uelewa Mkuu & Mtazamo wa Mchambuzi
7. Matumizi ya Baadaye & Mwelekeo
8. Marejeo