Yaliyomo
- 1. Utangulizi
- 2. Utaratibu wa Majaribio
- 3. Upendeleo wa Kufikiria wa Mbinu za Kufundisha L2
- 4. Athari za Mafunzo ya L1 kwenye Ujifunzaji wa Sarufi ya L2
- 5. Mchakato wa Ujifunzaji wa L2
- 6. Uelewa Mkuu & Mtazamo wa Mchambuzi
- 7. Maelezo ya Kiufundi & Mfumo wa Kihisabati
- 8. Matokeo ya Majaribio & Maelezo ya Chati
- 9. Mfumo wa Uchambuzi: Mfano wa Kesi
- 10. Matumizi ya Baadaye & Mwelekeo
- 11. Marejeo
1. Utangulizi
Kazi hii inachunguza uwezekano wa kuhamishwa kwa lugha mbalimbali kwa miundo ya lugha ya neural (LMs) kutoka kwa mtazamo wa ujifunzaji wa lugha ya pili (L2). Wakati utafiti uliopita umelenga ujifunzaji wa lugha ya kwanza (L1), utafiti huu unachunguza jinsi ujuzi wa L1 unaathiri ufanisi wa ujifunzaji wa sarufi katika L2. Swali kuu la utafiti ni: Ujifunzaji wa lugha ya kwanza (L1) kwa LMs unaathiri vipi ufanisi wa ujifunzaji wa sarufi katika lugha ya pili (L2)?
Motisha hii inatokana na uchunguzi kwamba LMs kubwa za Kiingereza zinaonyesha uwezo wa kutafsiri kwa data ndogo sana ya mafunzo ya lugha zisizo za Kiingereza, ikionyesha uhamisho wenye ufanisi wa lugha mbalimbali. Hata hivyo, tathmini nyingi zinategemea vipimo vya jumla kama vile kutatanisha au usahihi wa kazi zinazofuata. Utafiti huu unalenga kujaza pengo hili kwa kuchambua uhamisho kutoka kwa mtazamo wa kiisimu, ukilenga ujifunzaji wa ujuzi wa kisarufi na mielekeo ya uhamisho wa lugha.
2. Utaratibu wa Majaribio
Muundo wa majaribio unaonyesha hali ya ujifunzaji wa L2 inayofanana na ya kibinadamu:
- Ufundishaji Kabla ya L1 (Ujifunzaji wa Lugha ya Kwanza): Fundisha muundo wa lugha uliofichwa wenye lugha moja kwenye L1 maalum (Kifaransa, Kijerumani, Kirusi, au Kijapani).
- Mafunzo ya L2 (Ujifunzaji wa Lugha ya Pili): Endelea kufundisha muundo huo kwa Kiingereza (L2) chini ya mazingira ya lugha mbili.
- Tathmini: Chambua athari ya L1 kwenye L2 kupitia jaribio la hukumu ya kisarufi kwa Kiingereza kwa kutumia kigezo cha BLiMP.
Ukubwa wa data ya mafunzo umepunguzwa ili kulinganisha vyema na mielekeo ya ujifunzaji wa L2 ya kibinadamu. L1 zilizochaguliwa zinawakilisha viwango tofauti vya umbali wa aina ya lugha na ugumu unaodhaniwa wa kuhamishiwa kwa Kiingereza.
3. Upendeleo wa Kufikiria wa Mbinu za Kufundisha L2
Majaribio ya awali yalichunguza mazingira tofauti ya data ya L2:
- Kufundisha kwa maandishi ya lugha moja ya L2 (Kiingereza) pekee.
- Kufundisha kwa jozi za tafsiri za L1-L2.
Uvumbuzi Muhimu: Kuwapa LMs jozi za tafsiri za L1-L2 kulisababisha kupungua kwa kasi ya ujifunzaji wao wa sarufi ya L2 ikilinganishwa na kuwapa maandishi ya lugha moja ya L2 pekee kila baada ya vipindi viwili. Hii inaonyesha kwamba njia ya kufunuliwa kwa L2 inaathiri kwa kiasi kikubwa ufanisi wa kujifunza.
4. Athari za Mafunzo ya L1 kwenye Ujifunzaji wa Sarufi ya L2
4.1 Ujuzi wa L1 Unahimiza Ujumuishaji wa L2
Miundo iliyokuwa na mafunzo ya awali ya L1 ilionyesha ujumuishaji bora wa kiisimu katika L2 ikilinganishwa na miundo iliyofundishwa kwa L2 kutoka mwanzo. Hii inaonyesha kwamba ujuzi wa awali wa kiisimu (hata katika lugha tofauti) hutoa upendeleo mzuri wa kufikiria kwa ajili ya kujifunza miundo mipya ya lugha.
4.2 Uchaguzi wa L1 Unaathiri Utendaji wa L2
Lugha ya chanzo ya L1 iliathiri kwa kiasi kikubwa utendaji wa ujumuishaji wa L2 (Kiingereza). Miundo iliyokuwa na Kifaransa au Kijerumani kama L1 ilifanya vizuri zaidi kuliko ile iliyokuwa na Kijapani au Kirusi kama L1. Safu hii inalingana na ugumu wa uhamisho wa lugha uliofafanuliwa na kibinadamu (Chiswick & Miller, 2004), ambapo ufanano wa aina ya lugha (k.m., lugha za Kijerumani/Kiroma hadi Kiingereza) hurahisisha uhamisho.
4.3 Athari Tofauti kwenye Aina za Sarufi
Mafunzo ya awali ya L1 yalikuwa na athari tofauti kwenye matukio tofauti ya kisarufi katika L2:
- Faida Kubwa Zaidi: Vitu vya kimofolojia na kisintaksia (k.m., makubaliano ya kitenzi na kitu, mpangilio wa maneno).
- Faida Ndogo Zaidi: Vitu vya kisemantiki na kiunganishi cha sintaksia-semantiki (k.m., upeo wa kiwango, ufungaji).
Hii inaonyesha kwamba ujuzi wa kisintaksia unaoweza kufikiriwa unaweza kuhamishwa kwa urahisi zaidi kuliko ujuzi maalum wa maana au ujuzi wa kiunganishi.
5. Mchakato wa Ujifunzaji wa L2
5.1 Maendeleo na Kutokuwa na Ufanisi wa Data
Uchambuzi wa mwendo wa kujifunza ulifunua kwamba ujifunzaji wa ujuzi wa L2 haukupata maendeleo makubwa hadi muundo ulipoona seti nzima ya data ya L2 mara nyingi (k.m., vipindi 50-100). Hii inaonyesha kiwango cha kutokuwa na ufanisi wa data katika mchakato wa ujifunzaji wa L2 wa LMs hizi. Zaidi ya hayo, utafiti huu uliona uharibifu wa ujuzi wa L1 wakati wa mafunzo ya L2, ikionyesha usawazishaji na hitaji la kusawazisha ujuzi wa lugha ya chanzo na lengo.
6. Uelewa Mkuu & Mtazamo wa Mchambuzi
Uelewa Mkuu: Karatasi hii inatoa ukweli muhimu, ambao mara nyingi hupuuzwa: LMs za neural sio injini za takwimu zisizo na uhusiano na lugha. "L1" zao huweka alama ya kina ya upendeleo wa kimuundo ambayo huamua ufanisi na mwendo wa kujifunza kwa "L2". Uvumbuzi kwamba jozi za tafsiri zinaweza kuzuia ujifunzaji wa sarufi ya L2 hasa haulingani na mtazamo wa kawaida na inapinga mafundisho ya kawaida ya mafunzo ya lugha nyingi.
Mtiririko wa Mantiki: Utafiti huu uniunganisha kwa ustadi isimu ya kompyuta na nadharia ya ujifunzaji wa lugha ya pili. Huanza na dhana wazi (L1 inaathiri ufanisi wa L2), inabuni muundo wa kudhibitiwa unaofanana na wa kibinadamu (data iliyopunguzwa, L1 maalum), inajaribu mabadiliko ya mafunzo kwa utaratibu, na inamalizia kwa uchambuzi wa kina wa kiisimu. Mtiririko kutoka kwa uhamisho mkubwa (uchaguzi wa lugha) hadi uhamisho mdogo (aina ya sarufi) una mantiki.
Nguvu & Mapungufu: Nguvu kuu ni undani wake wa kiisimu. Kuhamia zaidi ya vipimo vya jumla kama usahihi hadi kuchambua utendaji kwenye matukio ya kisintaksia ya BLiMP ni mchango muhimu, unaokumbusha muundo wa uchunguzi uliopendwa na kazi kama "What does BERT look at?" (Clark et al., 2019). Mfumo wa kulinganisha kibinadamu-LM pia ni wa uvumbuzi. Kosa kuu ni kiwango. Kutumia LMs ndogo (kama inavyodokezwa na data iliyopunguzwa) hupunguza utumiaji wa moja kwa moja kwa LLMs za kisasa kama GPT-4 au LLaMA, ambazo uwezo wao wa lugha nyingi kwa mifano michache ni wa kushangaza. Utafiti unakubali hili lakini bado ni pengo. Zaidi ya hayo, "kusahau kwa ghafla" kwa L1 kumeainishwa lakini hakujachambuliwa kwa kina—ni fursa iliyopotea.
Uelewa Unaoweza Kutekelezwa: Kwa watendaji, utafiti huu unashauri kuepuka mkakati wa lugha nyingi usio na tofauti. Wakati wa kujenga muundo kwa lugha lengwa, chagua kwa mkakati lugha (za) za kufundisha kabla kulingana na ufanano wa aina ya lugha. Kwa mfano, kuboresha utendaji wa lugha ya Kithai kunaweza kufaidika zaidi kutokana na mafunzo ya awali kwenye lugha za Tai-Kadai zinazohusiana badala ya Kiingereza tu. Uvumbuzi wa kutokuwa na ufanisi wa data unaitaka utafiti katika njia za mafunzo ya L2 zenye mtaala zaidi au za kujifunza-meta, badala ya mafunzo ya kuendelea kwa nguvu. Hatimaye, uwanja huu lazima ubuni mbinu bora za kujifunza endelevu ili kupunguza kusahau kwa L1 wakati wa ujifunzaji wa L2, changamoto inayokabiliwa pia katika ujifunzaji wa aina nyingi kama inavyoonekana katika kazi kama Flamingo (Alayrac et al., 2022).
7. Maelezo ya Kiufundi & Mfumo wa Kihisabati
Kiini cha lengo la kuunda muundo wa lugha uliofichwa linalotumika katika mafunzo ya awali (Devlin et al., 2019) ni kuongeza uwezekano wa kuunda tena vitambulisho vilivyofichwa:
$\mathcal{L}_{MLM} = -\sum_{i \in M} \log P(x_i | \mathbf{x}_{\backslash M}; \theta)$
ambapo $M$ ni seti ya fahirisi za vitambulisho vilivyofichwa, $x_i$ ni kitambulisho cha asili, $\mathbf{x}_{\backslash M}$ ni mlolongo wenye vitambulisho katika $M$ vilivyofichwa, na $\theta$ ni vigezo vya muundo.
Katika awamu ya ujifunzaji wa L2, vigezo vya muundo $\theta$, vilivyoanzishwa kutoka kwa mafunzo ya awali ya L1, vinaimarishwa zaidi kwenye mchanganyiko wa data ya L1 na L2 au data ya L2 pekee. Ubadilishaji muhimu wa utafiti huu ni ratiba ya data na muundo wakati wa awamu hii, ambao hubadilisha utendakazi wa hasara unaoboreshwa na muundo.
8. Matokeo ya Majaribio & Maelezo ya Chati
Matokeo Muhimu 1 (Kuongeza Kasi kwa L1): Chati ya mstari (inayodokezwa na maelezo ya maandishi) ingeonyesha usahihi wa kisarufi wa L2 (kwenye BLiMP) kwenye mhimili wa y dhidi ya vipindi vya mafunzo ya L2 kwenye mhimili wa x. Mistari mingi ingewakilisha miundo na L1 tofauti (Fr, De, Ru, Ja) na kiwango cha kuanzia bila L1 (L2-kutoka-mwanzo). Chati ingeonyesha kwamba miundo yote iliyokuwa na mafunzo ya awali ya L1 huanza juu zaidi na hujifunza kwa kasi zaidi kuliko kiwango cha kuanzia, na mistari ya Fr na De inapanda kwa mwinuko mkubwa zaidi na juu zaidi.
Matokeo Muhimu 2 (Tofauti ya Aina ya Sarufi): Chati ya baa zilizogawanywa ingeonyesha usahihi wa mwisho kwenye BLiMP. Mhimili wa x ungekuwa na kategoria: Mofolojia, Sintaksia, Semantiki, Sintaksia-Semantiki. Kwa kila kategoria, kungekuwa na baa mbili: moja kwa "Hakuna Mafunzo ya Awali ya L1" na moja kwa "Kwa Mafunzo ya Awali ya L1". Tofauti ya urefu kati ya baa hizo mbili (faida kutoka kwa L1) ingeonekana kuwa kubwa zaidi kwa Mofolojia na Sintaksia, na ndogo zaidi kwa Semantiki.
9. Mfumo wa Uchambuzi: Mfano wa Kesi
Kesi: Kuchambua Uhamisho wa L1 Kijapani (Ja) hadi L2 Kiingereza (En) kwa Makubaliano ya Kitenzi na Kitu.
- Kipengele cha Kiisimu: Kiingereza kinahitaji makubaliano ya kitenzi na kitu katika idadi (k.m., "The dog runs" vs. "The dogs run"). Kijapani hakikiashiria vitenzi kwa makubaliano ya kitu.
- Dhana: LM iliyokuwa na mafunzo ya awali kwa Kijapani (L1) inaweza kuwa na upendeleo dhaifu wa awali wa kujifunza kipengele hiki cha makubaliano katika Kiingereza ikilinganishwa na LM iliyokuwa na mafunzo ya awali kwa Kifaransa (ambayo ina makubaliano).
- Jaribio la Kuchunguza: Baada ya mafunzo ya L2, wasilisha kwa muundo jozi ndogo kutoka BLiMP:
- Kisarufi: "The key to the cabinets is on the table."
- Si kisarufi: "The key to the cabinets are on the table."
- Kipimo: Linganisha mgawo wa uwezekano wa muundo kwa umbo sahihi la kitenzi dhidi ya lisilo sahihi. Pengo la chini la uwezekano kwa muundo wa Ja-L1 ikilinganishwa na muundo wa Fr-L1 lingethibitisha dhana ya uhamisho hasi kutoka kwa L1 isiyo na makubaliano.
Mfumo huu unaruhusu kutenganisha uhamisho wa vipengele maalum vya kisarufi kulingana na mpangilio wa kimuundo wa L1-L2.
10. Matumizi ya Baadaye & Mwelekeo
- Uundaji wa Miundo ya Lugha yenye Rasilimali Chache kwa Ufanisi: Chagua kwa mkakati lugha ya "mzazi" yenye rasilimali nyingi, yenye ufanano wa aina ya lugha kwa mafunzo ya awali kabla ya urekebishaji mwisho kwenye lugha lengwa halisi yenye rasilimali chache, ukiboresha ufanisi wa data.
- Zana za Kujifunza Lugha Zilizobinafsishwa: Unda walimu wa AI ambao hurekebisha mikakati ya kufundisha kulingana na lugha ya asili ya mwanafunzi, wakitabiri maeneo ya ugumu (k.m., matumizi ya makala kwa wasemaji wa Kirusi) kama inavyoelezwa na mifumo ya uhamisho ya LM.
- LLMs za Lugha Nyingi Zinazoweza Kufafanuliwa: Tumia muundo wa uhamisho wa L1-L2 kama usanidi wa majaribio uliodhibitiwa ili kutenganisha na kuonyesha wazi ni ujuzi gani wa kiisimu unaohifadhiwa na kuhamishwa ndani ya vigezo vya muundo, na hivyo kuendeleza uwezo wa kufafanuliwa kwa muundo.
- Uthibitishaji wa Kiisimu wa Neva: Shirikiana na wanasayansi wa utambuzi ili kulinganisha miongozo ya ujifunzaji wa L2 ya LM (k.m., mifumo ya makosa, mabanda ya kujifunza) na data ya picha ya ubongo wa kibinadamu au tabia, na hivyo kujaribu nadharia za kompyuta za ujifunzaji wa lugha.
- Miundo ya Lugha Nyingi ya Kienyeji, Isiyosahau: Utafiti katika algoriti za kujifunza endelevu ambazo huruhusu LM kujifunza lugha nyingi kwa mpangilio bila kudhoofisha ujuzi wa lugha ya awali, na hivyo kuelekea kwenye AI ya kweli ya lugha nyingi.
11. Marejeo
- Oba, M., Kuribayashi, T., Ouchi, H., & Watanabe, T. (2023). Second Language Acquisition of Neural Language Models. arXiv preprint arXiv:2306.02920.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
- Chiswick, B. R., & Miller, P. W. (2004). Linguistic Distance: A Quantitative Measure of the Distance Between English and Other Languages. Journal of Multilingual and Multicultural Development.
- Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP.
- Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems.
- Papadimitriou, I., & Jurafsky, D. (2020). Pretraining on Non-English Data Improves Cross-lingual Generalization. Proceedings of the 1st Conference of the Asia-Pacific Chapter of the ACL.