Teburin Abubuwan Ciki
1. Gabatarwa
Muna zaune a duniyar da ke da nau'i-nau'i da harsuna daban-daban. Ana isar da bayanai ta hanyoyi daban-daban (rubutu, hoto, bidiyo) da harsuna. Yayin da samfuran Horarwar Gani-Harshe (VLP) na tushen Ingilishi suka sami babban nasara, fadada wannan iyawa zuwa harsuna sama da 6,900 na duniya yana gabatar da babban kalubale. Hanyoyin gargajiya na VLP na Harsuna Daban-daban (M-VLP), waɗanda ke horar da samfuri guda akan babban bayanan nau'i-nau'i na harsuna daban-daban, suna fama da manyan kurakurai guda biyu: tsadar lissafi da rashin sassauƙa wajen ƙara sabbin harsuna. Wannan takarda ta gabatar da Tsarin Koyon Harsuna Daban-daban (MLA), wani sabon tsari da aka yi wahayi daga koyon harshe na ɗan adam wanda ke fadada samfurin VLP na harshe guda da aka riga aka horar don ɗaukar nauyin harsuna da yawa tare da ƙaramin ƙarin bayanai da lissafi.
2. Hanyoyin Bincike
2.1. Tsarin Koyon Harsuna Daban-daban (MLA)
Babban ƙirƙira na MLA shine ficewa daga tsarin horarwar M-VLP guda ɗaya. Maimakon gina samfuri guda daga farko don duk harsuna, MLA tana ɗaukar ƙaƙƙarfan samfurin VLP na harshe guda (misali, Ingilishi) da aka riga aka horar a matsayin tsarin "asali". Sannan ta haɗa wani mai sauƙi, mai iya koyawa Mai Rikodin Koyon Harshe zuwa wannan kashin bayan da aka daskare. Manufar wannan mai rikodin ita ce kawai ta tsara wakilcin sabbin harsuna zuwa sararin ma'ana wanda samfurin harshen asali ya riga ya ƙware a ciki. Tsarin ginin yana kama da ƙara na'urar fassara gama-gari zuwa tsarin ƙwararru da ya rigaya ya wanzu.
2.2. Mai Rikodin Koyon Harshe
Mai Rikodin Koyon Harshe wani ɓangare ne mai inganci na sigogi da aka saka a cikin mai rikodin rubutu na VLP na harshe guda da aka riga aka horar. Yawanci ya ƙunshi ƙananan sassan adafta ko cibiyar sadarwar transformer mara zurfi. Ɗirinsa yana tabbatar da cewa mafi yawan sigogin samfurin (kashin bayan VLP da aka daskare) sun kasance ba su canza ba, wanda ke haifar da babban tanadi a farashin horo da ƙwaƙwalwar ajiya. Mai rikodin yana koyon aikin taswira $f_{\theta}: \mathcal{Z}_{lang} \rightarrow \mathcal{Z}_{en}$, inda $\mathcal{Z}_{lang}$ shine sararin wakilcin harshen da ake nufi kuma $\mathcal{Z}_{en}$ shine sararin ma'anar Ingilishi na VLP da aka daskare.
2.3. Dabarar Horarwa Ta Matakai Biyu
MLA tana amfani da dabarar horarwa ta matakai biyu da aka yi wahayi daga halittu don inganta mai rikodin koyon harshe:
- Mataki na Canja Harshen Asali: An fara horar da mai rikodin don daidaita rubutun harshen da ake nufi da rubutun Ingilishi, ta amfani da nau'i-nau'i na jimloli masu kama da juna. Wannan yana kwaikwayon halin ɗan adam na tsara sabon ƙamus zuwa ra'ayoyin da aka sani a cikin harshen asali. Manufar ita ce asarar kwatancen da ke jawo wakilcin harshen da ake nufi kusa da fassararsa ta Ingilishi: $\mathcal{L}_{NLT} = -\log\frac{\exp(\text{sim}(z_{t}, z_{e})/\tau)}{\sum_{j}\exp(\text{sim}(z_{t}, z_{e_j})/\tau)}$.
- Mataki na Bayyanar Harshe: Daga baya, an daidaita mai rikodin kai tsaye akan nau'i-nau'i na hoto-rubutu ko bidiyo-rubutu na harshen da ake nufi. Wannan matakin yana kwaikwayon "nutsar da harshe," yana barin samfurin ya kafa sabon harshe kai tsaye a cikin ra'ayoyin gani ba tare da Ingilishi a matsayin mai shiga tsakani ba, yana inganta daidaitawar nau'i-nau'i.
3. Gwaje-gwaje & Sakamako
3.1. Bayanan Gwaji & Ma'auni
An kimanta samfurin akan ma'auni na dawo da bayanai na harsuna daban-daban:
- Dawo da Hoton Harsuna Daban-daban: MSCOCO (En) da fassarorinsa a cikin Sinanci, Jafananci, Koriya, da sauransu.
- Dawo da Bidiyon Harsuna Daban-daban: VATEX (En, Zh) da HowTo100M (harsuna daban-daban).
3.2. Binciken Aiki
MLA ta sami aikin zamani ko babban nasara mai gasa akan waɗannan ma'auni yayin amfani da kawai ɗan ƙaramin bayanan horarwa na harsuna daban-daban da albarkatun lissafi da cikakkun samfuran M-VLP ke buƙata. Sakamako masu mahimmanci sun nuna:
- Babban Inganci: Mafi girman aiki-kowane-sigi da aiki-kowane-sa'a na lissafi.
- Yuwuwar Sifili-Harbi: Tsarin ya nuna sakamako masu ban sha'awa a canja wurin sifili-harbi zuwa harsunan da ba a gani yayin horon mai rikodin koyon harshe ba, godiya ga ƙaƙƙarfan tushen ma'ana na kashin bayan da aka daskare.
- Babu Manta Mai Tsanani: Mafi mahimmanci, aikin akan ayyukan Ingilishi na asali ya kasance cikakke, kamar yadda ainihin samfurin VLP ya daskare.
Mahimman Fahimtar Aiki
MLA ta yi daidai da aikin MURAL (wanda aka horar akan TPU 128 na kwanaki 4) ta amfani da ~10x ƙarancin bayanan harsuna daban-daban da ɗan ƙaramin ɓangaren lissafin, da farko ta hanyar amfani da ilimin da ya rigaya ya wanzu a cikin VLP na harshe guda.
4. Binciken Fasaha & Fahimta
Babban Fahimta: Babban nasarar takardar ita ce sauyin tsari daga "horar da mai yawan harsuna tun yana jariri" zuwa "koyar da ƙwararren masanin harshe sabbin harsuna". Ta gano daidai cewa ainihin taswirar gani-ma'ana galibi ba ta da alaƙa da harshe; kalubalen shine tsinkayar ƙamus da haɗin kai. Ta hanyar daskare ainihin gani-ma'ana (VLP), MLA ta ƙetare mafi tsadar ɓangaren koyon nau'i-nau'i.
Kwararar Ma'ana: Hujja tana da kyau kuma mai gamsarwa. Ta fara da binciken matsalar haɓaka da ba za a iya ci gaba da ita ba na M-VLP (farashi, taurin kai). Sannan ta sami kwatankwacin a fahimtar ɗan adam (dokar harshen asali, sannan nutsarwa). A ƙarshe, ta fassara wannan zuwa ingantaccen tsarin jijiyoyi mai inganci na sigogi (kashin bayan da aka daskare + adafta mai sauƙi) da kuma tsarin horo mai dacewa (canja wuri sannan bayyanawa). Kwararar daga matsalar zuwa wahayin halitta zuwa maganin injiniya yana da haɗin kai.
Ƙarfi & Kurakurai:
- Ƙarfi: Hujjar inganci ba za a iya karyata ta ba. A cikin zamanin da damuwa game da sawun carbon na AI ke ƙaruwa, hanyoyi kamar MLA ba kawai wayo ba ne—sun zama dole. Haɗin kai na saɓo babban ƙarfi ne don turawa da kiyayewa. Hanyar ta yi daidai da yanayin daidaitawa mai inganci na sigogi (misali, adafta, LoRA) da aka gani a cikin manyan samfuran harshe.
- Kurakurai: Hanyar ta gaji kowane son zuciya ko iyakoki na tushen VLP na harshe guda. Idan VLP na Ingilishi yana da ƙarancin tunani na haɗawa ko son zuciya na al'ada, MLA tana yada shi. Matakin "bayyanar harshe" har yanzu yana buƙatar wasu bayanan nau'i-nau'i a cikin harshen da ake nufi, wanda zai iya zama ƙarancin ga harsunan da ba su da albarkatu. Kimantawar takardar, duk da cewa tana da ƙarfi, ta iyakance ga harsuna kaɗan; da'awarta ta ɗaukar nauyin "harsuna sama da 6,900" har yanzu ta zama ka'ida.
Fahimta Mai Aiki:
- Ga Masu Bincike: Wannan shiri ne don "AI mai kore" a cikin binciken nau'i-nau'i. Aikin nan gaba ya kamata ya bincika sanya mai rikodin koyon harshe ya fi inganci (misali, ƙwararrun masu yawa don iyalai harsuna daban-daban) da bincika amfani da shi don ainihin harsunan da ba su da albarkatu tare da rubutu na harshe guda kawai.
- Ga Injiniyoyi: Aiwatar da MLA a matsayin tsarin daidaitawa na yau da kullun don fadada samfuran VLP na kamfani da suka wanzu (kamar CLIP ko ALIGN) zuwa sabbin kasuwanni. Horarwa ta matakai biyu yana da sauƙin aiwatarwa.
- Ga Masu Dabarun: Wannan hanyar tana rage shingen shiga don ƙirƙirar samfuran AI na harsuna daban-daban. Kamfanoni yanzu za su iya ginawa a saman ƙaƙƙarfan VLP na Ingilishi na buɗe ido maimakon ba da kuɗi masu yawa don gudanar da horarwar M-VLP, suna ba da damar samun damar AI ta nau'i-nau'i ga kowa.
Misalin Tsarin Bincike
Yanayi: Sabis na yawo yana son fadada tsarin shawarar abun ciki (wanda aka horar akan bayanan bidiyo-rubutu na Ingilishi) don tallafawa Thai da Vietnamese.
- Samfurin Tushe: Daskare samfurin VLP na Ingilishi da aka riga aka horar (misali, bambancin CLIP).
- Shirye-shiryen Mai Rikodin Koyon Harshe: Haɗa ƙaramin cibiyar sadarwar adafta zuwa mai rikodin rubutu.
- Mataki 1 - Canja wuri: Horar da adafta ta amfani da tarin rubutun allo na Thai-Ingilishi da Vietnamese-Ingilishi masu kama da juna. Adafta ta koyi tsara maɗaukakin jimlolin Thai/Vietnamese zuwa maɗaukakin jimlolin Ingilishi masu dacewa daga samfurin da aka daskare.
- Mataki 2 - Bayyanawa: Daidaita adafta akan ƙaramin bayanan bidiyon Thai da Vietnamese tare da kwatancin harshen asali (misali, alamun da masu amfani suka ƙirƙira ko taƙaitaccen bayani).
- Tura: Tsarin yanzu zai iya ƙididdige kamanceceniya tsakanin tambayoyin masu amfani na Thai/Vietnamese da maɗaukakin bidiyo na Ingilishi ta hanyar adafta da aka horar, yana ba da damar shawarar harsuna daban-daban ba tare da sake horar da gaba ɗaya na gani ba.
5. Aikace-aikace na Gaba & Jagorori
- Haɗa Harsunan da ba su da Albarkatu: Ingancin MLA ya sa ya zama babban ɗan takara don kawo fa'idodin AI ga harsunan da ke da ƙarancin albarkatun dijital, babban abin da ake mayar da hankali a shirye-shiryen kamar Aikin Ba a Bar Harshe a Baya (NLLB) na Meta.
- Koyo Mai Ƙarfi & Tsawon Rayuwa: Siffofin nan gaba za su iya tallafawa ƙara harsuna a hankali ba tare da sake horarwa daga farko ba, suna matsawa zuwa tsarin nau'i-nau'i na koyo na tsawon rayuwa.
- Samarwa Tsakanin Nau'i-nau'i: Fadada tsarin zuwa ayyukan samarwa kamar rubutun hoto na harsuna daban-daban ko dubbing bidiyo.
- Haɗin kai tare da LLMs: Haɗa MLA tare da manyan samfuran harshe na harsuna daban-daban (LLMs) a matsayin kashin bayan rubutu zai iya ƙirƙirar tsarin nau'i-nau'i mafi ƙarfi da kuma daɗaɗɗen al'adu.
6. Nassoshi
- Zhang, L., Hu, A., & Jin, Q. (2022). Generalizing Multimodal Pre-training into Multilingual via Language Acquisition. arXiv preprint arXiv:2206.11091.
- Jain, A., et al. (2021). MURAL: Multimodal, Multitask Retrieval Across Languages. arXiv preprint arXiv:2109.05125.
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Houlsby, N., et al. (2019). Parameter-Efficient Transfer Learning for NLP. International Conference on Machine Learning (ICML).
- Meta AI. (2022). No Language Left Behind. https://ai.facebook.com/research/no-language-left-behind/