Jerin Abubuwan Cikin Littafin
1. Gabatarwa
Wannan takarda tana binciken karkatun tsarin nahawu da Tsarin Harshe na Recurrent Neural Network (RNN) suka koya, musamman ma kan al'amarin rashin bayyanar haɗin maƙalar maƙala (RC). Babban hasashe shi ne cewa karkatun tsarin RNN (misali, karkatun kwanan nan) sun yi daidai da fifikon fassarar ɗan adam a Turanci (haɗin ƙasa - LOW), amma ba su yi daidai da fifikon da ake samu a Sifen (haɗin sama - HIGH) ba. Wannan ya haifar da ruɗi na iyawar nahawu kamar ta ɗan adam a cikin tsarin Turanci wanda ba ya yaduwa a tsakanin harsuna, yana ƙalubalantar zaton cewa ana samun karkatun harshe da ake buƙata a cikin bayanan horarwa.
2. Hanyoyin Bincike & Ƙirar Gwaji
2.1. Rashin Bayyanar Haɗin Maƙalar Maƙala
Binciken yana bincika tsare-tsare ta amfani da jimloli masu haɗin maƙalar maƙala maras bayyanawa, kamar: "Andrew ya ci abincin dare jiya tare da ɗan'uwan malami wanda aka sake." Ana iya fassara su ta hanyoyi biyu: haɗawa zuwa babban jumlar suna ("ɗan'uwa" - SAMA) ko ƙananan jumlar suna ("malami" - ƘASA). Duk da yake duka biyun suna da inganci a nahawu, masu magana da Turanci suna nuna fifikon haɗin ƙasa (LOW), yayin da masu magana da Sifen suka nuna fifikon haɗin sama (HIGH).
2.2. Tsarin Model & Horarwa
An horar da tsarin harshe na RNN na yau da kullun (misali, LSTM ko GRU) akan manyan tarin rubutu na Turanci da Sifen. Manufar horarwa ita ce rage mummunan log-likelihood na kalma mai zuwa idan aka yi la'akari da mahallin da ya gabata: $L(\theta) = -\sum_{t=1}^{T} \log P(w_t | w_{ Ana ƙididdige fifikon tsarin ta hanyar kwatanta yuwuwar da tsarin ke ba da shi ga ci gaban jimla a ƙarƙashin kowane fassara (SAMA vs ƘASA). Ana ƙididdige maki na karkata kamar haka: $\text{Karkata} = \log P(\text{ƘASA}) - \log P(\text{SAMA})$. Tsarin Harshe na RNN da aka horar da rubutun Turanci sun ci gaba da nuna fifikon haɗin ƙasa (LOW) mai mahimmanci, suna kwatanta fifikon ɗan adam da aka rubuta. Wannan yana nuna cewa wakilcin ciki na tsarin yayi daidai da sarrafa nahawu na ɗan adam don wannan al'amari a Turanci. A cikin bambanci sosai, Tsarin Harshe na RNN da aka horar da rubutun Sifen sun kasa nuna fifikon haɗin sama (HIGH) kamar na ɗan adam. A maimakon haka, sau da yawa suna nuna rauni ko ma juyawa (ƘASA), yana nuna gazawar kama fifikon nahawu na yau da kullun da ke cikin bayanan Sifen. Bambancin aikin tsarin tsakanin Turanci da Sifen yana nuna cewa nasarar da aka samu a Turanci ba ta samo asali ne daga koyon ƙa'idodin nahawu daga bayanai ba, amma ta hanyar haɗuwa tsakanin karkatun kwanan nan na RNN (wanda ke fifita haɗawa zuwa sunan da ya fi kusa) da fifikon haɗin ƙasa (LOW) na Turanci. Wannan karkatun tsarin yana aiki da koyon fifikon haɗin sama (HIGH) da ake buƙata don Sifen. Jigon tsarin harshe shine hasashen kalma $w_t$ a jere idan aka yi la'akari da mahallinta. Ga RNN, ana sabunta yanayin ɓoye $h_t$ kamar haka: $h_t = f(W_{hh}h_{t-1} + W_{xh}x_t + b_h)$, inda $f$ shine aiki mara layi (misali, tanh ko tantanin LSTM). Rarraba yuwuwar akan ƙamus shine: $P(w_t | w_{ Lamari: Kimanta fahimtar Tsarin Harshe na RNN game da haɗin maƙalar maƙala a cikin jimla: "Dan jarida ya yi hira da mataimakin sanata wanda ya kasance mai cece-kuce." Babban Fahimta: Wannan takarda tana ba da cikakkiyar bincike na gaskiya ga al'ummar NLP. Tana nuna cewa abin da yake kama da "koyon nahawu" a cikin Tsarin Harshe na iya zama ruɗi sau da yawa—wata arziki ta haɗuwa tsakanin gazawar tsarin model (kamar karkatun kwanan nan) da tsarin ƙididdiga na takamaiman harshe (Turanci). Rashin maimaita sakamakon a Sifen ya bayyana raunin wannan "koyo". Kamar yadda aka haskaka a cikin babban aikin kimanta ilimin nahawu a cikin Tsarin Harshe na Linzen et al. (2016), dole ne mu yi taka tsantsan game da danganta iyawar harshe kamar ta ɗan adam ga tsare-tsare bisa ga nasarori masu ƙunci, na musamman ga harshe. Tsarin Ma'ana: An gina hujja da kyau. Ya fara da sanannen bambancin harshe na ɗan adam (karkatun ƘASA na EN vs SAMA na ES), ya horar da tsare-tsare na yau da kullun akan harsuna biyu, kuma ya sami rashin daidaito na aiki. Sa'an nan masu rubutun sun haɗa wannan rashin daidaito da sanannen kaddarorin RNN da ba na harshe ba (karkatun kwanan nan), suna ba da bayani mai sauƙi wanda baya buƙatar tsara koyon ƙa'ida. Wannan tsarin yana raunana zaton cewa siginar horarwa kadai tana ɗauke da isassun bayanai don koyon zurfin nahawu. Ƙarfi & Kurakurai: Babban ƙarfi shine yin amfani da bambancin tsakanin harsuna a matsayin gwaji mai sarrafawa don raba koyo daga bayanai da karkatun tsarin. Wannan babbar gudummawar hanya ce. Duk da haka, binciken yana da iyaka ta hanyar mayar da hankali kan al'amari guda ɗaya na nahawu, ko da yake mai mahimmanci. Ya bar tambayar yadda wannan matsala ta yadu—shin wasu iyawar nahawu a cikin Tsarin Harshe na Turanci suma suna da ruɗi haka? Bugu da ƙari, binciken yana amfani da tsoffin tsare-tsaren RNN; gwaji tare da tsare-tsaren Model na Transformer na zamani (waɗanda ke da karkatu daban-daban, kamar hankali) shine muhimmin mataki na gaba, kamar yadda juyin halitta daga tsare-tsare kamar GPT-2 zuwa GPT-3 ya nuna. Fahimta Mai Aiki: Ga masu bincike da injiniyoyi, wannan takarda ta tilasta canza dabarun kimantawa. Na farko, dole ne kimantawa tsakanin harsuna ya zama gwajin damuwa na yau da kullun don kowane da'awar game da iyawar harshe na tsari, wucewa fiye da jerin ma'auni na Anglo-centric. Na biyu, muna buƙatar ƙarin "bincike" waɗanda ke raba karkatun tsarin daga koyo na gaske, watakila ta hanyar ƙirƙirar bayanan adawa a cikin harshe guda ɗaya. Na uku, ga waɗanda ke gina tsarin samarwa don harsunan da ba Turanci ba, wannan gargadi ne mai tsanani: tsare-tsaren da aka sayar na iya ɗauke da karkatun nahawu waɗanda ba su da alaƙa da harshen da ake nufi, wanda zai iya rage aiki akan ayyukan fassara masu rikitarwa. Hanyar gaba ta ƙunshi ko dai ƙirƙirar ƙarin tsare-tsaren model masu ilimin harshe ko haɓaka manufofin horarwa waɗanda ke hukunta waɗannan karkatu marasa so, wucewa fiye da sauƙin hasashen kalma mai zuwa.2.3. Ma'aunin Kimantawa
Mahimman Sigogi na Gwaji
3. Sakamako & Bincike
3.1. Aikin Model na Turanci
3.2. Aikin Model na Sifen
3.3. Kwatancen Tsakanin Harsuna
4. Cikakkun Bayanai na Fasaha & Tsarin Lissafi
5. Tsarin Bincike: Nazarin Lamari Ba tare da Lamba ba
6. Babban Fahimta & Ra'ayi na Mai Bincike
7. Aikace-aikace na Gaba & Hanyoyin Bincike
8. Nassoshi