Zaɓi Harshe

Kimanta Tsarin Harshe na Neural a matsayin Tsarin Fahimtar Harshe

Bincike mai mahimmanci kan tsarin harshe na neural a matsayin tsarin fahimtar harshe, tare da nuna gazawar ma'auni da kuma ba da shawarar bayanan da mutane suka tantance.
learn-en.org | PDF Size: 0.4 MB
Kima: 4.5/5
Kimarku
Kun riga kun ƙididdige wannan takarda
Murfin Takardar PDF - Kimanta Tsarin Harshe na Neural a matsayin Tsarin Fahimtar Harshe

Teburin Abubuwan Ciki

1 Gabatarwa

Ci gaban sauri na tsarin harshe na neural (LMs) ya haifar da sha'awar yuwuwar su a matsayin tsarin fahimtar harshe na ɗan adam. Duk da haka, akwai manyan gibin hanyoyin bincike tsakanin tsarin kimanta LM da kuma ayyukan binciken harshe da aka kafa. Wannan takarda tana bincike sosai ko hanyoyin ma'auni na yanzu suna ɗaukar cikakkiyar sarkakkiyar tsarin harshen ɗan adam da kuma ko LMs da aka horar da bayanan girman yara za su iya ba da cikakkiyar fahimta game da koyo na harshe.

Kwatancen Girman Bayanai

BERT: Alamu biliyan 3.3 vs. Yaro: Kalmomi miliyan 10/shekara

Gibin Kimantawa

Ma'auni na tsarin samfuri vs. Ma'auni da mutane suka tantance

2 Gazawar Hanyoyin Bincike na Ma'auni na Yanzu

2.1 Gazawar Ma'auni na Tsarin Samfuri

Ma'auni na kimanta tsarin nahawu na yanzu suna fama da kamancen tsarin da bai wakilci bambancin da ake samu a cikin ilimin harshe na ka'ida ba. Hanyoyin da suka dogara da samfuri a cikin ma'auni kamar BLiMP da SyntaxGym ba su da cikakkun gine-ginen nahawu waɗanda ke siffanta koyon harshe na halitta. Marubutan sun nuna cewa lokacin da aka gwada su akan ƙananan bayanai da ke ƙirƙira koyon harshe na yara, LMs ba su yi fiye da sauƙaƙan tsarin ma'auni ba, wanda ke haifar da tambayoyi game da ainihin iyawar su na harshe.

2.2 Matsalolin Rashin Daidaiton Girman Bayanai

Rashin daidaiton bayanan horo tsakanin LMs da masu koyo na ɗan adam yana gabatar da ƙalubale na asali. Yayin da ake horar da samfura kamar BERT akan biliyoyin alamu, yara suna koyon harshe tare da bayyanar da kusan kalmomi miliyan 10 a kowace shekara, tare da ƙididdige ƙamus ɗin cikin ɗaruruwa a shekaru uku. Wannan rashin daidaiton girman yana lalata kwatance kai tsaye tsakanin aikin LM da koyon harshe na ɗan adam.

3 Tsarin Gwaji da Sakamako

3.1 Kimanta Bayanan LI-Adger

Binciken ya yi amfani da bayanan LI-Adger, tarin da aka tsara a hankali wanda masu magana na asali suka tantance don yarda da matakai, kuma an tsara shi musamman don bincika ilimin tsarin nahawu. Wannan bayanan yana ba da wurin gwaji mai ƙarfi fiye da ma'auni na tsarin samfuri, yana ba da haske game da ko LMs sun ɗauki hukunce-hukuncen nahawu masu sauƙi waɗanda ke siffanta iyawar harshe na ɗan adam.

3.2 Binciken Kwatancen Aiki

Sakamakon gwaji ya nuna cewa LMs suna kimanta jimloli ta hanyoyin da ba su dace da masu amfani da harshe na ɗan adam ba akan bayanan LI-Adger. Kamar yadda aka nuna a Hoto na 1, samfura ciki har da BabyBERTa, AO-CHILDES, AO-NEWSELA, da Wikipedia-1 duk sun nuna bambance-bambance masu mahimmanci daga tsarin aikin ɗan adam, suna nuna bambance-bambance na asali a yadda waɗannan samfuran ke wakilta da sarrafa bayanan tsarin nahawu.

Mahimman Bayanai

  • Ma'auni na LM na yanzu ba su da bambancin tsarin don ingantaccen kimantawar fahimta
  • Hanyoyin da suka dogara da samfuri sun kasa ɗaukar cikakken ilimin nahawu
  • Bayanan da mutane suka tantance kamar LI-Adger suna bayyana gibin aiki tsakanin LM da ɗan adam
  • Rashin daidaiton girman bayanai yana lalata kwatancen koyo kai tsaye

4 Tsarin Fasaha da Tushen Lissafi

Kimanta tsarin harshe ya dogara ne akan ma'auni na tushen yuwuwar da ke kimanta yadda samfuran ke hasashen tsarin nahawu da kyau. Babban tsarin lissafi ya ƙunshi lissafin yuwuwar jerin jimloli:

$P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, w_2, ..., w_{i-1})$

Inda $w_i$ ke wakiltar kalmomi a cikin jerin, kuma ikon samfurin na ba da mafi girman yuwuwar ga jimlolin nahawu da kuma waɗanda ba na nahawu ba shine tushen kimanta ilimin tsarin nahawu. Duk da haka, wannan hanya tana da iyakoki wajen ɗaukar hukunce-hukuncen yarda masu sauƙi waɗanda ke siffanta iyawar harshe na ɗan adam.

5 Tsarin Bincike: Misalin Nazarin Shari'a

Shari'a: Kimanta Yarjejeniyar Batun-Fi'ili

Tsarin bincike ya ƙunshi kwatanta aikin LM akan ƙananan nau'i-nau'i biyu waɗanda ke gwada takamaiman abubuwan nahawu. Misali, kimanta rabon yuwuwar samfurin ga:

  • Nahawu: "Kuliyoyin da ke kan tebur suna barci"
  • Ba na nahawu ba: "Kuliyoyin da ke kan tebur yana barci"

Tsarin yana kimanta ko samfurin ya ci gaba da ba da mafi girman yuwuwar ga gine-ginen nahawu a cikin muhallin tsarin nahawu daban-daban, yana motsawa bayan sauƙaƙan kimantawar tushen samfuri don gwada ainihin ilimin nahawu.

6 Aikace-aikace na Gaba da Hanyoyin Bincike

Bincike na gaba ya kamata ya mai da hankali kan haɓaka tsarin kimantawa waɗanda suka fi dacewa da hanyoyin koyon harshe na ɗan adam. Manyan hanyoyin sun haɗa da:

  • Ƙirƙirar ma'auni tare da hukunce-hukuncen yarda da matakai waɗanda mutane suka tantance
  • Haɓaka samfuran da aka horar da bayanan girman yara tare da iyakancewar shigar da gaskiya
  • Haɗa koyo mai yawa don mafi kyawun kwaikwayon koyon harshe na ɗan adam
  • Kafa ma'aunin kimantawa waɗanda ke ɗaukar hanyoyin ci gaba

Binciken Kwararru: Cikakken Fahimta, Tsarin Ma'ana, Ƙarfi & Gazawa, Bayanai Masu Aiki

Cikakken Fahimta

Takardar ta ba da babban zargi game da ayyukan kimanta LM na yanzu, tana bayyana yadda ma'auni na tushen samfuri ke haifar da ruɗi na iyawar harshe wanda ke rugujewa ƙarƙashin gwaji mai ƙarfi. Marubutan sun bayyana cewa abin da muke aunawa ba ainihin ilimin nahawu ba ne amma gano tsari akan bayanan da aka takura.

Tsarin Ma'ana

Hujjar tana ci gaba da daidaitaccen ma'ana: da farko tana nuna gazawar ma'auni, sannan ta nuna yadda sauƙaƙan ma'auni suka dace da LMs akan bayanan girman yara, kuma a ƙarshe ta bayyana gibin aiki akan bayanan da mutane suka tantance. Silsilar ma'ana ba ta karye ba - idan LMs ba za su iya fi sauƙaƙan samfura aiki akan bayanan girman koyo ba kuma sun kasa a kan hukunce-hukuncen nahawu na ɗan adam, darajar su a matsayin samfuran fahimta tana da tambaya ta asali.

Ƙarfi & Gazawa

Ƙarfi: Zargin hanyoyin bincike yana da kyau kuma ya daɗe. Ta hanyar bayyana talauci na tsarin ma'auni na yanzu, marubutan sun tilasta wa fagen fuskantar gaskiyar da ba ta daɗa ba. Amfani da su na bayanan da mutane suka tantance yana wakiltar muhimmin mataki zuwa ga ingantaccen kimantawa.

Gazawa: Takardar ta tsaya ba ta ba da shawarar takamaiman madadin ma'auni ba, tana barin masu bincike da zargi amma ba da jagora mai gina gini ba. Bugu da ƙari, yayin da suka gano matsalar girman bayanai, ba su magance isasshe ko gine-ginen yanzu za su iya koyo daga bayanan girman yara ba, ba tare da la'akari da hanyoyin kimantawa ba.

Bayanai Masu Aiki

Ƙungiyoyin bincike dole ne su daina ma'auni na tushen samfuri don kimanta tsarin nahawu nan da nan kuma su canza zuwa bayanan da mutane suka yanke hukunci. Fagen yana buƙatar daidaitattun tarin manyan hukunce-hukuncen yarda da matakai kamar hanyar LI-Adger. Mafi mahimmanci, dole ne mu sake yin la'akari ko gine-ginen LM na yanzu suna da ikon ɗaukar ilimin nahawu kamar na ɗan adam, ko kuma muna buƙatar hanyoyi daban-daban na ƙirar fahimtar lissafi.

7 Nassoshi

  1. Warstadt, A., et al. (2020). BLiMP: Ma'auni na Ƙananan Nau'i-nau'i na Harshe. arXiv:1912.00582
  2. Linzen, T., & Baroni, M. (2021). Tsarin Nahawu daga Koyo Mai Zurfi. Bita na Shekara-shekara na Harshe
  3. Huebner, P. A., et al. (2021). BabyBERTa: Koyo da Ƙarin Nahawu Tare da Ƙananan Harshe da Yara ke Jagoranta. arXiv:2106.02144
  4. Chowdhury, S. R., & Zamparelli, R. (2018). Simintin RNN na Hukunce-hukuncen Nahawu akan Dogaro mai Nisa. Proceedings of COLING
  5. Goodfellow, I., et al. (2014). Cibiyoyin Sadarwa na Adawa. Ci gaba a cikin Tsarin Bayanai na Neural