1. Utangulizi na Dhamira Kuu
Karatasi "Ili Kujaribu Uelewa wa Mashine, Anza kwa Kufafanua Uelewa" inatoa ukosoaji wa msingi wa mfumo unaotawala katika utafiti wa Uelewa wa Usomaji wa Mashine (MRC). Waandishi, Dunietz na wenzake, wanadai kuwa mwelekeo wa taaluma hii wa kutengeneza kazi za kujibu maswali zenye "ugumu" unaozidi kuongezeka hauna mwelekeo na hauna utaratibu. Wanasema kuwa bila kwanza kufafanua nini kinachounda uelewa kwa aina fulani ya maandishi, viwango vya MRC vinafanywa kwa bahati nasibu na vimeshindwa kuhakikisha kuwa miundo inajenga uwakilishi wa ndani wenye nguvu na muhimu wa maana ya maandishi.
Mchango mkuu ni utambulisho wa Kiolezo cha Uelewa (ToU)—ufafanuzi wa kimuundo, unaolenga maudhui kwanza, wa ujuzi wa chini ambao mfumo unapaswa kuutoa kutoka kwa maandishi ya hadithi. Hii inabadilisha mwelekeo kutoka jinsi ya kujaribu (kupitia maswali magumu) kwenda nini cha kujaribu (ufuniko wa kimfumo wa maudhui).
2. Uchambuzi wa Miundo ya Takwimu za MRC Zilizopo
Karatasi hiyo inapitia mbinu za kawaida za uundaji wa takwimu za MRC, ikionyesha kasoro zake za asili kutoka kwa mtazamo wa tathmini ya kimfumo.
2.1 Mfumo wa "Ugumu Kwanza"
Kazi nyingi za kisasa za MRC (k.m., SQuAD 2.0, HotpotQA, DROP) zinaundwa kwa kuwa na wataalamu wasome kifungu na kuunda maswali yanayochukuliwa kuwa magumu, mara nyingi wakilenga aina za mantiki kama vile kuruka-marudio, busara ya kawaida, au hitimisho la nambari. Waandishi wanalinganisha hii na "kujaribu kuwa mkimbiaji mtaalamu kwa kuangalia karibu ukumbini na kuchukua mazoezi yoyote yanayoonekana kuwa magumu." Mafunzo hayana mwelekeo na hayana ramani inayofanana kuelekea uelewa wa kweli.
2.2 Mapungufu ya Uundaji wa Maswali ya Kawaida
Mbinu hii inasababisha takwimu zenye ufunuko usio sawa na usiokamilika wa maudhui ya maana ya kifungu. Utendaji wa juu kwenye viwango kama hivyo hauhakikishi kuwa mfumo umeunda mfano wa kiakili unaofanana wa maandishi. Badala yake, inaweza kuwa bora katika kufananisha muundo wa uso au kutumia upendeleo maalum wa takwimu, jambo lililorekodiwa vizuri katika masomo ya NLI na takwimu za QA.
3. Mfumo Unapendekezwa: Kiolezo cha Uelewa
Waandishi wanapendekeza mabadiliko ya msingi: kwanza fafanua lengo la uelewa, kisha toa majaribio yake.
3.1 Kwa Nini Hadithi?
Hadithi (hadithi fupi) zinapendekezwa kama uwanja bora wa majaribio kwa sababu ni aina ya msingi na tata ya maandishi yenye matumizi wazi ya ulimwengu halisi (k.m., kuelewa madai ya kisheria, historia za wagonjwa, ripoti za habari). Zinahitaji kuiga matukio, wahusika, malengo, uhusiano wa kisababishi/wakati, na hali za kiakili.
3.2 Vipengele vya Kiolezo cha Uelewa cha Hadithi
Kikichochewa na miundo ya sayansi ya utambuzi ya uelewa wa usomaji (k.m., mfumo wa Ujenzi-Unganishaji wa Kintsch), Kiolezo cha Uelewa kinachopendekezwa kwa hadithi kinabainisha vipengele vya chini ambavyo uwakilishi wa ndani wa mfumo unapaswa kuwa navyo:
- Vitu & Marejeleo ya Pamoja: Fuatilia wahusika wote, vitu, maeneo.
- Matukio & Hali: Tambua vitendo vyote na hali za maelezo.
- Muundo wa Wakati: Panga matukio na hali kwenye mstari wa wakati.
- Uhusiano wa Kisababishi: Tambua viungo vya sababu-na-athari kati ya matukio/hali.
- Kusudi & Hali za Kiakili: Hitimisha malengo, imani, na hisia za wahusika.
- Muundo wa Kimada na Ulimwengu: Elewa dhana ya jumla, maadili, au matokeo.
3.3 Kutekeleza Kiolezo cha Uelewa
Kiolezo cha Uelewa sio nadharia tu; ni mpango wa uundaji wa takwimu. Kwa kila kipengele, wabunifu wa kazi wanaweza kuunda maswali kwa utaratibu (k.m., "Nini kilisababisha X?", "Lengo la Y lilikuwa nini alipofanya Z?") ambayo yanachunguza ikiwa mfumo umeunda sehemu hiyo ya uwakilishi. Hii inahakikisha ufunuko kamili na usawa.
4. Ushahidi wa Majaribio na Utendaji wa Mfano
Karatasi hiyo inajumuisha jaribio la majaribio ili kuthibitisha ukosoaji wao.
4.1 Muundo wa Kazi ya Majaribio
Takwimu ndogo ziliundwa kulingana na Kiolezo cha Uelewa kwa hadithi rahisi. Maswali yaliundwa kwa utaratibu ili kuchunguza kila kipengele cha kiolezo.
4.2 Matokeo na Matokeo Muhimu
Miundo ya hali ya juu (kama BERT) ilifanya vibaya kwenye jaribio hili la kimfumo, licha ya kufanya vizuri kwenye viwango vya kawaida vya "ugumu". Miundo hiyo ilishindwa hasa na maswali yanayohitaji mantiki ya kisababishi na hitimisho la hali za kiakili, hasa vipengele ambavyo mara nyingi havichukuliwi vya kutosha katika ukusanyaji wa QA wa kawaida. Jaribio hili linaonyesha kwa nguvu kuwa miundo ya sasa haina uelewa wenye nguvu na muundo ambao Kiolezo cha Uelewa kinahitaji.
Picha ya Jaribio la Majaribio
Matokeo: Miundo ilishindwa kwa utaratibu kwenye uchunguzi wa mantiki ya kisababishi na ya kukusudia.
Maana: Alama za juu kwenye kazi za mtindo wa SQuAD hazilingani na uelewa wa hadithi kama ilivyofafanuliwa na Kiolezo cha Uelewa.
5. Uchunguzi wa Kina wa Kiufundi na Uundaji wa Kihisabati
Kiolezo cha Uelewa kinaweza kuundwa rasmi. Acha hadithi $N$ iwe mlolongo wa sentensi $\{s_1, s_2, ..., s_n\}$. Mfano wa uelewa $M$ unapaswa kuunda uwakilishi $R(N)$ ambao ni grafu yenye muundo:
$R(N) = (E, V, T, C, I)$
Ambapo:
- $E$: Seti ya vitu (nodi).
- $V$: Seti ya matukio/hali (nodi).
- $T \subseteq V \times V$: Uhusiano wa wakati (kingo).
- $C \subseteq V \times V$: Uhusiano wa kisababishi (kingo).
- $I \subseteq E \times V$: Uhusiano wa kukusudia (k.m., Agent(Vitu, Tukio)).
Lengo la mfumo wa MRC ni kuhitimisha $R(N)$ kutoka $N$. Jozi ya QA $(q, a)$ ni kitendakazi cha uchunguzi $f_q(R(N))$ kinachorudisha $a$ ikiwa $R(N)$ ni sahihi. Kiolezo cha Uelewa kinafafanua muundo wa lazima na wa kutosha wa $R(N)$ kwa maandishi ya hadithi.
6. Mfumo wa Uchambuzi: Mfano wa Uchunguzi wa Kesi
Hadithi: "Anna alikuwa na kiwewe na kompyuta yake iliyokuwa polepole. Aliokoa kazi yake, akazima mashine, na akaenda dukani kununua diski mpya ya hali imara. Baada ya kuiweka, kompyuta yake ilianzisha sekunde chache tu, na akatabasamu."
Uchambuzi Kulingana na Kiolezo cha Uelewa:
- Vitu: Anna, kompyuta, kazi, duka, SSD.
- Matukio/Hali: alikuwa na kiwewe, aliokoa kazi, akazima, akaenda, alinunua, aliweka, ilianzisha, akatabasamu.
- Wakati: [kiwewe] -> [aliokoa] -> [akazima] -> [akaenda] -> [alinunua] -> [aliweka] -> [ilianzisha] -> [akatabasamu].
- Kisababishi: Kompyuta polepole ilisababisha kiwewe. Kiwewe kilisababisha lengo la kuboresha. Kununua na kuweka SSD kulisababisha kuanzisha haraka. Kuanzisha haraka kulisababisha tabasamu (kuridhika).
- Kukusudia: Lengo la Anna: kuboresha kasi ya kompyuta. Mpango wake: kununua na kuweka SSD. Imani yake: SSD itafanya kompyuta iwe haraka.
- Kimada: Kutatua matatizo kupitia ubora wa teknolojia husababisha kuridhika.
7. Uchambuzi Muhimu na Maoni ya Mtaalamu
Uelewa Mkuu: Dunietz na wenzake wamegusa kiini cha uharibifu wa kimetodolojia katika tathmini ya AI. Maendeleo ya taaluma hii yanayoendeshwa na viwango, yanayokumbusha athari ya "Clever Hans" katika AI ya mapema, yameweka kipaumbele kwenye faida nyembamba ya utendaji kuliko uelewa wa msingi. Kiolezo chao cha Uelewa ni changamoto ya moja kwa moja kwa jamii: acha kukimbia alama za jedwali la uongozi na anza kufafanua maana halisi ya mafanikio. Hii inalingana na mashaka yanayoongezeka kutoka kwa watafiti kama Rebecca Qian na Tal Linzen, ambao wameonyesha kuwa miundo mara nyingi hutatua kazi kupitia mbinu za uso badala ya mantiki ya kina.
Mtiririko wa Mantiki: Hoja imeundwa kikamilifu: (1) Tambua tatizo (tathmini isiyo na utaratibu, inayolenga ugumu), (2) Pendekeza suluhisho la kanuni (Kiolezo cha Uelewa kinacholenga maudhui kwanza), (3) Toa mfano halisi (kwa hadithi), (4) Toa uthibitisho wa kimajaribio (jaribio la majaribio linaloonyesha kushindwa kwa mfano wa SOTA). Hii inafanana na mbinu madhubuti ya karatasi muhimu zilizofafanua mifumo mipya, kama vile uundaji wazi wa malengo ya tafsiri ya picha zisizo na jozi katika karatasi ya CycleGAN.
Nguvu na Kasoro: Nguvu ya karatasi hiyo ni uwazi wake wa dhana na ukosoaji unaoweza kutekelezeka. Mfumo wa Kiolezo cha Uelewa unaweza kuhamishwa kwa aina nyingine za maandishi (makala ya kisayansi, hati za kisheria). Hata hivyo, kasoro yake kuu ni kiwango kidogo cha jaribio la majaribio. Kiwango kamili cha kiwango kinachotegemea Kiolezo cha Uelewa kinahitajika ili kujaribu miundo kwa shinikizo la kweli. Zaidi ya hayo, Kiolezo cha Uelewa chenyewe, ingawa kina muundo, bado kinaweza kuwa hakijakamilika—je kinashikilia kikamilifu mantiki ya kijamii au dhana tata za kinyume? Ni hatua ya kwanza muhimu, sio nadharia ya mwisho.
Uelewa Unaoweza Kutekelezeka: Kwa watafiti: Jenga kizazi kijacho cha viwango kwa kutumia mbinu inayofanana na Kiolezo cha Uelewa. Kwa wahandisi: Kuwa na mashaka makubwa juu ya madai kwamba miundo "inaelewa" maandishi kulingana na viwango vilivyopo. Tathmini miundo ndani kinyume na violezo vya kimfumo, maalum kwa matumizi. Kwa wafadhili: Weka kipaumbele kwenye utafiti unaofafanua na kupima uelewa wa kweli kuliko uboreshaji mdogo kwenye kazi zilizo na kasoro. Njia ya mbele ni kuchukua mbinu inayoendeshwa na nadharia, inayojulikana na sayansi ya utambuzi, kwa tathmini ya AI, kusonga zaidi ya mwelekeo wa "orodha ya matatizo magumu".
8. Matumizi ya Baadaye na Mwelekeo wa Utafiti
- Uundaji wa Kiwango: Uundaji wa takwimu kubwa za MRC zinazopatikana kwa umma zilizojengwa wazi kutoka kwa Kiolezo cha Uelewa kwa hadithi, habari, na muhtasari wa kisayansi.
- Muundo wa Mfano: Kubuni miundo ya neva inayojenga na kushughulikia wazi uwakilishi wenye muundo (kama grafu ya $R(N)$) badala ya kutegemea tu uingizaji wa maana usio wazi. Hii inaelekeza kwenye mchanganyiko wa neva-na-ishara.
- Uchunguzi wa Tathmini: Kutumia uchunguzi unaotegemea Kiolezo cha Uelewa kama zana za uchunguzi wa kina ili kuelewa udhaifu maalum katika miundo iliyopo (k.m., "Mfano X unashindwa kwenye mantiki ya kisababishi lakini ni mzuri katika kufuatilia vitu").
- Uelewa wa Njia Nyingi: Kupanua dhana ya Kiolezo cha Uelewa kwa uelewa wa njia nyingi (k.m., kuelewa hadithi za video au hadithi zilizo na picha).
- Utumizi wa Ulimwengu Halisi: Matumizi ya moja kwa moja katika nyanja ambapo uelewa wenye muundo ni muhimu: mifumo ya kiotomatiki ya kufundisha inayotathmini uelewa wa hadithi, wasaidizi wa AI wa kisheria wanaochambua hadithi za kesi, au AI ya kliniki inayotafsiri hadithi za historia ya mgonjwa.
9. Marejeo
- Dunietz, J., Burnham, G., Bharadwaj, A., Rambow, O., Chu-Carroll, J., & Ferrucci, D. (2020). To Test Machine Comprehension, Start by Defining Comprehension. arXiv preprint arXiv:2005.01525.
- Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological review, 95(2), 163.
- Chen, D., Fisch, A., Weston, J., & Bordes, A. (2017). Reading Wikipedia to Answer Open-Domain Questions. Proceedings of ACL.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of ICCV. (Imetajwa kama mfano wa uundaji wazi wa malengo).
- McCoy, R. T., Pavlick, E., & Linzen, T. (2019). Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference. Proceedings of ACL.