NewsQA: Seti ya Takwimu ya Changamoto ya Uelewa wa Mashine kwa Utafiti wa NLP

1. Utangulizi na Muhtasari

Hati hii inachambua karatasi ya utafiti "NewsQA: Seti ya Takwimu ya Uelewa wa Mashine" iliyowasilishwa katika Warsha ya 2 ya Ujifunzaji wa Uwakilishi kwa NLP mwaka 2017. Karatasi hiyo inatanguliza seti mpya ya takwimu iliyoundwa kusukuma mipaka ya uelewa wa usomaji wa mashine (MRC). Dhana kuu ni kwamba seti za takwimu zilizopo zilikuwa ama ndogo sana kwa ujifunzaji wa kina wa kisasa au zilitengenezwa kwa njia ya bandia, na kushindwa kukamata utata wa maswali ya asili ya binadamu. NewsQA, yenye jozi zaidi ya 100,000 za maswali na majibu zilizotengenezwa na binadamu kulingana na makala za habari za CNN, iliundwa kushughulikia pengo hili, ikilenga wazi maswali ambayo yanahitaji kufikiri zaidi ya kufananisha maneno rahisi.

2. Seti ya Takwimu ya NewsQA

NewsQA ni mkusanyiko wa ujifunzaji unaosimamiwa unaojumuisha mara tatu (hati, swali, jibu). Majibu ni sehemu za maandishi zinazofuatana kutoka kwa makala asilia.

2.1 Uundaji wa Seti ya Takwimu na Njia

Seti ya takwimu ilijengwa kwa kutumia mchakato wa kisasa wa hatua nne wa kukusanya wataalamu kutoka umma ulioundwa kutoa maswali ya uchunguzi na yanayohitaji kufikiri sana:

Uundaji wa Swali: Wafanyakazi walionyeshwa tu muhtasari wa makala ya CNN na kuulizwa kutunga maswali ambayo walikuwa na hamu ya kujua.
Uchaguzi wa Sehemu ya Jibu: Kikundi tofauti cha wafanyakazi, wakipewa makala kamili, walitambua sehemu ya maandishi iliyojibu swali, ikiwa ilikuwepo.
Utoaji huu wa hatua mbili unahimiza maswali ambayo yanatofautiana kimaumbo na kisintaksia kutoka kwa maandishi ya jibu.
Husababisha kwa asili sehemu ndogo ya maswali ambayo hayana jibu kutokana na makala kamili, na kuongeza kiwango kingine cha ugumu.

2.2 Sifa Muhimu na Takwimu

Kiwango

Jozi 119,633 za Swali-Jibu

Chanzo

Makala 12,744 za CNN

Urefu wa Makala

~Mara 6 ndefu kuliko makala za SQuAD kwa wastani

Aina ya Jibu

Sehemu za maandishi (sio vyombo au chaguo nyingi)

Sifa Zinazotofautisha: Hati za muktadha ndefu zaidi, tofauti ya maneno kati ya Swali na Jibu, uwiano mkubwa wa maswali yanayohitaji kufikiri, na uwepo wa maswali yasiyo na jibu.

3. Uchambuzi wa Kiufundi na Ubunifu

3.1 Falsafa ya Msingi ya Ubunifu

Lengo la waandishi lilikuwa wazi: kuunda mkusanyiko ambao unahitaji tabia zinazofanana na kufikiri, kama vile muunganisho wa habari katika sehemu tofauti za makala ndefu. Hii ni majibu ya moja kwa moja kwa ukosoaji kwamba seti nyingi za MC, kama zile zilizotengenezwa kwa njia ya CNN/Daily Mail ya aina ya kujaza nafasi, hujaribu hasa kufananisha muundo badala ya uelewa wa kina [Chen et al., 2016].

3.2 Ulinganisho na SQuAD

Ingawa zote mbili zinategemea sehemu za maandishi na zimetengenezwa na umma, NewsQA inajitofautisha:

Kikoa na Urefu: Makala za habari dhidi ya aya za Wikipedia; hati ndefu zaidi kwa kiasi kikubwa.
Mchakato wa Ukusanyaji: Uundaji wa Swali na Jibu uliotenganishwa (NewsQA) dhidi ya uundaji na mfanyakazi mmoja (SQuAD), na kusababisha tofauti kubwa zaidi.
Asili ya Swali: Iliyoundwa kwa maswali ya "uchunguzi, yanayotokana na udadisi" dhidi ya maswali yanayotokana moja kwa moja kutoka kwa maandishi.
Yasiyo na Majibu: NewsQA inajumuisha wazi maswali yasiyo na jibu, hali ya ukweli na ya changamoto.

4. Matokeo ya Majaribio na Utendaji

4.1 Utendaji wa Binadamu dhidi ya Mashine

Karatasi hiyo inaweka msingi wa utendaji wa binadamu kwenye seti ya takwimu. Matokeo muhimu ni pengo la alama ya F1 ya 13.3% kati ya utendaji wa binadamu na mifano bora ya neva iliyojaribiwa wakati huo. Pengo hili kubwa lilipitishwa sio kama kushindwa, bali kama ushahidi kwamba NewsQA ni kigezo cha changamoto ambapo "maendeleo makubwa yanaweza kufanyika."

4.2 Uchambuzi wa Utendaji wa Mfano

Waandishi walitathmini misingi kadhaa dhabiti ya neva (miundo kama vile Msomaji Mwenye Makini, Msomaji Mwenye Makini wa Stanford, na Msomaji AS). Mifano ilikumbana hasa na:

Utegemezi wa umbali mrefu katika makala ndefu.
Maswali yanayohitaji muunganisho wa ukweli mbalimbali.
Kutambua kwa usahihi maswali yasiyo na majibu.

Maana ya Chati: Chati ya utendaji ya kinadharia ingeonyesha F1 ya Binadamu juu kabisa (~80-90%), ikifuatiwa na kundi la mifano ya neva iliyo chini sana, na pengo likionyesha wazi ugumu wa seti ya takwimu.

5. Uchambuzi Muhimu na Ufahamu wa Wataalamu

Ufahamu wa Msingi: NewsQA haikuwa tu seti nyingine ya takwimu; ilikuwa uingiliaji wa kimkakati. Waandishi walitambua kwa usahihi kwamba maendeleo ya taaluma yalikuwa yamezuiliwa na ubora wa viwango. Wakati SQuAD [Rajpurkar et al., 2016] ilitatua tatizo la kiwango/uasili, NewsQA ililenga kutatua tatizo la kina cha kufikiri. Mchakato wake wa ukusanyaji wa hatua nne, uliotenganishwa, ulikuwa hila mahiri ya kuwalazimisha wafanyakazi wa umma kuingia katika msimamo wa kutafuta habari, na kuiga jinsi mtu anaweza kusoma muhtasari wa habari na kisha kuingia kwenye makala kamili kwa maelezo. Njia hii ilishambulia moja kwa moja upendeleo wa maneno uliokuwa ukisumbua mifano ya awali.

Mtiririko wa Kimantiki: Hoja ya karatasi hiyo ni imara kabisa: 1) Seti za takwimu za awali zina kasoro (ndogo sana au za bandia). 2) SQuAD ni bora lakini maswali yanafuata maandishi kwa karibu sana. 3) Kwa hivyo, tunabuni mchakato (muhtasari-kwanza, kisha swali) ili kuunda maswali magumu zaidi, yanayotofautiana zaidi. 4) Tunathibitisha hili kwa kuonyesha pengo kubwa kati ya binadamu na mashine. Mantiki hii inatumika kwa lengo wazi la bidhaa: kuunda kigezo ambacho kingebaki kikiwa na umuhimu na kisichotatuliwa kwa miaka mingi, na hivyo kuvutia utafiti na marejeo.

Nguvu na Kasoro: Nguvu kuu ni ugumu endelevu wa seti ya takwimu na mwelekeo wake kwenye utata wa ulimwengu halisi (hati ndefu, maswali yasiyo na majibu). Kasoro yake, ya kawaida kwa enzi hiyo, ilikuwa ukosefu wa maswali ya kufikiri ya hatua nyingi au ya muundo wazi ambayo seti za baadaye kama HotpotQA [Yang et al., 2018] zingeingiza. Zaidi ya hayo, kikoa cha habari, ingawa tajiri, huleta upendeleo katika mtindo na muundo ambao hauwezi kutumika kwa aina nyingine za maandishi. Pengo la 13.3% la F1 lilikuwa kichwa cha habari kinachovutia, lakini pia lilionyesha ukomo wa mifano ya enzi ya 2017 zaidi ya sifa ya asili ya data.

Ufahamu Unaoweza Kutekelezwa: Kwa watendaji, urithi wa NewsQA ni somo kuu katika ubunifu wa viwango. Ikiwa unataka kuendeleza taaluma, usifanye tu seti kubwa ya takwimu; ibuni uundaji wake ili kulenga udhaifu maalum wa mfano. Kwa wabunifu wa mifano, NewsQA ilionyesha hitaji la miundo yenye uwezo bora wa kufikiri katika muktadha mrefu (hitaji lililotatuliwa baadaye na mabadiliko) na usimamizi thabiti wa hali za "hakuna jibu." Seti ya takwimu ililazimisha kwa ufanisi jamii kuhamia zaidi ya mifano ya ufanano wa mfuko wa maneno kuelekea ile inayoweza kufanya uelewa wa kiwango cha mazungumzo halisi.

6. Maelezo ya Kiufundi na Mfumo wa Hisabati

Kazi kuu imefafanuliwa kama: Kwa kuzingatia hati $D$ inayojumuisha alama $[d_1, d_2, ..., d_m]$ na swali $Q$ linalojumuisha alama $[q_1, q_2, ..., q_n]$, mfano lazima utabiri faharasa ya kuanzia $s$ na faharasa ya kumalizia $e$ (ambapo $1 \leq s \leq e \leq m$) ya sehemu ya jibu katika $D$, au ionyeshe kwamba hakuna jibu.

Kipimo cha kawaida cha tathmini ni alama ya F1, ambayo hupima wastani wa usawa wa usahihi na ukumbusho kwa kiwango cha neno kati ya sehemu iliyotabiriwa na sehemu ya ukweli (au sehemu). Kwa maswali yasiyo na majibu, utabiri wa "hakuna jibu" unachukuliwa kuwa sahihi tu ikiwa swali halina jibu kweli.

Mfano wa kawaida wa neva kutoka enzi hiyo (k.m., Msomaji Mwenye Makini) ungefanya:

Kubadilisha swali kuwa vekta $\mathbf{q}$.
Kubadilisha kila alama ya hati $d_i$ kuwa uwakilishi $\mathbf{d}_i$ unaotambua muktadha, mara nyingi kwa kutumia BiLSTM: $\overrightarrow{\mathbf{h}_i} = \text{LSTM}(\overrightarrow{\mathbf{h}_{i-1}}, \mathbf{E}[d_i])$, $\overleftarrow{\mathbf{h}_i} = \text{LSTM}(\overleftarrow{\mathbf{h}_{i+1}}, \mathbf{E}[d_i])$, $\mathbf{d}_i = [\overrightarrow{\mathbf{h}_i}; \overleftarrow{\mathbf{h}_i}]$.
Kukokotoa usambazaji wa umakini juu ya alama za hati kulingana na swali: $\alpha_i \propto \exp(\mathbf{d}_i^\top \mathbf{W} \mathbf{q})$.
Kutumia umakini huu kukokotoa uwakilishi wa hati unaotambua swali na kutabiri uwezekano wa kuanza/kumaliza kupitia wakaguzi wa softmax.

7. Mfumo wa Uchambuzi na Utafiti wa Kesi

Utafiti wa Kesi: Kuchambua Kushindwa kwa Mfano kwenye NewsQA

Hali: Mfano dhabiti wa SQuAD unatumika kwenye NewsQA na unaonyesha kushuka kwa utendaji kwa kiasi kikubwa.

Mfumo wa Utambuzi wa Tatizo:

Angalia Upendeleo wa Kuingiliana kwa Maneno: Toa mifano iliyoshindwa ambapo swali na jibu sahihi zinashiriki maneno machache muhimu. Kiwango cha juu cha kushindwa hapa kinaonyesha mfano ulitegemea kufananisha kwa uso, ambacho ubunifu wa NewsQA unalipa.
Chambua Urefu wa Muktadha: Panga usahihi wa mfano (F1) dhidi ya urefu wa alama za hati. Kupungua kwa kasi kwa makala marefu kunadokeza kutoweza kwa mfano kushughulikia utegemezi wa umbali mrefu, sifa muhimu ya NewsQA.
Tathmini kwenye Yasiyo na Majibu: Pima usahihi/ukumbusho wa mfano kwenye sehemu ndogo ya maswali yasiyo na majibu. Je, huota majibu? Hii inajaribu usawa wa mfano na uwezo wake wa kujua kile asichojua.
Uainishaji wa Aina ya Kufikiri: Weka lebo kwa mfano wa maswali yaliyoshindwa katika kategoria: "Muunganisho wa sentensi nyingi," "Utatuzi wa marejeleo," "Kufikiri kwa wakati," "Kufikiri kwa sababu." Hii inaonyesha hasa ujuzi maalum wa utambuzi ambao mfano hauna.

Mfano wa Ugunduzi: Kutumia mfumo huu kunaweza kufunua: "Mfano X unashindwa kwenye 60% ya maswali yanayohitaji muunganisho katika aya mbalimbali (Kategoria 1) na una kiwango cha 95% cha makosa chanya kwenye maswali yasiyo na majibu. Utendaji wake hupungua kwa mstari kwa urefu wa hati zaidi ya alama 300." Utambuzi huu sahihi unaelekeza uboreshaji kuelekea mifumo bora ya umakini wa kuvuka aya na uwekaji kizingiti cha ujasiri.

8. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Changamoto zilizowekwa na NewsQA ziliwajulisha moja kwa moja mwelekeo kadhaa muhimu wa utafiti:

Uundaji wa Muktadha Mrefu: Makala ndefu za NewsQA zilionyesha ukomo wa RNNs/LSTMs. Hitaji hili lilisaidia kuendesha kupitishwa na uboreshaji wa mifano ya mabadiliko kama Longformer [Beltagy et al., 2020] na BigBird, ambazo hutumia mifumo ya umakini yenye ufanisi kwa hati za alama elfu.
QA Thabiti na Makadirio ya Kutokuwa na Hakika: Maswali yasiyo na majibu yalilazimisha jamii kuunda mifano ambayo inaweza kujizuia kujibu, na kuboresha usalama na uaminifu wa mifumo ya QA ya ulimwengu halisi katika huduma ya wateja au ukaguzi wa hati za kisheria.
QA ya Vyanzo Nyingi na Kikoa Wazi: Asili ya "kutafuta habari" ya maswali ya NewsQA ni hatua ya kwanza kuelekea QA ya kikoa wazi, ambapo mfumo lazima upate hati zinazohusika kutoka kwa mkusanyiko mkubwa (kama wavuti) na kisha ujibu maswali magumu kulingana na hizo, kama inavyoonekana katika mifumo kama RAG (Uzalishaji Ulioimarishwa na Upatikanaji) [Lewis et al., 2020].
Uelezekaji na Minyororo ya Kufikiri: Ili kushughulikia maswali ya kufikiri ya NewsQA, kazi ya baadaye ilihamia kuelekea mifano inayozalisha hatua wazi za kufikiri au kuangazia sentensi zinazosaidia, na kufanya maamuzi ya mfano yawe yanaelezeka zaidi.

Changamoto kuu ya seti ya takwimu—kuelewa simulizi ndefu za ulimwengu halisi ili kujibu maswali ya kina—inabaki kuu kwa matumizi katika uchambuzi wa uandishi wa habari wa kiotomatiki, ukaguzi wa fasihi ya kitaaluma, na uchunguzi wa msingi wa maarifa ya biashara.

9. Marejeo

Trischler, A., Wang, T., Yuan, X., Harris, J., Sordoni, A., Bachman, P., & Suleman, K. (2017). NewsQA: A Machine Comprehension Dataset. Proceedings of the 2nd Workshop on Representation Learning for NLP.
Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Chen, D., Bolton, J., & Manning, C. D. (2016). A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL).
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). Teaching Machines to Read and Comprehend. Advances in Neural Information Processing Systems (NeurIPS).
Richardson, M., Burges, C. J., & Renshaw, E. (2013). MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP).