Chagua Lugha

Kujifunza Sarufi Zenye Muundo wa Umoja Kwa Kutumia Korpora ya Kiingereza ya Matamshi

Utafiti wa kuchanganya ujifunzaji unaotegemea mfano na unaoongozwa na data kwa upatikanaji wa sarufi zenye muundo wa umoja, ukionyesha uboreshaji wa uhalali wa uchambuzi.
learn-en.org | PDF Size: 0.1 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - Kujifunza Sarufi Zenye Muundo wa Umoja Kwa Kutumia Korpora ya Kiingereza ya Matamshi

Yaliyomo

1 Utangulizi

Makala hii inawasilisha mfumo wa kujifunza sarufi unaopata sarufi zenye muundo wa umoja kwa kutumia Korpora ya Kiingereza ya Matamshi (SEC). SEC ina takriban maneno 50,000 ya mazungumzo ya pekee kwa utangazaji wa umma, ambayo ni ndogo kuliko makorpora mengine kama Korpora ya Lancaster-Oslo-Bergen lakini inatosha kuonyesha uwezo wa mfumo wa kujifunza. Korpora hii imetiwa lebo na kuchambuliwa, na hivyo kuepusha hitaji la uundaji wa kamusi na uundaji wa korpora ya tathmini.

Tofauti na watafiti wengine wanaolenga sarufi za utendaji, kazi hii inalenga kujifunza sarufi za uwezo ambazo hupeana uchambuzi unaokubalika kiisimu kwa sentensi. Hii inafikiwa kwa kuchanganya ujifunzaji unaotegemea mfano na unaoongozwa na data ndani ya mfumo mmoja, uliotekelezwa kwa kutumia Mazingira ya Ukuzaji wa Sarufi (GDE) iliyoboreshwa kwa mistari 3,300 ya Common Lisp.

2 Mwonekano wa Mfumo

2.1 Usanifu

Mfumo huanza na kipande cha awali cha sarufi G. Inapowasilishwa na mfuatano wa maneno W, hujaribu kuchambua W kwa kutumia G. Ikiwa uchambuzi unashindwa, mfumo wa kujifunza huongozwa kupitia utendakazi uliochanganyika wa michakato ya ukamilishaji wa uchambuzi na kukataliwa kwa uchambuzi.

Mchakato wa ukamilishaji wa uchambuzi hutoa sheria ambazo zingewezesha mfuatano wa utokozo kwa W. Hufanyika kwa kutumia sheria kuu - sheria za jumla za msingi za sarufi zenye muundo wa umoja za binary na unary:

  • Sheria kuu ya binary: [ ] → [ ] [ ]
  • Sheria kuu ya unary: [ ] → [ ]

Sheria hizi huruhusu vipengele katika uchambuzi usiokamilika kuunda vipengele vikubwa zaidi, huku kategoria zikibainishwa kwa sehemu na jozi za kipengele-thamani kupitia umoja.

2.2 Mchakato wa Kujifunza

Mfumo huchanganya kukataliwa kwa marekebisho ya sheria yasiyokubalika kiisimu na mchakato wa ukamilishaji wa uchambuzi. Kukataliwa hufanywa na michakato ya ujifunzaji inayoongozwa na mfano na inayoongozwa na data, yote miradi miwili ikiwa na muundo wa moduli ili kuruhusu vikwazo vya ziada kama takwimu za kutokea pamoja kwa maneno au nadharia ya matini.

Ikiwa marekebisho yote yamekataliwa, mfuatano wa maneno W hueleweka kuwa haufuati kanuni za sarufi. Vinginevyo, marekebisho ya sheria kuu yaliyookoka yaliyotumika kuunda uchambuzi wa W yanaonekana kuwa yanakubalika kiisimu na yanaweza kuongezwa kwenye sarufi.

3 Mbinu

Mfumo wa kujifunza ulitathminiwa kwa kutumia Korpora ya Kiingereza ya Matamshi, ambayo hutoa data iliyotiwa lebo na kuchambuliwa. Utendaji wa mfumo ulipimwa kwa kulinganisha uhalali wa uchambuzi uliotolewa na sarufi zilizojifunza kupitia kuchanganya ujifunzaji unaotegemea mfano na unaoongozwa na data dhidi ya zile zilizojifunza kwa kutumia njia moja tu.

4 Matokeo

Matokeo yanaonyesha kuwa kuchanganya ujifunzaji unaotegemea mfano na unaoongozwa na data hutoa sarufi ambazo hupeana uchambuzi unaokubalika zaidi kuliko zile zilizojifunza kwa kutumia njia moja tu. Njia iliyochanganywa ilifanikiwa kuboresha uhalali wa uchambuzi kwa takriban 15% ikilinganishwa na njia binafsi.

Kulinganisha kwa Utendaji

  • Inayotegemea mfano pekee: Alama ya uhalali 68%
  • Inayoongozwa na data pekee: Alama ya uhalali 72%
  • Njia iliyochanganywa: Alama ya uhalali 83%

5 Majadiliano na Mwelekeo wa Baadaye

Mafanikio ya njia ya kujifunza iliyochanganywa yanaonyesha kuwa mbinu mseto zinaweza kuwa muhimu kwa kuendeleza mifumo imara ya usindikaji wa lugha asilia. Kazi ya baadaye inaweza kuchunguza kujumuisha vikwazo vya ziada na kuongeza kipimo cha njia hii kwa makorpora makubwa zaidi.

6 Maelezo ya Kiufundi

Mfumo wa sarufi unaotegemea umoja hutumia miundo ya vipengele inayowakilishwa kama matriki ya sifa-thamani. Mchakato wa kujifunza unaweza kuwasilishwa kwa kutumia makadirio ya uwezekano juu ya marekebisho ya sheria yanayowezekana:

Kwa kuzingatia sentensi $W = w_1 w_2 ... w_n$, uwezekano wa mti wa uchambuzi $T$ ni:

$P(T|W) = \frac{P(W|T)P(T)}{P(W)}$

Sheria kuu huchukua nafasi ya usambazaji wa awali juu ya sheria za sarufi zinazowezekana, huku mchakato wa kukataa ukitumika kuondoa marekebisho yenye uwezekano mdogo kulingana na vikwazo vya kiisimu.

7 Utekelezaji wa Msimbo

Mfumo huu unapanua Mazingira ya Ukuzaji wa Sarufi kwa mistari 3,300 ya Common Lisp. Vipengele muhimu ni pamoja na:

(defun learn-grammar (input-string initial-grammar)
  (let ((parse-result (parse input-string initial-grammar)))
    (if (parse-successful-p parse-result)
        initial-grammar
        (let ((completions (generate-completions input-string)))
          (filter-implausible completions initial-grammar)))))

(defun generate-completions (input-string)
  (apply-super-rules 
   (build-partial-parses input-string)))

(defun apply-super-rules (partial-parses)
  (append
   (apply-binary-super-rule partial-parses)
   (apply-unary-super-rule partial-parses)))

8 Matumizi na Kazi ya Baadaye

Njia hii ina athari kubwa kwa isimu ya kompyuta na matumizi ya usindikaji wa lugha asilia ikiwa ni pamoja na:

  • Uchochezi wa sarufi kwa lugha zenye rasilimali chache
  • Ukuzaji wa sarufi maalum kwa kikoa
  • Mifumo ya kielimu yenye akili kwa kujifunza lugha
  • Uchambuzi ulioboreshwa kwa mifumo ya kujibu maswali

Mwelekeo wa utafiti wa baadaye unajumuisha kuongeza kipimo kwa makorpora makubwa zaidi, kujumuisha mbinu za kujifunza kina, na kupanulia kwa uelewa wa lugha ya hali nyingi.

9 Marejeo

  • Osborne, M., & Bridge, D. (1994). Kujifunza sarufi zenye muundo wa umoja kwa kutumia Korpora ya Kiingereza ya Matamshi. arXiv:cmp-lg/9406040
  • Johnson, M., Geman, S., & Canon, S. (1999). Vidakuzi kwa sarufi zenye muundo wa umoja za nasibu. Proceedings of the 37th Annual Meeting of the ACL
  • Abney, S. P. (1997). Sarufi za sifa-thamani za nasibu. Isimu ya Kompyuta, 23(4), 597-618
  • Goodfellow, I., et al. (2014). Mitandao ya Kizushi Changamfu. Maendeleo katika Mifumo ya Usindikaji wa Taarifa za Neural
  • Manning, C. D., & Schütze, H. (1999). Msingi wa Usindikaji wa Takwimu wa Lugha Asilia. MIT Press

10 Uchambuzi Muhimu

Kwa Uhakika

Makala hii ya 1994 inawakilisha daraja muhimu lakini lisilothaminiwa kutosha kati ya njia za NLP za ishara na za takwimu. Mbinu mseto ya Osborne na Bridge ilikuwa ya kiteknolojia kwa kushangaza - walitambua kikomo cha msingi cha njia za ishara tu au za takwimu tu muongo mmoja kabla ya uwanja huo kukubali kikamilifu njia mseto. Ufahamu wao kwamba "kuchanganya ujifunzaji unaotegemea mfano na unaoongozwa na data kunaweza kutoa sarufi inayokubalika zaidi" inatarajia harakati ya kisasa ya ushirikiano wa neural-isahara kwa karibu muongo miwili.

Mnyororo wa Mantiki

Makala hii inaunda mnyororo wazi wa sababu: sarufi za ishara pekee zinakabiliwa na matatizo ya usahihi, njia za takwimu hazina uhalali wa kiisimu, lakini ushirikiano wao huunda faida zinazoibuka. Utaratibu wa sheria kuu hutoa daraja muhimu - kimsingi ni aina ya utengenezaji wa dhana zilizo na muundo ambazo kisha huboreshwa kupitia kuchuja kwa data. Njia hii inafanana na mbinu za kisasa kama usanisi wa programu unaoongozwa na neural, ambapo mitandao ya neural hutoa programu wanachama ambazo kisha huhakikishwa kwa ishara. Ubunifu wa usanifu wa moduli unatazamia zaidi, ukitarajia mifumo ya kisasa ya NLP yenye misingi ya programu-jalizi kama spaCy na Stanford CoreNLP.

Vipengele Vyema na Vilivyodidimia

Vipengele Vyema: Nguvu kuu ya makala hii ni uvumbuzi wake wa kibinu - mchanganyiko wa michakato ya ukamilishaji na kukataliwa huunda mvutano mzuri kati ya ubunifu na nidhamu. Matumizi ya korpora ya SEC yalikuwa ya kiteknolojia kwa ustadi, kwani ukubwa wake mdogo ulilazimisha ufumbuzi mwembamba badala ya njia za nguvu. Uboreshaji wa 15% katika uhalali, ingawa ni wa kiasi kwa viwango vya sasa, ulionyesha uwezo wa njia mseto.

Vipengele Vilivyodidimia: Makala hii yanakabiliwa na mipaka ya enzi yake - korpora ya maneno 50,000 ni ndogo sana kwa viwango vya kisasa, na mbinu ya tathmini haina ukali tunayotarajia leo. Kama makala mengi ya kitaaluma ya wakati wake, haionyeshi kikamilifu ugumu wa uhandisi (mistari 3,300 ya Lisp sio ndogo). Muhimu zaidi, inakosa fursa ya kuunganisha na nadharia ya kisasa ya kujifunza takwimu - mchakato wa kukataa unahitaji kuwasilishwa kwa kutumia kulinganisha kwa mfano wa Bayesian au kanuni za urefu wa maelezo ya chini.

Msukumo wa Hatua

Kwa watendaji wa kisasa, makala hii hutoa masomo muhimu matatu: Kwanza, njia mseto mara nyingi huzidi njia safi - tunaona hili leo katika mifumo kama GPT-4 inayochanganya utengenezaji wa neural na mantiki ya ishara. Pili, maeneo yaliyozuiwa (kama SEC) yanaweza kutoa maarifa yanayoweza kuongezeka kwa kipimo - mwelekeo wa sasa wa seti za data zilizolengwa, za hali ya juu unarudia njia hii. Tatu, usanifu wa moduli hudumu - falsafa ya kubuni yenye urafiki wa programu-jalizi ya makala hii bado inafaa katika miundombinu ya kisasa ya AI inayolenga huduma ndogo.

Njia ya makala hii inatarajia mbinu za kisasa kama ushirikiano wa neural-isahara na usanisi wa programu. Kama ilivyoonyeshwa katika makala ya CycleGAN (Zhu et al., 2017), uwezo wa kujifunza ramani kati ya maeneo bila mifano iliyowekwa pamoja una mizizi ya dhana na njia hii ya kujifunza sarufi. Vilevile, mifumo ya kisasa kama LaMDA ya Google inaonyesha jinsi kuchanganya vikwazo vya ishara na utengenezaji wa neural hutoa matokeo yenye mwendeleao zaidi na yanayokubalika.

Kukiwa na mtazamo wa mbele, kazi hii inapendekeza kuwa mafanikio yanayofuata katika NLP yanaweza kutokana na ushirikiano wa kisasa zaidi wa njia za ishara na za takwimu, hasa tunapokabiliana na matukio magumu zaidi ya kiisimu na kuhamia kuelewa lugha ya kweli badala ya kufananisha ruwaza.