Chagua Lugha

MENmBERT: Uhamisho wa Kujifunza kwa NLP ya Kiingereza cha Malaysia

Utafiti kuhusu uhamisho wa kujifunza kutoka kwa Miundo ya Lugha Iliyofunzwa awali ya Kiingereza hadi Kiingereza cha Malaysia kwa kuboresha utambuzi wa huluki na uchimbaji wa uhusiano katika mazingira yenye rasilimali chache.
learn-en.org | PDF Size: 0.2 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - MENmBERT: Uhamisho wa Kujifunza kwa NLP ya Kiingereza cha Malaysia

Yaliyomo

26.27%

Uboreshaji wa Ufanisi wa RE

14,320

Makala ya Habari katika Mkusanyiko wa MEN

6,061

Huluki Zilizowekwa Alama

1. Utangulizi

Kiingereza cha Malaysia kinawakilisha changamoto ya kipekee ya kisaru katika NLP - lugha ya kikreoli yenye rasilimali chache ambayo inajumuisha vipengele kutoka kwa lugha za Kimalei, Kichina, na Kitamil pamoja na Kiingereza cha Kawaida. Utafiti huu unashughulikia pengo muhimu la utendaji katika kazi za Kutambua Huluki (NER) na Uchimbaji wa Uhusiano (RE) wakati wa kutumia miundo ya kawaida ya lugha iliyofunzwa awali kwa maandishi ya Kiingereza cha Malaysia.

Marekebisho ya kimofolosintaksia, vipengele vya kisemantiki, na muundo wa kubadilisha lugha unaoashiria Kiingereza cha Malaysia husababisha upungufu mkubwa wa utendaji katika miundo ya kisasa iliyopo kwenye kilele. Kazi yetu inaanzisha MENmBERT na MENBERT, miundo maalum ya lugha iliyobuniwa ili kufunga pengo hili kupitia mbinu za kimkakati za uhamisho wa kujifunza.

2. Msingi na Kazi Inayohusiana

Urekebishaji wa miundo ya lugha iliyofunzwa awali kwa mikusanyiko maalum ya kikoa au lugha umeonyesha maboresho makubwa katika kazi mbalimbali za NLP. Utafiti wa Martin et al. (2020) na Antoun et al. (2021) umeonyesha kuwa kufunza zaidi awali kwenye mikusanyiko maalum huongeza utendaji wa mfumo katika miktadha maalum ya lugha.

Kiingereza cha Malaysia kinatoa changamoto za kipekee kutokana na asili yake ya kikreoli, ikiwa na maneno ya kukopa, maneno yanayounganishwa, na mabadiliko kutoka kwa lugha nyingi za asili. Dhana ya kubadilisha lugha, ambapo wasemaji huchanganya Kiingereza na Kimalei ndani ya usemi mmoja, huunda utata wa ziada kwa miundo ya kawaida ya NLP.

3. Mbinu

3.1 Mbinu ya Kufunza Kabla

MENmBERT inatumia uhamisho wa kujifunza kutoka kwa PLMs za Kiingereza kupitia kufunza endelevu awali kwenye Mkusanyiko wa Habari za Kiingereza cha Malaysia (MEN). Lengo la kufunza kabla hufuata mbinu ya kuiga lugha iliyofichika:

$$L_{MLM} = -\mathbb{E}_{x \sim D} \sum_{i=1}^{n} \log P(x_i | x_{\\backslash i})$$

ambapo $x$ inawakilisha mlolongo wa ingizo, $D$ ni usambazaji wa Mkusanyiko wa MEN, na $x_{\\backslash i}$ inaashiria mlolongo wenye ishara ya $i$-th iliyofichika.

3.2 Mkakati wa Usahihishaji

Miundo ilisahihishwa kwenye Seti ya Takwimu ya MEN iliyo na makala 200 za habari zenye huluki 6,061 zilizowekwa alama na matukio 4,095 ya uhusiano. Mchakato wa usahihishaji ulitumia tabaka maalum za kazi kwa NER na RE, na uboreshaji wa hasara ya msalaba-entropi:

$$L_{NER} = -\sum_{i=1}^{N} \sum_{j=1}^{T} y_{ij} \log(\hat{y}_{ij})$$

ambapo $N$ ni idadi ya mfululizo, $T$ ni urefu wa mfululizo, $y_{ij}$ ni lebo ya kweli, na $\hat{y}_{ij}$ ni uwezekano uliotabiriwa.

4. Matokeo ya Kielelezo

4.1 Ufanisi wa NER

MENmBERT ilipata uboreshaji wa jumla wa 1.52% katika utendaji wa NER ikilinganishwa na bert-base-multilingual-cased. Ingawa uboreshaji wa jumla unaonekana wa wastani, uchambuzi wa kina unaonyesha maboresho makubwa katika lebo maalum za huluki, hasa kwa huluki maalum za Malaysia na misemo iliyobadilishwa lugha.

Kielelezo 1: Ulinganisho wa utendaji wa NER unaonyesha MENmBERT inavuka miundo ya msingi kwenye aina za huluki maalum za Malaysia, na utendaji imara hasa kwenye huluki za eneo na shirika za kipekee katika muktadha wa Malaysia.

4.2 Ufanisi wa RE

Uboreshaji mkubwa zaidi ulionekana katika Uchimbaji wa Uhusiano, ambapo MENmBERT ilipata faida ya utendaji wa 26.27%. Uboreshaji huu mkubwa unaonyesha uwezo ulioimarika wa mfumo kuelewa uhusiano wa kisemantiki katika muktadha wa Kiingereza cha Malaysia.

Mwanga Muhimu

  • Kufunza kabla kwa lugha maalum huongeza kwa kiasi kikubwa utendaji kwenye lahaja zenye rasilimali chache
  • Miundo ya kubadilisha lugha inahitaji miundo maalum ya mfumo
  • Uhamisho wa kujifunza kutoka kwa lugha zenye rasilimali nyingi hadi zenye rasilimali chache unaonyesha matokeo mazuri
  • Mikusanyiko inayolenga kijiografia huongeza utendaji wa mfumo kwa anuwai za kikanda za lugha

5. Mfumo wa Uchambuzi

Mtazamo wa Mchambuzi wa Sekta

Mwanga wa Msingi

Utafiti huu unapinga kimsingi mbinu ya 'ukubwa mmoja unafaa wote' kwa NLP ya lugha nyingi. Kuruka kwa utendaji wa RE kwa 26.27% sio uboreshaji mdogo tu - ni kashifa ya kuhuzunisha jinsi miundo ya msingi inavyoshindwa anuwai za lugha zilizotengwa. Kiingereza cha Malaysia sio kesi ya kipekee; ni doria kwenye mgodi wa miaka kwa mamia ya jamii za lugha zisizohudumiwa vyema.

Mkondo wa Kimantiki

Mbinu hufuata uharibifu wenye ufanisi wa hatua tatu wa hekima ya kawaida: tambua pengo la utendaji (miundo ya kawaida inashindwa kwa kiasi kikubwa), tumia uhamisho wa kujifunza unaolengwa (muundo wa MENmBERT), na thibitisha kupitia vigezo madhubuti. Mbinu hii inafanana na mikakati miongoni mwa iliyofanikiwa ya kurekebisha kikoa inayonekana katika NLP ya kimatibabu (Lee et al., 2019) lakini inazitumia kuhifadhi utofauti wa lugha.

Nguvu na Mapungufu

Nguvu: Mkusanyiko wa makala 14,320 unawakilisha juhudi kubwa za utayarishaji wa data. Mbinu ya miundo miwili (MENmBERT na MENBERT) inaonyesha ustadi wa kimbinu. Kuruka kwa utendaji wa RE hakuna kukana.

Mapungufu: Uboreshaji wa wastani wa 1.52% wa NER unainua nyusi - ama vipimo vya tathmini vina dosari au mbinu ina mipaka ya msingi. Karatasi inazunguka tofauti hii bila maelezo ya kuridhisha. Utegemezi wa mfumo kwa data ya kikoa cha habari unaweka kikomo uwezo wa kutumika kwa jumla.

Mwanga Unaoweza Kutekelezeka

Kwa makampuni yanayofanya kazi Asia ya Kusini-Mashariki: zingatia kupitishwa mara moja. Kwa watafiti: rudia mbinu hii kwa Kiingereza cha Singapore, anuwai za Kiingereza cha India. Kwa watengenezaji wa miundo: hii inathibitisha kuwa 'lugha nyingi' kwa vitendo inamaanisha 'lugha kuu tu' - wakati wa mabadiliko ya dhana.

Mfano wa Mfumo wa Uchambuzi

Kisomo cha Kesi: Utambuzi wa Huluki katika Maandishi Yaliyobadilishwa Lugha

Ingizo: "Naenda pasar malam huko Kuala Lumpur kisha nitakutana na Encik Ahmad KLCC"

Matokeo ya BERT ya Kawaida: [SHIRIKA] pasar malam, [ENE0] Kuala Lumpur, [MENGINE] Encik Ahmad, [MENGINE] KLCC

Matokeo ya MENmBERT: [TUKIO] pasar malam, [JIJI] Kuala Lumpur, [MTU] Encik Ahmad, [ALAMA YA KIHISTORIA] KLCC

Hii inaonyesha uelewa bora wa MENmBERT wa muktadha wa kitamaduni wa Malaysia na aina za huluki.

6. Matumizi ya Baadaye

Mafanikio ya MENmBERT yanafungua mwelekeo kadhaa mazuri kwa utafiti na matumizi ya baadaye:

  • Uhamisho wa Kuvuka Lugha: Kutumia mbinu sawa kwa anuwai zingine za Kiingereza (Kiingereza cha Singapore, Kiingereza cha India)
  • Ushirikishaji wa Aina Nyingi: Kuchanganya maandishi na data ya sauti kwa kuboresha utambuzi wa kubadilisha lugha
  • Matumizi ya Wakati Halisi: Kupelekwa kwenye mijadala ya huduma kwa wateja kwa masoko ya Malaysia
  • Teknolojia ya Elimu: Vifaa vya kujifunza lugha vilivyobuniwa kwa wasemaji wa Kiingereza cha Malaysia
  • Matumizi ya Kisheria na ya Serikali: Uchakataji wa nyaraka kwa maandishi ya kisheria na ya kiutawala ya Malaysia

Mbinu inaonyesha uwezo wa kupanuliwa kwa anuwai zingine za lugha zenye rasilimali chache na lugha za kikreoli ulimwenguni kote.

7. Marejeo

  1. Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
  2. Liu, Y., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach.
  3. Conneau, A., et al. (2020). Unsupervised Cross-lingual Representation Learning at Scale.
  4. Lan, Z., et al. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations.
  5. Martin, L., et al. (2020). CamemBERT: a Tasty French Language Model.
  6. Antoun, W., et al. (2021). AraBERT: Transformer-based Model for Arabic Language Understanding.
  7. Chanthran, M., et al. (2024). Malaysian English News Dataset for NLP Tasks.
  8. Lee, J., et al. (2019). BioBERT: a pre-trained biomedical language representation model.