Pilih Bahasa

MENmBERT: Pembelajaran Pindahan untuk NLP Bahasa Inggeris Malaysia

Kajian pembelajaran pindahan dari PLM Bahasa Inggeris kepada Bahasa Inggeris Malaysia untuk prestasi Pengiktirafan Entiti Bernama dan Pengekstrakan Hubungan yang lebih baik dalam persekitaran sumber rendah.
learn-en.org | PDF Size: 0.2 MB
Penilaian: 4.5/5
Penilaian Anda
Anda sudah menilai dokumen ini
Sampul Dokumen PDF - MENmBERT: Pembelajaran Pindahan untuk NLP Bahasa Inggeris Malaysia

Kandungan

26.27%

Peningkatan Prestasi RE

14,320

Artikel Berita dalam Korpus MEN

6,061

Entiti Beranotasi

1. Pengenalan

Bahasa Inggeris Malaysia mewakili cabaran linguistik yang unik dalam NLP - bahasa kreol sumber rendah yang menggabungkan elemen daripada bahasa Melayu, Cina, dan Tamil bersama-sama Bahasa Inggeris Standard. Kajian ini menangani jurang prestasi kritikal dalam tugas Pengiktirafan Entiti Bernama (NER) dan Pengekstrakan Hubungan (RE) apabila menggunakan model bahasa pra-latihan standard pada teks Bahasa Inggeris Malaysia.

Adaptasi morfosintaksis, ciri semantik, dan corak pertukaran kod yang menjadi ciri Bahasa Inggeris Malaysia menyebabkan penurunan prestasi yang ketara dalam model terkini yang canggih. Kerja kami memperkenalkan MENmBERT dan MENBERT, model bahasa yang direka khas untuk merapatkan jurang ini melalui pendekatan pembelajaran pindahan strategik.

2. Latar Belakang dan Kerja Berkaitan

Penyesuaian model bahasa pra-latihan kepada korpus khusus domain atau khusus bahasa telah menunjukkan peningkatan ketara merentasi pelbagai tugas NLP. Kajian oleh Martin et al. (2020) dan Antoun et al. (2021) telah menunjukkan bahawa pra-latihan lanjutan pada korpus khusus meningkatkan prestasi model dalam konteks linguistik yang disasarkan.

Bahasa Inggeris Malaysia menghadapi cabaran unik kerana sifat krolnya, yang mempunyai kata pinjaman, kata majmuk, dan terbitan daripada pelbagai bahasa sumber. Fenomena pertukaran kod, di mana penutur mencampurkan bahasa Inggeris dan Melayu dalam satu ucapan, mencipta kerumitan tambahan untuk model NLP standard.

3. Metodologi

3.1 Pendekatan Pra-Latihan

MENmBERT memanfaatkan pembelajaran pindahan daripada PLM Bahasa Inggeris melalui pra-latihan berterusan pada Korpus Berita Bahasa Inggeris Malaysia (MEN). Objektif pra-latihan mengikuti pendekatan pemodelan bahasa bertopeng:

$$L_{MLM} = -\mathbb{E}_{x \sim D} \sum_{i=1}^{n} \log P(x_i | x_{\backslash i})$$

di mana $x$ mewakili jujukan input, $D$ ialah taburan Korpus MEN, dan $x_{\backslash i}$ menandakan jujukan dengan token ke-$i$ ditopeng.

3.2 Strategi Penalaan Halus

Model-model ditala halus pada Set Data MEN yang mengandungi 200 artikel berita dengan 6,061 entiti beranotasi dan 4,095 contoh hubungan. Proses penalaan halus menggunakan lapisan khusus tugas untuk NER dan RE, dengan pengoptimuman kerugian entropi silang:

$$L_{NER} = -\sum_{i=1}^{N} \sum_{j=1}^{T} y_{ij} \log(\hat{y}_{ij})$$

di mana $N$ ialah bilangan jujukan, $T$ ialah panjang jujukan, $y_{ij}$ ialah label sebenar, dan $\hat{y}_{ij}$ ialah kebarangkalian ramalan.

4. Keputusan Eksperimen

4.1 Prestasi NER

MENmBERT mencapai peningkatan keseluruhan 1.52% dalam prestasi NER berbanding bert-base-multilingual-cased. Walaupun peningkatan keseluruhan kelihatan sederhana, analisis terperinci mendedahkan peningkatan ketara merentasi label entiti tertentu, terutamanya untuk entiti khusus Malaysia dan ungkapan pertukaran kod.

Rajah 1: Perbandingan prestasi NER menunjukkan MENmBERT mengatasi model garis dasar pada jenis entiti khusus Malaysia, dengan prestasi yang sangat kuat pada entiti lokasi dan organisasi yang unik kepada konteks Malaysia.

4.2 Prestasi RE

Peningkatan paling dramatik diperhatikan dalam Pengekstrakan Hubungan, di mana MENmBERT mencapai peningkatan prestasi 26.27%. Peningkatan yang besar ini menunjukkan keupayaan model yang dipertingkatkan untuk memahami hubungan semantik dalam konteks Bahasa Inggeris Malaysia.

Pengetahuan Utama

  • Pra-latihan khusus bahasa meningkatkan prestasi dengan ketara pada dialek sumber rendah
  • Corak pertukaran kod memerlukan seni bina model khusus
  • Pembelajaran pindahan daripada bahasa sumber tinggi kepada bahasa sumber rendah menunjukkan hasil yang memberangsangkan
  • Korpus berfokus geografi meningkatkan prestasi model untuk varian bahasa serantau

5. Kerangka Analisis

Perspektif Penganalisis Industri

Pengetahuan Teras

Kajian ini secara asasnya mencabar pendekatan satu-saiz-sesuai-semua untuk NLP pelbagai bahasa. Lonjakan prestasi RE 26.27% bukan sekadar peningkatan beransur-ansur - ia adalah petanda jelas tentang bagaimana model arus perdana gagal untuk varian bahasa yang terpinggir. Bahasa Inggeris Malaysia bukan kes niche; ia adalah petanda awal untuk beratus-ratus komuniti linguistik yang kurang dilayan.

Aliran Logik

Metodologi mengikuti tiga langkah yang sangat cekap untuk memecahkan kebijaksanaan konvensional: kenal pasti jurang prestasi (model standard gagal dengan teruk), laksanakan pembelajaran pindahan disasarkan (seni bina MENmBERT), dan sahkan melalui penanda aras yang ketat. Pendekatan ini mencerminkan strategi penyesuaian domain berjaya yang dilihat dalam NLP perubatan (Lee et al., 2019) tetapi mengaplikasikannya untuk pemeliharaan kepelbagaian linguistik.

Kekuatan & Kelemahan

Kekuatan: Korpus 14,320 artikel mewakili usaha kurasi data yang serius. Pendekatan model dual (MENmBERT dan MENBERT) menunjukkan kecanggihan metodologi. Lonjakan prestasi RE tidak dapat dinafikan.

Kelemahan: Peningkatan NER 1.52% yang sederhana menimbulkan tanda tanya - sama ada metrik penilaian mempunyai kelemahan atau pendekatan mempunyai batasan asas. Kertas kerja ini mengelak perbezaan ini tanpa penjelasan yang memuaskan. Kebergantungan model pada data domain berita mengehadkan kebolehgunaan umum.

Pengetahuan Boleh Tindak

Untuk perusahaan yang beroperasi di Asia Tenggara: pertimbangan pengambilan segera. Untuk penyelidik: replikasikan pendekatan ini untuk Bahasa Inggeris Singapura, varian Bahasa Inggeris India. Untuk pemaju model: ini membuktikan bahawa "pelbagai bahasa" dalam praktik bermaksud "bahasa dominan sahaja" - masa untuk perubahan paradigma.

Contoh Kerangka Analisis

Kajian Kes: Pengiktirafan Entiti dalam Teks Pertukaran Kod

Input: "I'm going to the pasar malam in Kuala Lumpur then meeting Encik Ahmad at KLCC"

Output BERT Standard: [ORG] pasar malam, [LOC] Kuala Lumpur, [MISC] Encik Ahmad, [MISC] KLCC

Output MENmBERT: [EVENT] pasar malam, [CITY] Kuala Lumpur, [PERSON] Encik Ahmad, [LANDMARK] KLCC

Ini menunjukkan pemahaman superior MENmBERT tentang konteks budaya Malaysia dan jenis entiti.

6. Aplikasi Masa Depan

Kejayaan MENmBERT membuka beberapa hala tuju yang memberangsangkan untuk penyelidikan dan aplikasi masa depan:

  • Pindahan Lintas Bahasa: Mengaplikasikan pendekatan serupa kepada varian Inggeris lain (Bahasa Inggeris Singapura, Bahasa Inggeris India)
  • Integrasi Pelbagai Modal: Menggabungkan teks dengan data audio untuk pengesanan pertukaran kod yang lebih baik
  • Aplikasi Masa Nyata: Penempatan dalam chatbot perkhidmatan pelanggan untuk pasaran Malaysia
  • Teknologi Pendidikan: Alat pembelajaran bahasa yang disesuaikan untuk penutur Bahasa Inggeris Malaysia
  • Aplikasi Undang-Undang dan Kerajaan: Pemprosesan dokumen untuk teks undang-undang dan pentadbiran Malaysia

Pendekatan ini menunjukkan kebolehskalaan kepada varian bahasa sumber rendah lain dan bahasa kreol di seluruh dunia.

7. Rujukan

  1. Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
  2. Liu, Y., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach.
  3. Conneau, A., et al. (2020). Unsupervised Cross-lingual Representation Learning at Scale.
  4. Lan, Z., et al. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations.
  5. Martin, L., et al. (2020). CamemBERT: a Tasty French Language Model.
  6. Antoun, W., et al. (2021). AraBERT: Transformer-based Model for Arabic Language Understanding.
  7. Chanthran, M., et al. (2024). Malaysian English News Dataset for NLP Tasks.
  8. Lee, J., et al. (2019). BioBERT: a pre-trained biomedical language representation model.