انتخاب زبان

MPSA-DenseNet: روش طبقه‌بندی لهجه انگلیسی مبتنی بر یادگیری عمیق پیشرفته

تحلیل عمیق MPSA-DenseNet - یک مدل یادگیری عمیق نوآورانه که یادگیری چندوظیفه‌ای و مکانیسم توجه را ادغام می‌کند و در طبقه‌بندی لهجه انگلیسی کاربران بومی و غیربومی به تشخیص با دقت بالا دست می‌یابد.
learn-en.org | PDF Size: 0.6 MB
امتیاز: 4.5
امتیاز شما
شما قبلاً به این سند امتیاز داده‌اید
PDF Document Cover - MPSA-DenseNet: رویکرد طبقه‌بندی لهجه انگلیسی مبتنی بر یادگیری عمیق پیشرفته

فهرست مطالب

1 مقدمه

طبقه‌بندی لهجه به یک چالش کلیدی در حوزه فناوری گفتار تبدیل شده است، به‌ویژه برای زبان انگلیسی که دارای تفاوت‌های منطقه‌ای قابل توجهی است. این مقاله سه مدل نوآورانه یادگیری عمیق را معرفی می‌کند: Multi-DenseNet، PSA-DenseNet و MPSA-DenseNet که یادگیری چندوظیفه‌ای و مکانیزم‌های توجه را با معماری DenseNet تلفیق کرده تا عملکرد طبقه‌بندی لهجه انگلیسی را ارتقا دهد.

2 روش‌ها و مواد

2.1 جمع‌آوری و پیش‌پردازش داده‌ها

این مطالعه از داده‌های صوتی شش گویش انگلیسی استفاده کرد: مناطق انگلیسی‌زبان (بریتانیا، ایالات متحده، اسکاتلند) و مناطق غیرانگلیسی‌زبان (چین، آلمان، هند). سیگنال‌های صوتی از طریق یک فرآیند استخراج استاندارد به ضرایب کپسترال فرکانس مِل (MFCC) تبدیل شدند: $MFCC = DCT(\log(Mel(|STFT(signal)|^2)))$ که در آن STFT نشان‌دهنده تبدیل فوریه کوتاه‌مدت و DCT نشان‌دهنده تبدیل کسینوسی گسسته است.

2.2 معماری مدل

2.2.1 DenseNet چندوظیفه‌ای

Multi-Task DenseNet از یک مکانیسم یادگیری چندوظیفه‌ای استفاده می‌کند که در آن مدل به طور همزمان طبقه‌بندی لهجه و وظایف کمکی (مانند شناسایی جنسیت گوینده یا پیش‌بینی گروه سنی) را فرا می‌گیرد. تابع زیان چندین هدف را ترکیب می‌کند: $L_{total} = \alpha L_{accent} + \beta L_{auxiliary}$ که در آن $\alpha$ و $\beta$ پارامترهای وزن هستند.

2.2.2 PSA-DenseNet

PSA-DenseNet ماژول توجه خود قطبی شده (PSA) را در معماری DenseNet ادغام می‌کند. مکانیسم توجه به صورت زیر محاسبه می‌شود: $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ که در آن Q، K و V به ترتیب نشان‌دهنده ماتریس‌های پرس‌وجو، کلید و مقدار هستند و $d_k$ بعد کلید را نشان می‌دهد.

2.2.3 MPSA-DenseNet

MPSA-DenseNet با تلفیق یادگیری چندوظیفه‌ای و مکانیسم توجه PSA، یک معماری ترکیبی ایجاد می‌کند که به طور کامل از مزایای هر دو روش برای دستیابی به عملکرد برتر در طبقه‌بندی لهجه بهره می‌برد.

2.3 پیاده‌سازی فنی

مدل با استفاده از چارچوب PyTorch پیاده‌سازی شده و اجزای اصلی آن به شرح زیر است:

class MPSADenseNet(nn.Module):

3 نتایج و تحلیل

نتایج آزمایش نشان می‌دهد که MPSA-DenseNet با دستیابی به بالاترین دقت طبقه‌بندی 94.2٪، به طور قابل توجهی از DenseNet پایه (87.5٪) و مدل EPSA (91.3٪) بهتر عمل کرده است. ماتریس درهم‌ریختگی نشان می‌دهد که این مدل به ویژه در لهجه‌های انگلیسی هندی (96.1٪) و انگلیسی آمریکایی (95.4٪) عملکرد برجسته‌ای داشته و دقت طبقه‌بندی آن برای انگلیسی اسکاتلندی (92.7٪) کمی پایین‌تر اما همچنان چشمگیر است.

مقایسه عملکرد

  • MPSA-DenseNet: 94.2% دقت
  • PSA-DenseNet: 91.3% دقت
  • DenseNet چندوظیفهای: 89.8% دقت
  • DenseNet پایه: 87.5% دقت

تحلیل عمیق

مدل MPSA-DenseNet با ترکیب مؤثر یادگیری چندوظیفهای و مکانیزم توجه، نشاندهنده پیشرفت قابلتوجهی در حوزه طبقهبندی لهجه است. این رویکرد با روند اخیر در حوزه پردازش گفتار که از فناوریهای مکمل برای بهبود عملکرد استفاده میکند، همخوانی دارد. همانطور که CycleGAN (Zhu و همکاران، 2017) با تلفیق سازگاری چرخهای و آموزش تقابلی، حوزه تبدیل تصویر به تصویر را متحول کرد، MPSA-DenseNet نیز قدرت ترکیب معماری را در حوزه گفتار به نمایش میگذارد.

مولفه یادگیری چندوظیفهای با قادر ساختن مدل به یادگیری بازنماییهای مشترک در میان وظایف مرتبط، چالش اساسی محدودیت دادههای برچسبخورده لهجه را حل میکند. این رویکرد در حوزههای دیگر موفقیتآمیز اثبات شده است، مانند مدل BERT گوگل (Devlin و همکاران، 2018) که از مدلسازی زبان پوشیده به عنوان وظیفه کمکی استفاده میکند. مکانیسم توجه PSA که از اصل خودتوجهی در Transformer (Vaswani و همکاران، 2017) الهام گرفته، به مدل امکان میدهد بر مناطق دارای اهمیت واجشناسی در سیگنال گفتار متمرکز شود، مشابه روش درک تغییرات لهجه توسط انسان.

در مقایسه با روشهای سنتی مبتنی بر MFCC که در کنفرانس INTERSPEECH ثبت شدهاند، روشهای یادگیری عمیق توانایی یادگیری ویژگی برتر را نشان میدهند. دقت 94.2% بهدستآمده توسط MPSA-DenseNet بهطور قابلتوجهی از محدوده 82-87% روشهای مبتنی بر SVM و HMM که معمولاً در ادبیات طبقهبندی لهجه گزارش میشود، فراتر میرود. این بهبود عملکرد بهویژه با درنظرگرفتن لهجههای چالشبرانگیز غیربومی (که معمولاً تنوع بیشتری نسبت به گویشهای بومی نشان میدهند) قابلتوجه است.

موفقیت MPSA-DenseNet جهات امیدوارکنندهای برای تحقیقات آینده شامل تطبیق با زبانهای کممنبع و یکپارچهسازی با سیستمهای تشخیص گفتار انتها به انتها مشخص میکند. همانطور که در انتشار اخیر مجله IEEE/ACM درباره پردازش صوت، گفتار و زبان اشاره شده، ترکیب مکانیسم توجه با یادگیری چندوظیفهای نمایانگر پارادایم قدرتمندی برای حل چالشهای پیچیده پردازش صوت است.

4 بحث و جهت‌گیری‌های آتی

چارچوب MPSA-DenseNet پتانسیل قابل توجهی در کاربردهای عملی مانند سیستم‌های تشخیص گفتار، پلتفرم‌های یادگیری زبان و زبان‌شناسی قانونی نشان می‌دهد. جهت‌گیری‌های آینده تحقیق شامل موارد زیر است:

5 مراجع

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision.
  2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
  3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  4. Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition.
  5. Song, T., Nguyen, L. T. H., & Ta, T. V. (2023). MPSA-DenseNet: A novel deep learning model for English accent classification. arXiv preprint arXiv:2306.08798.