فهرست مطالب
1 مقدمه
طبقهبندی لهجه به یک چالش کلیدی در حوزه فناوری گفتار تبدیل شده است، بهویژه برای زبان انگلیسی که دارای تفاوتهای منطقهای قابل توجهی است. این مقاله سه مدل نوآورانه یادگیری عمیق را معرفی میکند: Multi-DenseNet، PSA-DenseNet و MPSA-DenseNet که یادگیری چندوظیفهای و مکانیزمهای توجه را با معماری DenseNet تلفیق کرده تا عملکرد طبقهبندی لهجه انگلیسی را ارتقا دهد.
2 روشها و مواد
2.1 جمعآوری و پیشپردازش دادهها
این مطالعه از دادههای صوتی شش گویش انگلیسی استفاده کرد: مناطق انگلیسیزبان (بریتانیا، ایالات متحده، اسکاتلند) و مناطق غیرانگلیسیزبان (چین، آلمان، هند). سیگنالهای صوتی از طریق یک فرآیند استخراج استاندارد به ضرایب کپسترال فرکانس مِل (MFCC) تبدیل شدند: $MFCC = DCT(\log(Mel(|STFT(signal)|^2)))$ که در آن STFT نشاندهنده تبدیل فوریه کوتاهمدت و DCT نشاندهنده تبدیل کسینوسی گسسته است.
2.2 معماری مدل
2.2.1 DenseNet چندوظیفهای
Multi-Task DenseNet از یک مکانیسم یادگیری چندوظیفهای استفاده میکند که در آن مدل به طور همزمان طبقهبندی لهجه و وظایف کمکی (مانند شناسایی جنسیت گوینده یا پیشبینی گروه سنی) را فرا میگیرد. تابع زیان چندین هدف را ترکیب میکند: $L_{total} = \alpha L_{accent} + \beta L_{auxiliary}$ که در آن $\alpha$ و $\beta$ پارامترهای وزن هستند.
2.2.2 PSA-DenseNet
PSA-DenseNet ماژول توجه خود قطبی شده (PSA) را در معماری DenseNet ادغام میکند. مکانیسم توجه به صورت زیر محاسبه میشود: $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ که در آن Q، K و V به ترتیب نشاندهنده ماتریسهای پرسوجو، کلید و مقدار هستند و $d_k$ بعد کلید را نشان میدهد.
2.2.3 MPSA-DenseNet
MPSA-DenseNet با تلفیق یادگیری چندوظیفهای و مکانیسم توجه PSA، یک معماری ترکیبی ایجاد میکند که به طور کامل از مزایای هر دو روش برای دستیابی به عملکرد برتر در طبقهبندی لهجه بهره میبرد.
2.3 پیادهسازی فنی
مدل با استفاده از چارچوب PyTorch پیادهسازی شده و اجزای اصلی آن به شرح زیر است:
class MPSADenseNet(nn.Module):3 نتایج و تحلیل
نتایج آزمایش نشان میدهد که MPSA-DenseNet با دستیابی به بالاترین دقت طبقهبندی 94.2٪، به طور قابل توجهی از DenseNet پایه (87.5٪) و مدل EPSA (91.3٪) بهتر عمل کرده است. ماتریس درهمریختگی نشان میدهد که این مدل به ویژه در لهجههای انگلیسی هندی (96.1٪) و انگلیسی آمریکایی (95.4٪) عملکرد برجستهای داشته و دقت طبقهبندی آن برای انگلیسی اسکاتلندی (92.7٪) کمی پایینتر اما همچنان چشمگیر است.
مقایسه عملکرد
- MPSA-DenseNet: 94.2% دقت
- PSA-DenseNet: 91.3% دقت
- DenseNet چندوظیفهای: 89.8% دقت
- DenseNet پایه: 87.5% دقت
تحلیل عمیق
مدل MPSA-DenseNet با ترکیب مؤثر یادگیری چندوظیفهای و مکانیزم توجه، نشاندهنده پیشرفت قابلتوجهی در حوزه طبقهبندی لهجه است. این رویکرد با روند اخیر در حوزه پردازش گفتار که از فناوریهای مکمل برای بهبود عملکرد استفاده میکند، همخوانی دارد. همانطور که CycleGAN (Zhu و همکاران، 2017) با تلفیق سازگاری چرخهای و آموزش تقابلی، حوزه تبدیل تصویر به تصویر را متحول کرد، MPSA-DenseNet نیز قدرت ترکیب معماری را در حوزه گفتار به نمایش میگذارد.
مولفه یادگیری چندوظیفهای با قادر ساختن مدل به یادگیری بازنماییهای مشترک در میان وظایف مرتبط، چالش اساسی محدودیت دادههای برچسبخورده لهجه را حل میکند. این رویکرد در حوزههای دیگر موفقیتآمیز اثبات شده است، مانند مدل BERT گوگل (Devlin و همکاران، 2018) که از مدلسازی زبان پوشیده به عنوان وظیفه کمکی استفاده میکند. مکانیسم توجه PSA که از اصل خودتوجهی در Transformer (Vaswani و همکاران، 2017) الهام گرفته، به مدل امکان میدهد بر مناطق دارای اهمیت واجشناسی در سیگنال گفتار متمرکز شود، مشابه روش درک تغییرات لهجه توسط انسان.
در مقایسه با روشهای سنتی مبتنی بر MFCC که در کنفرانس INTERSPEECH ثبت شدهاند، روشهای یادگیری عمیق توانایی یادگیری ویژگی برتر را نشان میدهند. دقت 94.2% بهدستآمده توسط MPSA-DenseNet بهطور قابلتوجهی از محدوده 82-87% روشهای مبتنی بر SVM و HMM که معمولاً در ادبیات طبقهبندی لهجه گزارش میشود، فراتر میرود. این بهبود عملکرد بهویژه با درنظرگرفتن لهجههای چالشبرانگیز غیربومی (که معمولاً تنوع بیشتری نسبت به گویشهای بومی نشان میدهند) قابلتوجه است.
موفقیت MPSA-DenseNet جهات امیدوارکنندهای برای تحقیقات آینده شامل تطبیق با زبانهای کممنبع و یکپارچهسازی با سیستمهای تشخیص گفتار انتها به انتها مشخص میکند. همانطور که در انتشار اخیر مجله IEEE/ACM درباره پردازش صوت، گفتار و زبان اشاره شده، ترکیب مکانیسم توجه با یادگیری چندوظیفهای نمایانگر پارادایم قدرتمندی برای حل چالشهای پیچیده پردازش صوت است.
4 بحث و جهتگیریهای آتی
چارچوب MPSA-DenseNet پتانسیل قابل توجهی در کاربردهای عملی مانند سیستمهای تشخیص گفتار، پلتفرمهای یادگیری زبان و زبانشناسی قانونی نشان میدهد. جهتگیریهای آینده تحقیق شامل موارد زیر است:
- گسترش به زبانها و گویشهای کممنبع
- انطباق لحظهای لهجه در سیستمهای تبدیل گفتار به متن
- یکپارچهسازی با معماری Transformer برای ارتقای قابلیت درک زمینه
- کاربرد در سیستمهای یادگیری زبان شخصیسازیشده
- توسعه سیستم تشخیص خودکار گفتار (ASR) مقاوم در برابر اختلالات لهجه
5 مراجع
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition.
- Song, T., Nguyen, L. T. H., & Ta, T. V. (2023). MPSA-DenseNet: A novel deep learning model for English accent classification. arXiv preprint arXiv:2306.08798.