भाषा चुनें

MPSA-DenseNet: उन्नत डीप लर्निंग आधारित अंग्रेजी एक्सेंट वर्गीकरण विधि

MPSA-DenseNet की गहन विवेचना - मल्टीटास्क लर्निंग और अटेंशन मैकेनिज्म को एकीकृत करने वाला एक नवीन डीप लर्निंग मॉडल, जो मूल और गैर-मूल वक्ताओं के अंग्रेजी उच्चारण वर्गीकरण में उच्च-सटीक पहचान प्राप्त करता है।
learn-en.org | PDF Size: 0.6 MB
रेटिंग: 4.5/5
आपकी रेटिंग
आपने इस दस्तावेज़ को पहले ही रेट कर दिया है
PDF दस्तावेज़ कवर - MPSA-DenseNet: उन्नत डीप लर्निंग आधारित अंग्रेजी एक्सेंट वर्गीकरण विधि

सामग्री

1 परिचय

Accent classification has become a critical challenge in the field of speech technology, especially for English which exhibits significant regional variations. This paper introduces three innovative deep learning models—Multi-DenseNet, PSA-DenseNet, and MPSA-DenseNet—which integrate multi-task learning and attention mechanisms with the DenseNet architecture to enhance English accent classification performance.

2 विधि एवं सामग्री

2.1 डेटा संग्रह और प्री-प्रोसेसिंग

इस अध्ययन में अंग्रेजी बोली के छह प्रकारों के भाषण डेटा का उपयोग किया गया: अंग्रेजी मातृभाषी क्षेत्र (यूके, यूएसए, स्कॉटलैंड) और गैर-अंग्रेजी मातृभाषी क्षेत्र (चीन, जर्मनी, भारत)। ऑडियो सिग्नल को मेल फ़्रीक्वेंसी सेप्स्ट्रल गुणांक (MFCC) में परिवर्तित करने के लिए मानक निष्कर्षण प्रक्रिया अपनाई गई: $MFCC = DCT(\log(Mel(|STFT(signal)|^2)))$, जहाँ STFT शॉर्ट-टाइम फूरियर ट्रांसफॉर्म और DCT डिस्क्रीट कोसाइन ट्रांसफॉर्म को दर्शाता है।

2.2 मॉडल आर्किटेक्चर

2.2.1 मल्टी-टास्क DenseNet

मल्टी-टास्क DenseNet एक बहु-कार्य सीखने की व्यवस्था का उपयोग करता है, जहां मॉडल एक साथ उच्चारण वर्गीकरण और सहायक कार्य (जैसे वक्ता के लिंग की पहचान या आयु वर्ग की भविष्यवाणी) सीखता है। हानि फ़ंक्शन कई लक्ष्यों को जोड़ता है: $L_{total} = \alpha L_{accent} + \beta L_{auxiliary}$, जहां $\alpha$ और $\beta$ वजन पैरामीटर हैं।

2.2.2 PSA-DenseNet

PSA-DenseNet, ध्रुवीकृत स्व-ध्यान (PSA) मॉड्यूल को DenseNet आर्किटेक्चर में एकीकृत करता है। ध्यान तंत्र की गणना इस प्रकार की जाती है: $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$, जहां Q, K, V क्रमशः क्वेरी, कुंजी और मान मैट्रिक्स का प्रतिनिधित्व करते हैं, और $d_k$ कुंजी का आयाम दर्शाता है।

2.2.3 MPSA-DenseNet

MPSA-DenseNet बहु-कार्य शिक्षण और PSA ध्यान तंत्र को संयोजित करता है, जिससे एक संकर आर्किटेक्चर का निर्माण होता है जो उत्कृष्ट उच्चारण वर्गीकरण प्रदर्शन प्राप्त करने के लिए दोनों विधियों के लाभों का पूरा उपयोग करता है।

2.3 तकनीकी कार्यान्वयन

मॉडल को PyTorch फ्रेमवर्क में लागू किया गया है, मुख्य घटक इस प्रकार हैं:

class MPSADenseNet(nn.Module):

3 Results and Analysis

प्रयोगात्मक परिणामों से पता चलता है कि MPSA-DenseNet ने 94.2% की उच्चतम वर्गीकरण सटीकता हासिल की, जो बेंचमार्क DenseNet (87.5%) और EPSA मॉडल (91.3%) से काफी बेहतर है। कन्फ्यूजन मैट्रिक्स से पता चलता है कि यह मॉडल भारतीय अंग्रेजी (96.1%) और अमेरिकी अंग्रेजी (95.4%) उच्चारण पर विशेष रूप से प्रभावी है, जबकि स्कॉटिश अंग्रेजी (92.7%) के लिए वर्गीकरण सटीकता थोड़ी कम है लेकिन फिर भी प्रभावशाली है।

प्रदर्शन तुलना

  • MPSA-DenseNet: 94.2% सटीकता
  • PSA-DenseNet: 91.3% सटीकता
  • मल्टीटास्क DenseNet: 89.8% सटीकता
  • बेसलाइन DenseNet: 87.5% सटीकता

गहन विश्लेषण

MPSA-DenseNet मॉडल ने मल्टी-टास्क लर्निंग और अटेंशन मैकेनिज्म के प्रभावी एकीकरण के माध्यम से एक्सेंट वर्गीकरण क्षेत्र में महत्वपूर्ण प्रगति का प्रतिनिधित्व किया। यह दृष्टिकोण स्पीच प्रोसेसिंग क्षेत्र में हाल के प्रदर्शन-बढ़ाने वाली पूरक तकनीकों के उपयोग के रुझान के अनुरूप है। जिस प्रकार CycleGAN (Zhu et al., 2017) ने साइक्लिक कंसिस्टेंसी और एडवरसैरियल ट्रेनिंग के संयोजन से इमेज-टू-इमेज ट्रांसफॉर्मेशन क्षेत्र में क्रांति ला दी, उसी प्रकार MPSA-DenseNet ने स्पीच डोमेन में आर्किटेक्चरल हाइब्रिडाइजेशन की शक्तिशाली क्षमता प्रदर्शित की।

मल्टी-टास्क लर्निंग घटक संबंधित कार्यों में साझा प्रतिनिधित्व सीखने के द्वारा, एनोटेट उच्चारण डेटा की सीमित उपलब्धता की मूल चुनौती का समाधान करता है। यह दृष्टिकोण अन्य क्षेत्रों में सफल साबित हुआ है, जैसे कि Google के BERT मॉडल (Devlin et al., 2018) ने सहायक कार्य के रूप में मास्क्ड लैंग्वेज मॉडलिंग का उपयोग किया। ट्रांसफॉर्मर में सेल्फ-अटेंशन सिद्धांत (Vaswani et al., 2017) से प्रेरित PSA अटेंशन मैकेनिज्म, मॉडल को भाषण सिग्नल के उन क्षेत्रों पर ध्यान केंद्रित करने में सक्षम बनाता है जो ध्वन्यात्मक रूप से महत्वपूर्ण हैं, ठीक उसी तरह जैसे मनुष्य उच्चारण परिवर्तनों को समझते हैं।

INTERSPEECH सम्मेलनों में दर्ज पारंपरिक MFCC-आधारित विधियों की तुलना में, डीप लर्निंग विधियों ने बेहतर फीचर लर्निंग क्षमता प्रदर्शित की है। MPSA-DenseNet द्वारा प्राप्त 94.2% सटीकता, उच्चारण वर्गीकरण साहित्य में आमतौर पर रिपोर्ट किए गए SVM और HMM आधारित विधियों की 82-87% सीमा को काफी पीछे छोड़ देती है। चुनौतीपूर्ण गैर-देशी उच्चारणों (जो आमतौर पर देशी बोलियों की तुलना में अधिक परिवर्तनशीलता प्रदर्शित करते हैं) को शामिल करने को देखते हुए, यह प्रदर्शन वृद्धि विशेष रूप से उल्लेखनीय है।

MPSA-DenseNet की सफलता ने भविष्य के शोध के लिए आशाजनक दिशाएं निर्धारित की हैं, जिनमें कम-संसाधन वाली भाषाओं के लिए अनुकूलन और एंड-टू-एंड स्पीच रिकग्निशन सिस्टम के साथ एकीकरण शामिल है। जैसा कि हालिया IEEE/ACM ट्रांजैक्शन ऑन ऑडियो, स्पीच, एंड लैंग्वेज प्रोसेसिंग प्रकाशन में बताया गया है, अटेंशन मैकेनिज्म और मल्टी-टास्क लर्निंग का संयोजन जटिल ऑडियो प्रोसेसिंग चुनौतियों से निपटने के लिए एक शक्तिशाली प्रतिमान का प्रतिनिधित्व करता है।

4 चर्चा एवं भविष्य की दिशाएँ

MPSA-DenseNet ढांचा स्पीच रिकग्निशन सिस्टम, भाषा सीखने के प्लेटफॉर्म और फोरेंसिक भाषाविज्ञान जैसे व्यावहारिक अनुप्रयोगों में महत्वपूर्ण क्षमता प्रदर्शित करता है। भविष्य के शोध के विषयों में शामिल हैं:

5 संदर्भ ग्रंथ सूची

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision.
  2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
  3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  4. Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition.
  5. Song, T., Nguyen, L. T. H., & Ta, T. V. (2023). MPSA-DenseNet: A novel deep learning model for English accent classification. arXiv preprint arXiv:2306.08798.