MPSA-DenseNet：採用先進深度學習技術嘅英語口音分類方法

1 引言

口音分類已成為語音技術領域嘅關鍵挑戰，尤其對於存在顯著地域差異嘅英語。本文介紹三種創新嘅深度學習模型——Multi-DenseNet、PSA-DenseNet同MPSA-DenseNet，呢啲模型將多任務學習同注意力機制同DenseNet架構結合，以提升英語口音分類性能。

2 方法與材料

2.1 數據採集與預處理

本研究使用了六種英語方言的語音數據：英語母語地區（英國、美國、蘇格蘭）和非英語母語地區（中國、德國、印度）。通過標準提取流程將音頻信號轉換為梅爾頻率倒譜係數（MFCC）：$MFCC = DCT(\log(Mel(|STFT(signal)|^2)))$，其中STFT表示短時傅里葉變換，DCT表示離散餘弦變換。

2.2 模型架構

2.2.1 多任务DenseNet

多任务DenseNet采用多任务学习机制，模型同时学习口音分类和辅助任务（如说话者性别识别或年龄组预测）。损失函数结合了多个目标：$L_{total} = \alpha L_{accent} + \beta L_{auxiliary}$，其中$\alpha$和$\beta$为权重参数。

2.2.2 PSA-DenseNet

PSA-DenseNet将极化自注意力（PSA）模块集成到DenseNet架构中。注意力机制计算如下：$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$，其中Q、K、V分别表示查询、键和值矩阵，$d_k$表示键的维度。

2.2.3 MPSA-DenseNet

MPSA-DenseNet結合了多任務學習和PSA注意力機制，創建了一種混合架構，充分利用兩種方法的優勢以實現卓越的口音分類性能。

2.3 技術實現

模型採用PyTorch框架實現，主要組件如下：

class MPSADenseNet(nn.Module):

3 結果與分析

實驗結果表明，MPSA-DenseNet實現了94.2%的最高分類準確率，顯著優於基準DenseNet（87.5%）和EPSA模型（91.3%）。混淆矩陣顯示，該模型在印度英語（96.1%）和美國英語（95.4%）口音上表現尤為突出，對蘇格蘭英語（92.7%）的分類準確率稍低但仍令人印象深刻。

性能對比

MPSA-DenseNet：94.2% 準確率
PSA-DenseNet：91.3% 準確率
多任務DenseNet：89.8% 準確率
基準DenseNet：87.5% 準確率

深度分析

MPSA-DenseNet模型透過有效結合多任務學習與注意力機制，代表了口音分類領域嘅重大進展。這種方法與語音處理領域近期利用互補技術提升性能嘅趨勢相契合。正如CycleGAN（Zhu等，2017）透過將循環一致性與對抗訓練相結合徹底改變了圖像到圖像嘅轉換領域，MPSA-DenseNet在語音領域展示了架構混合嘅強大威力。

多任務學習組件透過讓模型能夠學習跨相關任務的共享表示，解決了標註口音數據有限的基本挑戰。這種方法在其他領域已被證明是成功的，例如谷歌的BERT模型（Devlin等，2018）使用掩碼語言建模作為輔助任務。受Transformer中自注意力原理（Vaswani等，2017）啟發的PSA注意力機制，使模型能夠聚焦於語音信號中語音學意義顯著的區域，類似於人類感知口音變化的方式。

與INTERSPEECH會議中記載的傳統基於MFCC的方法相比，深度學習方法展示了更優異的特徵學習能力。MPSA-DenseNet實現的94.2%準確率顯著超過了口音分類文獻中通常報道的基於SVM和HMM方法的82-87%範圍。考慮到包含了具挑戰性的非母語口音（通常比母語方言表現出更大的變異性），這一性能提升尤為顯著。

MPSA-DenseNet的成功為未來研究指明了有前景的方向，包括適應低資源語言以及與端到端語音識別系統的集成。正如近期IEEE《音頻、語音與語言處理匯刊》出版物所指出的，注意力機制與多任務學習的結合代表了一種解決複雜音頻處理挑戰的強大範式。

4 討論與未來方向

MPSA-DenseNet框架喺語音識別系統、語言學習平台同司法語言學等實際應用中展現出巨大潛力。未來研究方向包括：

擴展至低資源語言同方言
語音轉文字系統中嘅實時口音適應
與Transformer架構集成以提升上下文理解能力
在個人化語言學習系統中的應用
開發抗口音干擾的自動語音識別（ASR）系統

5 參考文獻

Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition.
Song, T., Nguyen, L. T. H., & Ta, T. V. (2023). MPSA-DenseNet: A novel deep learning model for English accent classification. arXiv preprint arXiv:2306.08798.

目錄