Índice
1 Introdução
A classificação de sotaques tornou-se um desafio crucial no campo da tecnologia de voz, especialmente para o inglês que apresenta variações regionais significativas. Este artigo apresenta três modelos inovadores de aprendizagem profunda — Multi-DenseNet, PSA-DenseNet e MPSA-DenseNet — que integram aprendizagem multitarefa e mecanismos de atenção à arquitetura DenseNet para melhorar o desempenho na classificação de sotaques do inglês.
2 Métodos e Materiais
2.1 Coleta e Pré-processamento de Dados
Este estudo utilizou dados de fala de seis variedades do inglês: regiões nativas (Reino Unido, Estados Unidos, Escócia) e não nativas (China, Alemanha, Índia). Os sinais de áudio foram convertidos em coeficientes cepstrais de frequência Mel (MFCC) através de um pipeline de extração padrão: $MFCC = DCT(\log(Mel(|STFT(signal)|^2)))$, onde STFT denota a Transformada de Fourier de Curto Prazo e DCT representa a Transformada Discreta do Cosseno.
2.2 Arquitetura do Modelo
2.2.1 DenseNet Multitarefa
O DenseNet multitarefa emprega um mecanismo de aprendizagem multitarefa, no qual o modelo aprende simultaneamente a classificação de sotaque e tarefas auxiliares (como identificação do gênero do locutor ou previsão de faixa etária). A função de perda combina múltiplos objetivos: $L_{total} = \alpha L_{accent} + \beta L_{auxiliary}$, onde $\alpha$ e $\beta$ são parâmetros de ponderação.
2.2.2 PSA-DenseNet
O PSA-DenseNet integra o módulo de autoatenção polarizada (PSA) na arquitetura DenseNet. O mecanismo de atenção é calculado da seguinte forma: $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$, onde Q, K, V representam as matrizes de consulta, chave e valor, respectivamente, e $d_k$ denota a dimensionalidade da chave.
2.2.3 MPSA-DenseNet
O MPSA-DenseNet combina aprendizado multitarefa com o mecanismo de atenção PSA, criando uma arquitetura híbrida que aproveita ao máximo as vantagens de ambas as abordagens para alcançar um desempenho excepcional na classificação de sotaques.
2.3 Implementação Técnica
O modelo foi implementado utilizando o framework PyTorch, com os seguintes componentes principais:
class MPSADenseNet(nn.Module):3 Resultados e Análise
Os resultados experimentais demonstram que o MPSA-DenseNet atingiu uma precisão máxima de classificação de 94,2%, superando significativamente o DenseNet de referência (87,5%) e o modelo EPSA (91,3%). A matriz de confusão revela que o modelo apresentou desempenho particularmente notável nos sotaques de Inglês Indiano (96,1%) e Inglês Americano (95,4%), com precisão ligeiramente inferior, porém ainda impressionante, no Inglês Escocês (92,7%).
Comparação de desempenho
- MPSA-DenseNet: 94,2% de precisão
- PSA-DenseNet: 91.3% de precisão
- DenseNet multitarefa: 89.8% de precisão
- DenseNet de referência: 87.5% de precisão
Análise Aprofundada
O modelo MPSA-DenseNet representa um avanço significativo na área de classificação de sotaques ao combinar efetivamente aprendizado multitarefa com mecanismos de atenção. Esta abordagem está alinhada com a tendência recente no campo do processamento de voz de utilizar técnicas complementares para melhorar o desempenho. Assim como o CycleGAN (Zhu et al., 2017) revolucionou a tradução de imagem para imagem ao combinar consistência cíclica com treinamento adversarial, o MPSA-DenseNet demonstra o poder da hibridização arquitetônica no domínio da voz.
O componente de aprendizagem multitarefa aborda o desafio fundamental da escassez de dados anotados de sotaque, permitindo que o modelo aprenda representações compartilhadas entre tarefas relacionadas. Esta abordagem já se mostrou bem-sucedida em outras áreas, como no modelo BERT do Google (Devlin et al., 2018), que utiliza a modelagem de linguagem mascarada como tarefa auxiliar. O mecanismo de atenção PSA, inspirado no princípio de autoatenção do Transformer (Vaswani et al., 2017), permite que o modelo se concentre em regiões fonologicamente significativas do sinal de voz, de modo análogo à percepção humana das variações de sotaque.
Em comparação com os métodos tradicionais baseados em MFCC documentados nas conferências INTERSPEECH, as abordagens de aprendizagem profunda demonstram capacidades superiores de aprendizagem de características. A precisão de 94.2% alcançada pelo MPSA-DenseNet supera significativamente a faixa de 82-87% tipicamente relatada na literatura de classificação de sotaques para métodos baseados em SVM e HMM. Este avanço é particularmente notável considerando a inclusão de sotaques desafiadores de não nativos (que geralmente exibem maior variabilidade do que os dialetos nativos).
O sucesso do MPSA-DenseNet aponta direções promissoras para pesquisas futuras, incluindo adaptação para idiomas de baixos recursos e integração com sistemas de reconhecimento de fala end-to-end. Conforme destacado em recente publicação do IEEE Transactions on Audio, Speech, and Language Processing, a combinação de mecanismos de atenção com aprendizagem multitarefa representa um paradigma robusto para enfrentar desafios complexos no processamento de áudio.
4 Discussão e Direções Futuras
A estrutura MPSA-DenseNet demonstra grande potencial em aplicações práticas como sistemas de reconhecimento de fala, plataformas de aprendizagem de idiomas e linguística forense. As futuras direções de pesquisa incluem:
- Expansão para línguas e dialetos de baixos recursos
- Adaptação em tempo real de sotaques em sistemas de conversão de fala em texto
- Integração com a arquitetura Transformer para melhorar a capacidade de compreensão contextual
- Aplicação em sistemas personalizados de aprendizagem de línguas
- Desenvolvimento de sistemas de reconhecimento automático de fala (ASR) resistentes a interferências de sotaque
5 Referências
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition.
- Song, T., Nguyen, L. T. H., & Ta, T. V. (2023). MPSA-DenseNet: A novel deep learning model for English accent classification. arXiv preprint arXiv:2306.08798.