Yaliyomo
1 Utangulizi
Uainishaji wa lafudhi umekuwa changamoto muhimu katika teknolojia ya usemi, hasa kwa Kiingereza ambacho kinaonyesha tofauti kubwa za kikanda. Karatasi hii inatangaza miundo mitatu ya kuvutia ya kujifunza kina—Multi-DenseNet, PSA-DenseNet, na MPSA-DenseNet—ambayo inaunganisha kujifunza kwa kazi nyingi na utaratibu wa umakini na muundo wa DenseNet kwa kuboresha uainishaji wa lafudhi za Kiingereza.
2 Mbinu na Nyenzo
2.1 Ukusanyaji wa Data na Utayarishaji Awali
Utafiti ulitumia data ya usemi kutoka kwa lahaja sita za Kiingereza: maeneo ya wenyeji wa Kiingereza (Uingereza, Marekani, Uskoti) na maeneo yasiyo ya wenyeji wa Kiingereza (Uchina, Ujerumani, Uhindi). Mawimbi ya sauti yalibadilishwa kuwa viwango vya cepstral vya masafa ya Mel (MFCC) kwa kutumia mchakato wa kawaida wa uchimbaji: $MFCC = DCT(\log(Mel(|STFT(signal)|^2)))$ ambapo STFT ni Mabadiliko ya Muda Mfupi ya Fourier na DCT ni Mabadiliko ya Cosine Daima.
2.2 Miundo ya Mielekeo
2.2.1 Multi-DenseNet
Multi-DenseNet inajumuisha kujifunza kwa kazi nyingi ambapo mielekeo hujifunza wakati huo huo uainishaji wa lafudhi na kazi za ziada kama vile kutambua jinsia ya mzungumzaji au utabiri wa kikundi cha umri. Kazi ya hasara inaunganisha malengo mengi: $L_{total} = \alpha L_{accent} + \beta L_{auxiliary}$ ambapo $\alpha$ na $\beta$ ni vigezo vya uzani.
2.2.2 PSA-DenseNet
PSA-DenseNet inaunganisha moduli ya Umakini wa Kibinafsi Ulio na Mwelekeo (PSA) katika muundo wa DenseNet. Utaratibu wa umakini huhesabu: $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ ambapo Q, K, V ni matriki ya swali, ufunguo, na thamani mtawalia, na $d_k$ ni mwelekeo wa funguo.
2.2.3 MPSA-DenseNet
MPSA-DenseNet inaunganisha kujifunza kwa kazi nyingi na utaratibu wa umakini wa PSA, na kuunda muundo mseto unaotumia uwezo wa njia zote mbili kwa utendaji bora wa uainishaji wa lafudhi.
2.3 Utekelezaji wa Kiteknolojia
Mielekeo ilitekelezwa kwa kutumia mfumo wa PyTorch na vipengele kuu vifuatavyo:
class MPSADenseNet(nn.Module):
def __init__(self, num_classes=6, growth_rate=32):
super().__init__()
self.densenet = DenseNet121(pretrained=True)
self.psa_module = PSAModule(channels=1024)
self.classifier = nn.Linear(1024, num_classes)
def forward(self, x):
features = self.densenet.features(x)
attended = self.psa_module(features)
output = self.classifier(attended.mean([2,3]))
return output3 Matokeo na Uchambuzi
Matokeo ya majaribio yalionyesha kuwa MPSA-DenseNet ilifikia usahihi wa juu zaidi wa uainishaji wa 94.2%, ikivuka kwa kiasi kikubwa DenseNet ya msingi (87.5%) na mielekeo ya EPSA (91.3%). Matriki ya kuchanganyikiwa ilionyesha utendaji wenye nguvu hasa kwenye lafudhi za Kiingereza cha Kihindi (96.1%) na cha Kimarekani (95.4%), na matokeo kidogo chini lakini bado ya kuvutia kwa Kiingereza cha Kiskoti (92.7%).
Kulinganisha Utendaji
- MPSA-DenseNet: Usahihi wa 94.2%
- PSA-DenseNet: Usahihi wa 91.3%
- Multi-DenseNet: Usahihi wa 89.8%
- DenseNet ya Msingi: Usahihi wa 87.5%
Uchambuzi wa Asili
Mielekeo ya MPSA-DenseNet inawakilisha maendeleo makubwa katika uainishaji wa lafudhi kwa kuunganisha kwa ufanisi kujifunza kwa kazi nyingi na utaratibu wa umakini. Njia hii inafanana na mienendo ya hivi karibuni katika usindikaji wa usemi ambayo inatumia mbinu zinazokamilishana kwa kuboresha utendaji. Sawa na jinsi CycleGAN (Zhu et al., 2017) ilivyobadilisha kubadilisha picha-hadi-picha kwa kuchanganya uthabiti wa mzunguko na mafunzo ya kupingana, MPSA-DenseNet inaonyesha nguvu ya kumseto muundo katika nyanja za usemi.
Sehemu ya kujifunza kwa kazi nyingi inashughulikia changamoto ya msingi ya data iliyowekwa alama ya lafudhi iliyopunguka kwa kuwezesha mielekeo kujifunza uwakilishano ulioshirikiwa katika kazi zinazohusiana. Njia hii imethibitika kuwa na mafanikio katika nyanja zingine, kama inavyoonekana na mielekeo ya BERT ya Google (Devlin et al., 2018) ambayo inatumia uigaji wa lugha uliofichika kama kazi ya ziada. Utaratibu wa umakini wa PSA, ulioongozwa na kanuni za umakini wa kibinafsi katika Vigeuzi (Vaswani et al., 2017), unaruhusu mielekeo kulenga maeneo muhimu ya kifonetiki ya ishara ya usemi, sawa na jinsi wanadamu wanavyoona tofauti za lafudhi.
Ikilinganishwa na mbinu za kawaida za MFCC zilizoandikwa katika makongamano ya INTERSPEECH, mbinu ya kujifunza kina inaonyesha uwezo bora wa kujifunza huluki. Usahihi wa 94.2% uliopatikana na MPSA-DenseNet unazidi kwa kiasi kikubwa safu ya 82-87% ambayo kawaida huripotiwa kwa njia za SVM na HMM katika fasihi ya uainishaji wa lafudhi. Uboreshaji huu wa utendaji unaonekana hasa ukizingatia kujumuishwa kwa lafudhi zisizo za wenyeji zenye changamoto, ambazo mara nyingi huonyesha utofauti mkubwa kuliko lahaja za wenyeji.
Mafanikio ya MPSA-DenseNet yanaonyesha mwelekeo unaotumainiwa kwa utafiti wa baadaye, ikiwa ni pamoja na kukabiliana na lugha zenye rasilimali chache na kuunganishwa na mifumo ya utambuzi wa usemi mwisho-hadi-mwisho. Kama ilivyobainishwa katika machapisho ya hivi karibuni ya IEEE Transactions on Audio, Speech, and Language Processing, mchanganyiko wa utaratibu wa umakini na kujifunza kwa kazi nyingi unawakilisha dhana yenye nguvu ya kushughulikia changamoto changamano za usindikaji wa sauti.
4 Majadiliano na Mwelekeo wa Baadaye
Mfumo wa MPSA-DenseNet unaonyesha uwezo mkubwa kwa matumizi ya vitendo katika mifumo ya utambuzi wa usemi, majukwaa ya kujifunza lugha, na isimu ya kihalifu. Mwelekeo wa utafiti wa baadaye ni pamoja na:
- Upanuzi kwa lugha na lahaja zenye rasilimali chache
- Ukabilifu wa lafudhi wa wakati halisi katika mifumo ya usemi-hadi-maandishi
- Ushirikiano na miundo ya vigeuzi kwa uelewa bora wa muktadha
- Matumizi katika mifumo ya kujifunza lugha iliyobinafsishwa
- Ukuzaji wa mifumo ya utambuzi wa kiotomatiki wa usemi (ASR) yenye uthabiti wa lafudhi
5 Marejeo
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition.
- Song, T., Nguyen, L. T. H., & Ta, T. V. (2023). MPSA-DenseNet: A novel deep learning model for English accent classification. arXiv preprint arXiv:2306.08798.