透過語言習得將多模態預訓練泛化至多語言領域

1. 引言

在當今多模態與多語言的世界中，有效理解不同模態與語言間的資訊至關重要。雖然基於英文的視覺-語言預訓練模型已取得顯著成功，但將這些能力擴展至非英語語言仍面臨巨大挑戰。傳統的多語言視覺-語言預訓練方法需要龐大的計算資源，且在擴展至新語言時缺乏靈活性。

本文介紹了受人類語言學習過程啟發的多語言習得框架。與傳統在單一模型中同時處理多種語言的M-VLP模型不同，MLA透過輕量級的語言習得編碼器，高效地將現有的單語VLP模型泛化至多語言能力。

資源效率

相較於傳統的M-VLP方法，MLA所需的多語言訓練數據顯著減少

計算節省

在保持頂尖效能的同時，降低了計算需求

語言靈活性

能夠靈活擴展至新語言，且不降低原始語言的效能

2. 方法論

2.1. 多語言習得框架

MLA框架包含三個主要元件：一個預訓練的單語VLP模型、一個輕量級的語言習得編碼器，以及一個兩階段的訓練策略。該框架利用現有的單語VLP模型作為骨幹，並為多語言適應添加極少的參數。

2.2. 語言習得編碼器

語言習得編碼器是透過將輕量級的語言習得器插入預訓練的單語編碼器中來實現。這些習得器被設計為參數高效，同時能有效捕捉跨語言的語義映射。在訓練期間，編碼器保持單語VLP模型的原始參數固定。

2.3. 兩階段訓練策略

訓練過程遵循兩個不同的階段：

母語遷移階段： 模型透過跨語言監督，學習將新語言與母語對齊。
語言沉浸階段： 模型直接與目標語言的多模態數據互動，類似於人類的語言沉浸式學習。

訓練目標結合了跨模態對比損失和跨語言對齊損失：$\mathcal{L} = \lambda_1 \mathcal{L}_{cm} + \lambda_2 \mathcal{L}_{cl}$，其中 $\mathcal{L}_{cm}$ 是視覺與文本表徵之間的對比損失，而 $\mathcal{L}_{cl}$ 是跨語言對齊損失。

3. 實驗與結果

3.1. 實驗設定

實驗在多個多語言圖像-文本和影片-文本檢索基準上進行，包括Multi30K、MSCOCO多語言擴展以及HowTo100M多語言子集。模型與最先進的M-VLP基準模型進行比較，包括MURAL、UC2和M3P。

3.2. 多語言檢索效能

MLA僅使用20-30%的多語言訓練數據，就能達到與傳統M-VLP模型相當或更優的效能。主要結果包括：

圖像-文本檢索：在非英語語言上，相較於基準模型有5-8%的效能提升。
影片-文本檢索：在多種語言上均獲得一致的效能增益。
零樣本遷移：在未見過的語言配對上表現強勁。

3.3. 消融研究

消融研究證實了兩個訓練階段以及輕量級編碼器設計的重要性。移除任一階段都會導致效能顯著下降，特別是對於資源稀少的語言。

4. 技術分析與洞見

核心洞見

MLA框架代表了多語言多模態學習的典範轉移。它摒棄了那種在所有語言上同時訓練龐大模型的蠻力方法——類似於早期深度學習主導的「越大越好」哲學——而是採用了更為精準、高效的策略。它認識到，AI中的語言習得，與人類類似，受益於利用現有的知識結構。這種方法呼應了電腦視覺中遷移學習研究的發現，例如ResNet等模型證明了重用已學習的特徵比從頭學習更有效率。該框架的生物學靈感——模仿人類語言學習——不僅具有詩意，而且在實踐中非常有效，能在保持競爭力效能的同時，將計算需求降低數個數量級。

邏輯脈絡

本文的論證遵循一個引人入勝的邏輯進程：識別當前M-VLP的局限性、從認知科學中汲取靈感、提出新穎的架構、實施受生物學啟發的訓練策略，並透過嚴謹的實驗進行驗證。這種脈絡反映了成功的AI研究模式，例如原始的Transformer論文，該論文也識別了局限性，提出了新穎的解決方案，並以優越的結果進行了驗證。與人類學習機制的聯繫加強了本文的理論基礎。

優勢與不足

優勢： 該框架的計算效率是其殺手級特性。在AI環境影響受到審視的時代，能夠在保持效能的同時將訓練成本降低70-80%的方法值得關注。能夠添加新語言而不發生災難性遺忘，解決了當前M-VLP模型的一個關鍵限制。兩階段訓練策略顯示了對語言學習動態的深刻理解。

不足： 本文對該框架在語言學上距離較遠的語言方面的局限性探討不足。雖然它在歐洲語言和一些亞洲語言上顯示了成功，但在資源稀少或類型學上多樣化的語言上的效能仍不確定。評估主要集中在檢索任務上；更廣泛的多模態理解能力需要更多調查。與許多高效方法一樣，對於某些語言配對，相較於完全重新訓練的方法，可能存在效能上限。

可行洞見

對於實務工作者：此框架為以有限資源將現有英文VLP模型擴展至新市場提供了藍圖。擁有已部署英文多模態系統的公司可以使用MLA進行國際擴展，而無需完全重新訓練。對於研究人員：受人類學習啟發的方法建議探索其他認知原理以提高AI效率。輕量級適配器範式可以擴展到其他多模態領域。兩階段訓練策略值得在其他遷移學習情境中進行研究。最重要的是，這項工作證明多語言AI並不需要龐大、單一的模型——高效、模組化的方法可以用少得多的資源達到類似的結果，這對於跨語言普及AI至關重要。

5. 未來應用與方向

MLA框架為未來的研究和應用開闢了幾個有前景的方向：

即時語言適應： 動態地向已部署系統添加新語言，無需服務中斷。
低資源語言支援： 擴展至平行多模態數據有限的語言。
跨模態內容創作： 從文本描述生成多語言圖像和影片。
教育應用： 利用多模態情境的語言學習工具。
企業解決方案： 具成本效益的多語言內容審核與搜尋系統。

未來研究應探討語言習得編碼器的縮放定律、與更大基礎模型的整合，以及在多模態對話系統中的應用。

6. 參考文獻

Zhang, L., Hu, A., & Jin, Q. (2022). Generalizing Multimodal Pre-training into Multilingual via Language Acquisition. arXiv preprint arXiv:2206.11091.
Jain, A., et al. (2021). MURAL: Multimodal, Multitask Retrieval Across Languages. arXiv preprint arXiv:2109.05125.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML.
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
He, K., et al. (2016). Deep Residual Learning for Image Recognition. CVPR.
Strubell, E., et al. (2019). Energy and Policy Considerations for Deep Learning in NLP. ACL.
Castello, M. (2015). Second Language Acquisition: From Theory to Practice. Cambridge University Press.
Ni, M., et al. (2021). M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training. CVPR.

目錄