選擇語言

透過語言習得將多模態預訓練泛化至多語言領域

一個受人類語言學習啟發的新穎框架,能以極少的數據和計算資源,將單語言視覺-語言模型擴展至多語言任務。
learn-en.org | PDF Size: 0.7 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 透過語言習得將多模態預訓練泛化至多語言領域

目錄

1. 簡介

我們生活在一個多模態、多語言的世界。資訊透過不同的模態(文字、圖像、影片)和語言傳遞。雖然以英文為基礎的視覺-語言預訓練模型已取得顯著成功,但要將此能力擴展到全球超過6,900種語言,仍是一項巨大的挑戰。傳統的多語言視覺-語言預訓練方法,即在大量多語言多模態資料上訓練單一模型,存在兩個關鍵缺陷:高昂的計算成本,以及新增語言時缺乏彈性。本文介紹了多語言習得框架,這是一個受人類語言學習啟發的新穎範式,能高效地將預訓練好的單語言視覺-語言模型泛化,使其能以極少的額外資料和計算量處理多種語言。

2. 方法論

2.1. 多語言習得框架

MLA的核心創新在於其脫離了單一龐大的M-VLP訓練範式。MLA並非從頭開始為所有語言建立單一模型,而是將一個強大的、預訓練好的單語言(例如英文)視覺-語言模型視為「母語」系統。接著,它將一個輕量級、可學習的語言習得編碼器附加到這個被凍結的骨幹模型上。此編碼器的唯一目的是將新語言的表徵映射到母語模型已掌握的語意空間中。此架構類似於為一個既有的專家系統添加一個通用翻譯模組。

2.2. 語言習得編碼器

語言習得編碼器是一個參數效率高的模組,被插入到單語言視覺-語言模型的預訓練文字編碼器中。它通常由小型適配器層或淺層轉換器網路組成。其設計確保了模型絕大多數的參數(被凍結的視覺-語言骨幹模型)保持不變,從而顯著節省訓練成本和記憶體。編碼器學習一個映射函數 $f_{\theta}: \mathcal{Z}_{lang} \rightarrow \mathcal{Z}_{en}$,其中 $\mathcal{Z}_{lang}$ 是目標語言的表徵空間,而 $\mathcal{Z}_{en}$ 是被凍結的視覺-語言模型中與英文對齊的語意空間。

2.3. 兩階段訓練策略

MLA採用一種受生物學啟發的兩階段訓練策略來最佳化語言習得編碼器:

  1. 母語遷移階段:首先使用平行句對訓練編碼器,將目標語言文字與英文文字對齊。這模仿了人類傾向於將新詞彙映射到母語已知概念的習慣。目標是使用對比損失,將目標語言表徵拉近其英文翻譯:$\mathcal{L}_{NLT} = -\log\frac{\exp(\text{sim}(z_{t}, z_{e})/\tau)}{\sum_{j}\exp(\text{sim}(z_{t}, z_{e_j})/\tau)}$。
  2. 語言沉浸階段:隨後,編碼器直接在目標語言的圖像-文字或影片-文字配對上進行微調。此階段模擬「語言沉浸」,讓模型能將新語言直接與視覺概念建立連結,而無需以英文作為中介,從而精煉跨模態對齊。

3. 實驗與結果

3.1. 資料集與基準測試

模型在標準的多語言檢索基準上進行評估:

  • 多語言圖像-文字檢索: MSCOCO 及其中文、日文、韓文等翻譯版本。
  • 多語言影片-文字檢索: VATEX 和 HowTo100M。
比較基準包括最先進的M-VLP模型,如MURAL和UC2。

3.2. 效能分析

MLA在這些基準測試中達到了最先進或極具競爭力的效能,同時僅使用了完整M-VLP模型所需的多語言訓練資料和計算資源的一小部分。關鍵結果顯示:

  • 高效率: 優異的單位參數效能和單位計算時數效能比。
  • 零樣本潛力: 得益於凍結骨幹模型的強大語意基礎,該框架在零樣本遷移至習得編碼器訓練期間未見過的語言上,展現出令人期待的結果。
  • 無災難性遺忘: 至關重要的是,由於核心視覺-語言模型被凍結,其在原始英文任務上的效能保持不變。

關鍵效能洞見

MLA透過主要利用單語言視覺-語言模型中既有的知識,使用了少約10倍的多語言資料一小部分的計算量,就達到了與MURAL(在128個TPU上訓練4天)相當的效能。

4. 技術分析與洞見

核心洞見: 本文的根本突破在於範式轉移,從「從嬰兒期訓練一個通曉多種語言者」轉變為「教導一位語言專家新的語言」。它正確地指出,核心的視覺-語意映射在很大程度上與語言無關;挑戰在於詞彙和句法的投射。透過凍結視覺-語意核心,MLA繞過了多模態學習中最昂貴的部分。

邏輯流程: 論證優雅且具說服力。它首先診斷了M-VLP不可持續的擴展問題(成本、僵化性)。接著在人類認知中找到類比(母語錨定,然後沉浸)。最後,將其轉化為具體、參數效率高的神經網路架構(凍結骨幹 + 輕量適配器)和相應的訓練課程(先遷移後沉浸)。從問題到生物啟發再到工程解決方案的流程連貫一致。

優勢與缺陷:

  • 優勢: 效率論點無懈可擊。在人們日益關注AI碳足跡的時代,像MLA這樣的方法不僅聰明,更是必要的。其模組化特性對於部署和維護是一大優勢。此方法與大型語言模型中參數效率微調的趨勢相符。
  • 缺陷: 此方法本質上繼承了基礎單語言視覺-語言模型的任何偏見或限制。如果英文視覺-語言模型具有較差的組合推理能力或文化偏見,MLA也會將其傳播出去。「語言沉浸」階段仍然需要目標語言的一些多模態資料,這對於低資源語言可能很稀缺。本文的評估雖然紮實,但僅限於少數幾種語言;其聲稱能處理「6,900多種語言」的說法仍是理論上的。

可操作的洞見:

  1. 對研究人員: 這是多模態研究中「綠色AI」的藍圖。未來的工作應探索使習得編碼器更加高效,並研究其用於僅有單語言文字可用的真正低資源語言。
  2. 對工程師: 將MLA作為標準微調流程來實施,以將公司現有的視覺-語言模型擴展到新市場。兩階段訓練易於操作化。
  3. 對策略規劃者: 此方法降低了創建多語言AI產品的門檻。公司現在可以基於強大的開源英文視覺-語言模型進行開發,而無需資助昂貴的M-VLP預訓練,從而實現多模態AI的普及化。

分析框架範例

情境: 一家串流媒體服務希望將其內容推薦系統擴展到支援泰語和越南語。

  1. 基礎模型: 凍結一個預訓練好的英文視覺-語言模型。
  2. 習得編碼器設置: 將一個小型適配器網路附加到文字編碼器。
  3. 階段1 - 遷移: 使用泰英和越英平行字幕語料庫訓練適配器。適配器學習將泰語/越南語句子嵌入映射到凍結模型中對應的英文句子嵌入。
  4. 階段2 - 沉浸: 在較小的泰語和越南語影片資料集上微調適配器,這些影片帶有母語描述。
  5. 部署: 系統現在可以透過訓練好的適配器,計算泰語/越南語使用者查詢與英文影片嵌入之間的相似度,從而實現跨語言推薦,而無需重新訓練整個視覺骨幹。

5. 未來應用與方向

  • 低資源語言納入: MLA的高效率使其成為將AI益處帶給數位資源有限語言的主要候選方案,這也是Meta的「No Language Left Behind」等計畫的關鍵焦點。
  • 動態與終身學習: 未來版本可支援增量式新增語言而無需從頭訓練,邁向終身學習的多模態系統。
  • 跨模態生成: 將框架擴展到生成任務,如多語言圖像描述或影片配音。
  • 與大型語言模型整合: 將MLA與大型多語言語言模型結合作為文字骨幹,可以創造出更強大、更具文化細膩度的多模態系統。

6. 參考文獻

  1. Zhang, L., Hu, A., & Jin, Q. (2022). Generalizing Multimodal Pre-training into Multilingual via Language Acquisition. arXiv preprint arXiv:2206.11091.
  2. Jain, A., et al. (2021). MURAL: Multimodal, Multitask Retrieval Across Languages. arXiv preprint arXiv:2109.05125.
  3. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
  4. Houlsby, N., et al. (2019). Parameter-Efficient Transfer Learning for NLP. International Conference on Machine Learning (ICML).
  5. Meta AI. (2022). No Language Left Behind. https://ai.facebook.com/research/no-language-left-behind/