波蘭語詞彙量測驗 (PVST)：針對接收性詞彙的自適應評估工具

1. 緒論

詞彙量是語言能力的基礎支柱，與閱讀理解、聽力技巧及整體溝通效率密切相關。接收性（理解）詞彙與產出性（使用）詞彙之間的區分至關重要，大多數標準化測驗著重於前者，因為它在透過閱讀和聽力習得語言的過程中扮演基礎角色。本文介紹了波蘭語詞彙量測驗 (PVST) 的先導開發，這是一個旨在可靠測量母語與非母語波蘭語使用者接收性詞彙廣度的自適應工具。其核心目標是有效區分這兩類群體，並在母語者中建立詞彙量與年齡之間的預期相關性。

2. 文獻回顧

詞彙評估領域由幾種既定的方法論主導，每種方法都有其優勢和已記載的局限性。

2.1 詞彙量測驗

傳統方法包括紙筆測驗、智力測驗的子量表（例如韋氏智力量表）、皮博迪圖片詞彙測驗以及詞彙分級測驗。目前最突出的兩種是：

詞彙量測驗 (VST)：使用基於詞頻的詞群，受試者從多選項中選擇同義詞或定義。它已為多種語言進行了改編。
LexTale：一種詞彙決策任務，參與者判斷一個字母串是真詞還是假詞。它已被翻譯成多種歐洲和亞洲語言。

2.2 現有測驗的局限性

對這些主流測驗的批評相當重要。VST 的多選題格式容易受到猜測導致分數膨脹的影響，可能高估真實的詞彙知識。LexTale 則因其信度被高估以及缺乏獨立的重複研究而受到批評，這引發了對其區分第二語言能力細微差異敏感度的質疑。

2.3 電腦化自適應測驗 (CAT)

一個新興且強大的替代方案是基於試題反應理論 (IRT) 的電腦化自適應測驗 (CAT)。CAT 的關鍵創新在於根據受試者對先前試題的表現，動態選擇後續的每個測驗題目。這能即時將測驗難度調整至個人的能力水準，從而實現更短、更精確且認知負荷更低的測驗。一個成功的先例是俄語的「自適應線上詞彙量測驗 (AoVST)」，該測驗展現了高效度和可擴展性。

3. 波蘭語詞彙量測驗 (PVST)

PVST 定位為將 CAT 和 IRT 原理應用於波蘭語的新穎嘗試，旨在克服靜態測驗的局限性。

3.1 方法論與設計

該測驗設計為基於網路的自適應評估。它動態呈現單詞（可能選自按詞頻排序的語料庫），並要求受試者展示接收性知識，可能透過定義配對或同義詞選擇來實現。IRT 演算法在每次回答後估計參與者的詞彙能力 ($\theta$)，並選擇難度參數最符合當前能力估計的下一個單詞。

3.2 技術實作

基於 AoVST 框架，PVST 後端實作了 IRT 模型（例如單參數或雙參數邏輯模型）來校準試題難度並估計參與者能力。前端提供了一個簡化的使用者介面，用於呈現單詞和收集回答。該系統設計具有可擴展性，以處理大規模資料收集。

4. 先導研究結果與分析

先導研究旨在驗證 PVST 的核心假設。初步結果預計顯示：

母語與非母語波蘭語使用者群體之間的 PVST 分數存在清晰且統計上顯著的差異。
在母語波蘭語使用者中，PVST 分數與年齡之間存在強烈的非線性正相關，這與荷蘭語、英語和德語的研究結果一致。
高信度指標（例如重測信度）以及建構效度的證據。

圖表說明：一個假設的散點圖將說明母語者年齡（x 軸）與估計詞彙量（y 軸）之間的相關性。該圖將顯示早年急遽上升的正面趨勢，在成年期趨於平穩，且母語者的資料點在 y 軸上明顯高於非母語者資料點（顯示在另一個群集中）。

5. 核心洞察與分析師觀點

核心洞察： PVST 不僅僅是另一個詞彙測驗；它是從靜態、一體適用的評估轉向動態、個人化測量的策略性轉變。其真正價值在於利用 IRT 和 CAT，不僅是為了效率，更是為了在群體規模上，解鎖對波蘭語心理詞彙庫細緻、數據驅動的洞察。這將該領域從描述性評分推向語言習得軌跡的預測性建模。

邏輯流程： 作者正確地指出了 VST 和 LexTale 等傳統測驗的天花板效應和可猜測性缺陷。他們的解決方案在架構上是合理的：採用 AoVST 中經過驗證的 CAT/IRT 框架（該框架已透過超過 40 萬次回答證明了其穩健性），並將其應用於服務不足的波蘭語領域。其邏輯與其說是發明，不如說是策略性的、高保真度的複製與在地化。

優勢與缺陷： 主要優勢在於方法論的嚴謹性。使用 CAT 直接解決了測驗長度和精確度的關鍵痛點。然而，先導研究的成功完全取決於試題庫校準的品質。單詞難度有缺陷或有偏差的初始校準將導致錯誤在整個自適應系統中傳播。本文目前的弱點在於缺乏已公開的先導研究數據；關於區分母語/非母語者以及年齡相關性的主張，在實證結果發表並接受審查之前，仍屬承諾性質，這與電腦視覺中經過廣泛驗證的模型（如 CycleGAN (Zhu et al., 2017)）不同，後者呈現了清晰、可重現的圖像轉換結果。

可行洞察： 對於研究人員而言，當務之急是要求試題反應數據和校準參數的透明度。對於教育工作者和語言科技開發者，PVST 框架提供了一個藍圖。核心 CAT 引擎可以被抽象化並應用於其他語言特徵（文法、搭配詞）甚至其他語言，從而創建一套自適應診斷工具。優先事項應是開源測驗引擎或 API，遵循 GitHub 或 Hugging Face 等平台上託管工具的模式，以促進社群驗證和快速迭代，而不是將其保持為封閉的學術工具。

6. 技術細節與數學框架

PVST 以試題反應理論 (IRT) 為基礎。能力為 $\theta$ 的人正確回答試題 $i$ 的機率由一個邏輯函數建模。一個常見的模型是雙參數邏輯 (2PL) 模型：

$P_i(\theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$

其中：

$P_i(\theta)$：對試題 $i$ 正確回答的機率。
$\theta$：受試者的潛在特質（詞彙能力）。
$a_i$：試題 $i$ 的鑑別度參數（該試題區分不同能力者的程度）。
$b_i$：試題 $i$ 的難度參數（正確回答機率為 50% 時的能力水準）。

CAT 演算法使用最大概似估計 (MLE) 或貝氏估計（例如期望後驗估計）在每次回答後更新 $\hat{\theta}$ 的估計值。下一個試題從試題庫中選出，其難度 $b_j$ 接近當前的 $\hat{\theta}$，從而最大化下一個回答所提供的資訊：$I_j(\theta) = [P'_j(\theta)]^2 / [P_j(\theta)(1-P_j(\theta))]$。

7. 分析框架：範例案例

情境： 分析母語與非母語者之間的差異試題功能 (DIF)。

框架：

資料擷取： 記錄所有參與者的回答（試題 ID、回答正確性、估計的 $\theta$、群組標籤：母語/非母語）。
按群組重新進行 IRT 校準： 分別針對母語和非母語資料集校準試題參數 ($a_i$, $b_i$)。
DIF 檢測： 比較每個試題在兩個群組間的難度參數 ($b_i$)。統計上顯著的差異（例如使用 Wald 檢定）表明存在 DIF。例如，像 "przebieg"（過程/奔跑）這樣的單詞，對兩個群組可能有相似的 $b$ 值，而像 „śmigus-dyngus”（復活節傳統）這樣具有文化特定性的單詞，在控制了整體能力後，可能對母語者顯著較易，對非母語者顯著較難。
解釋： DIF 較大的試題可能會被標記。它們可能從混合群組的核心能力估計中移除，或用於建立單獨的測驗常模，以確保公平性。這個過程類似於機器學習模型中的公平性審計，確保測驗不會對某個群體產生偏見。

8. 未來應用與發展方向

PVST 框架開啟了幾個有前景的方向：

縱向追蹤： 定期部署 PVST 以建模第二語言學習者的詞彙成長，提供關於習得速率和停滯點的細粒度數據。
診斷工具整合： 將自適應測驗嵌入數位語言學習平台（如 Duolingo 或 Babbel），以提供個人化的詞彙診斷並推薦有針對性的學習內容。
跨語言研究： 在多種語言中使用平行的 PVST 式測驗，以研究關於詞彙習得、母語對第二語言詞彙量的影響以及雙語認知效應的基本問題。
臨床應用： 調整測驗原理，用於篩查和監測臨床群體（例如失語症、閱讀障礙）的語言障礙，在這些領域，高效且精確的評估至關重要。
AI 與 NLP 模型評估： 經過嚴格校準的人類詞彙數據可以作為評估針對波蘭語微調的大型語言模型 (LLM)「詞彙知識」的基準，探討模型的單詞難度「理解」是否與人類的心理語言學數據一致。

9. 參考文獻

Brysbaert, M. (2013). LexTALE_FR: A fast, free, and efficient test to measure language proficiency in French. Psychological Belgica.
Coxhead, A., et al. (2014). The problem of guessing in multiple-choice vocabulary tests. Language Testing.
Golovin, G. (2015). Adaptive online Vocabulary Size Test (AoVST) for Russian.
Laufer, B., & Nation, P. (2001). Passive vocabulary size and speed of meaning recognition. Studies in Second Language Acquisition.
Lemhöfer, K., & Broersma, M. (2012). Introducing LexTALE: A quick and valid lexical test for advanced learners of English. Behavior Research Methods.
Nation, I.S.P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher.
Stoeckel, T., et al. (2021). The challenge of measuring vocabulary size. Language Assessment Quarterly.
Webb, S. (2021). The Routledge Handbook of Vocabulary Studies.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).