波蘭語詞彙量測試：一種用於接受性詞彙評估的新型自適應測試

1. 目錄

2. 引言
3. 文獻回顧
- 3.1 詞彙量測試
- 3.2 電腦化自適應測驗（CAT）
4. 研究方法
- 4.1 測驗設計與題項選擇
- 4.2 參與者與程序
5. 結果
- 5.1 詞彙量分佈
- 5.2 年齡與詞彙量的相關性
6. 討論
7. 原創分析
8. 技術細節
9. 實驗結果與圖表
10. 分析框架範例
11. 未來應用與方向
12. 參考文獻
13. 專家評論

2. 引言

詞彙量是語言能力的基石，影響閱讀理解、聽力效率以及單詞辨識速度。波蘭語詞彙量測試（PVST）引入了一種基於項目反應理論（IRT）的新型自適應方法，用於評估波蘭語母語者與非母語者的接受性詞彙。這項先導研究旨在驗證PVST作為一種可靠且省時的工具，能夠克服傳統固定題項測試（如詞彙量測試VST和LexTale）的限制。

3. 文獻回顧

3.1 詞彙量測試

傳統測試如VST（Nation & Beglar, 2007）和LexTale（Lemhöfer & Broersma, 2012）雖被廣泛使用，但存在諸如因猜測導致分數膨脹、缺乏可複製性以及對語言能力層級區分度不佳等問題。VST採用多選題同義詞辨識，而LexTale則使用詞彙判斷任務。兩者雖已改編成多種語言，但在信度與效度上仍存在關鍵缺陷。

3.2 電腦化自適應測驗（CAT）

CAT奠基於IRT，能根據受測者先前的回答動態選擇題項，從而提高精確度並縮短測驗長度。Golovin（2015）為俄語開發了一套自適應線上詞彙量測試（AoVST），該測試展現了良好的效度，並發現詞彙量與年齡之間存在非線性關係。PVST即是在此方法論基礎上為波蘭語所建構。

4. 研究方法

4.1 測驗設計與題項選擇

PVST使用一個經由Rasch模型校準的500個波蘭語詞彙庫。題項根據受測者的估計能力進行自適應選擇，每次回答後皆透過最大概似估計更新能力估計值。當估計值的標準誤低於0.3 logits時，測驗即終止。

4.2 參與者與程序

共有1,200名參與者（800名波蘭語母語者，400名非母語學習者）在線上完成了PVST。母語者的年齡範圍為18至70歲，而非母語者則至少具備B1級別的語言能力。完成測驗平均耗時12分鐘。

5. 結果

5.1 詞彙量分佈

母語者的平均接受性詞彙量為45,000詞（標準差=8,200），而非母語者平均為18,000詞（標準差=5,400）。母語者的詞彙量分佈呈正偏態，年輕成人（18-30歲）的得分高於年長成人（60歲以上）。

5.2 年齡與詞彙量的相關性

母語者的年齡與詞彙量之間存在顯著的非線性相關（R² = 0.34, p < 0.001），詞彙量在25-35歲年齡區間達到高峰，並在50歲後逐漸下降。此結果與Keuleers等人（2015）針對荷蘭語的研究發現一致。

6. 討論

PVST成功區分了母語者與非母語者，並捕捉到與年齡相關的詞彙量趨勢。其自適應特性使測驗時間比固定長度測驗減少了40%，同時保持了高信度（Cronbach's α = 0.92）。該測試透過最小化猜測效應並提供更精確的能力估計，解決了對VST和LexTale的主要批評。

7. 原創分析

PVST代表了詞彙評估方法論上的重大進展，它利用基於IRT的自適應測試來解決長期存在的測驗效率與準確性問題。與傳統的固定題項測試（常因猜測而導致分數膨脹，Coxhead等人，2014）不同，PVST的自適應演算法能根據個人調整題項難度，從而減少測量誤差。此方法得到了教育測驗中CAT研究的支持，該研究顯示自適應測驗能以比固定測驗少50%的題數達到相同的精確度（Weiss, 2011）。母語者年齡與詞彙量之間的強相關性（R² = 0.34）反映了在英語（Brysbaert等人，2016）和荷蘭語（Keuleers等人，2015）大規模研究中觀察到的模式，證實詞彙增長在成年早期趨於平穩，並在晚年下降。然而，PVST依賴單一的單詞辨識格式可能無法捕捉詞彙知識的深度，這是Read（2023）指出的限制。未來的版本可以納入多種回應格式，例如意義回憶或語境用法，以提供更全面的評估。該測試在跨語言改編方面的潛力是值得期待的，因為其基礎IRT框架與語言無關，類似於俄語AoVST所使用的方法（Golovin, 2015）。從實務角度來看，PVST為教育者和研究人員提供了一個快速、可靠的工具，可用於分級測驗和縱向研究，並在臨床環境中具有評估老年人口語言能力衰退的潛在應用。整合機器學習模型來優化題項校準，可以進一步提升預測效度，正如近期自適應語言評估所展示的那樣（Bohn等人，2024）。總體而言，PVST為斯拉夫語言的詞彙測試樹立了新標準，並為其他資源不足的語言提供了可複製的模型。

8. 技術細節

PVST使用Rasch模型進行題項校準，其中正確回答的機率由下式給出：

$P(X_{ij}=1|\theta_i, b_j) = \frac{e^{(\theta_i - b_j)}}{1 + e^{(\theta_i - b_j)}}$

其中 $\theta_i$ 是個人 $i$ 的能力，$b_j$ 是題項 $j$ 的難度。該測試使用貝氏自適應演算法來選擇能夠在當前能力估計值下提供最大資訊的下一個題項。停止規則基於 $\theta$ 的標準誤，設定為 SE < 0.3 logits。

9. 實驗結果與圖表

圖1： 母語者（藍色）與非母語者（紅色）的詞彙量分佈。母語者顯示出更廣的範圍（20,000-70,000詞），峰值約在45,000詞，而非母語者則集中在10,000-30,000詞之間。

圖2： 母語者年齡與詞彙量的散點圖，並帶有LOESS平滑曲線，顯示在30歲達到高峰，並在55歲後逐漸下降。非線性擬合（R² = 0.34）表明年齡可解釋詞彙量34%的變異。

表1： 測試特徵比較：PVST（12分鐘，平均30題，α=0.92）vs. VST（25分鐘，140題，α=0.88）vs. LexTale（15分鐘，60題，α=0.85）。PVST展現了優越的效率與信度。

10. 分析框架範例

案例研究：在大學分級測驗中使用PVST

一所大學對200名國際新生實施PVST。該測試識別出30名詞彙量低於15,000詞的學生，並建議他們參加預備語言課程。一學期後，再次測試顯示平均增加了4,200詞，證實了該測試對教學效果的敏感度。自適應演算法確保每位學生看到的題項都符合其程度，從而減少挫折感和測驗疲勞。

11. 未來應用與方向

PVST可透過加入打字式回憶組件來擴展以評估產出性詞彙。與自然語言處理（NLP）模型的整合，可以實現對寫作任務中詞彙使用的即時分析。未來版本可能包含多媒體刺激（音頻、圖像）來評估多模態詞彙知識。計劃使用相同的IRT框架進行其他斯拉夫語言（例如捷克語、烏克蘭語）的跨語言改編。在臨床神經心理學中，鑑於其對年齡相關詞彙變化的敏感度，PVST可作為篩檢失智症語言能力衰退的工具。

12. 參考文獻

Bohn, M., et al. (2024). Adaptive vocabulary tests for children. Language Learning, 74(1), 45-78.
Brysbaert, M., et al. (2016). How many words do we know? Frontiers in Psychology, 7, 1116.
Coxhead, A., et al. (2014). The Vocabulary Size Test: A critical review. Applied Linguistics, 35(2), 201-220.
Golovin, G. (2015). Adaptive online vocabulary size test for Russian. Russian Language Studies, 12(3), 55-72.
Keuleers, E., et al. (2015). Vocabulary size in Dutch. Behavior Research Methods, 47(4), 1001-1015.
Lemhöfer, K., & Broersma, M. (2012). Introducing LexTale. Behavior Research Methods, 44(2), 325-343.
Nation, I.S.P., & Beglar, D. (2007). A vocabulary size test. JALT Journal, 29(1), 9-24.
Read, J. (2023). Assessing vocabulary depth. Language Testing, 40(3), 567-589.
Weiss, D.J. (2011). Adaptive testing in education. Educational Measurement, 30(4), 3-15.

13. 專家評論

核心見解： PVST不僅僅是另一個詞彙測試——它代表了從靜態、一體適用的評估到動態、個人化測量的典範轉移。透過利用IRT，它解決了困擾多選題測試的猜測問題，並提供了固定測試難以企及的精確度。

邏輯脈絡： 作者正確地指出了VST和LexTale的缺陷（分數膨脹、缺乏可複製性），並提出CAT作為邏輯上的替代方案。先導數據令人信服地顯示PVST更快、更可靠，且對年齡效應更敏感。從問題識別到解決方案再到驗證的進展堪稱教科書級別。

優勢與缺陷： 最大的優勢在於自適應演算法——它將測試時間縮短了40%，同時提高了信度。年齡-詞彙量相關性（R²=0.34）相當穩健，並與先前的研究一致。然而，該測試僅透過單一格式（單詞辨識）測量接受性詞彙深度，這只是詞彙能力的一個狹窄層面。此外，1,200人的樣本量雖然不錯，但還不夠龐大；該測試需要在更大、更多樣化的群體（包括臨床群體）中進行驗證。

可行建議： 對研究人員而言：使用PVST進行詞彙增長的縱向研究——其精確度將能偵測到小的效應量。對教育者而言：採用PVST進行分級測驗；它比紙筆測驗更快、更準確。對測驗開發者而言：擴展PVST以納入產出性和語境測量，並探索整合NLP以實現自動化題項生成。未來是自適應的——不要停留在靜態測試上。