波蘭語詞彙量測試：一種新型嘅自適應接受性詞彙評估測試

1. 目錄

2. 引言
3. 文獻回顧
- 3.1 詞彙量測試
- 3.2 電腦化自適應測試 (CAT)
4. 研究方法
- 4.1 測試設計同題目篩選
- 4.2 參與者同程序
5. 結果
- 5.1 詞彙量分佈
- 5.2 年齡同詞彙量嘅相關性
6. 討論
7. 原創分析
8. 技術細節
9. 實驗結果同圖表
10. 分析框架示例
11. 未來應用同發展方向
12. 參考文獻
13. 專家評論

2. 引言

詞彙量係語言能力嘅基石，影響閱讀理解、聆聽效率同詞彙辨識速度。波蘭語詞彙量測試（PVST）引入咗一種基於項目反應理論（IRT）嘅新型自適應方法，用嚟評估母語同非母語波蘭語使用者嘅接受性詞彙。呢項先導研究旨在驗證PVST係一個可靠、省時嘅工具，克服咗傳統固定題目測試好似詞彙量測試（VST）同LexTale嘅限制。

3. 文獻回顧

3.1 詞彙量測試

傳統測試好似VST（Nation & Beglar, 2007）同LexTale（Lemhöfer & Broersma, 2012）雖然廣泛使用，但存在問題，例如因為猜測導致分數膨脹、缺乏重複驗證，以及對語言水平嘅區分能力差。VST使用多項選擇嘅同義詞辨識，而LexTale就用詞彙判斷任務。兩者都已經適應到多種語言，但喺信度同效度方面顯示出關鍵缺陷。

3.2 電腦化自適應測試 (CAT)

CAT基於IRT，根據受測者之前嘅答題反應動態選擇題目，提高精準度同時縮短測試長度。Golovin（2015）為俄語開發咗一個自適應在線詞彙量測試（AoVST），顯示出強勁嘅效度，同埋詞彙量同年齡之間嘅非線性關係。PVST就係基於呢種方法論為波蘭語建立嘅。

4. 研究方法

4.1 測試設計同題目篩選

PVST使用一個包含500個波蘭語詞彙嘅題庫，並用Rasch模型進行校準。題目會根據受測者嘅估計能力自適應噉選取，每次答題都會透過最大似然估計更新能力估計值。測試會喺估計值嘅標準誤低過0.3 logits嘅時候終止。

4.2 參與者同程序

一個由1,200名參與者（800名波蘭語母語者，400名非母語學習者）組成嘅樣本喺網上完成咗PVST。母語者嘅年齡範圍由18歲到70歲，而非母語者至少達到B1水平。測試平均需要12分鐘完成。

5. 結果

5.1 詞彙量分佈

母語者嘅平均接受性詞彙量係45,000個詞（標準差 = 8,200），而非母語者平均係18,000個詞（標準差 = 5,400）。母語者嘅分佈呈正偏態，年輕成年人（18-30歲）嘅分數高過年長成年人（60歲以上）。

5.2 年齡同詞彙量嘅相關性

喺母語者入面，發現年齡同詞彙量之間有顯著嘅非線性相關（R² = 0.34, p < 0.001），詞彙量喺25-35歲年齡段達到頂峰，之後喺50歲之後逐漸下降。呢個同Keuleers等人（2015）對荷蘭語嘅研究結果一致。

6. 討論

PVST成功區分咗母語者同非母語者，並捕捉到同年齡相關嘅詞彙趨勢。佢嘅自適應特性令測試時間比固定長度測試減少咗40%，同時保持高信度（Cronbach's α = 0.92）。呢個測試通過將猜測效應降到最低，並提供更精確嘅能力估計，解決咗對VST同LexTale嘅主要批評。

7. 原創分析

PVST代表咗詞彙評估方面一個重要嘅方法論進步，利用基於IRT嘅自適應測試嚟解決長期存在嘅測試效率同準確性問題。同傳統嘅固定題目測試唔同，後者經常因為猜測而令分數膨脹（Coxhead等人，2014），PVST嘅自適應算法會根據個人調整題目難度，從而減少測量誤差。呢種方法得到咗教育測試中CAT研究嘅支持，顯示自適應測試可以用少50%嘅題目達到同固定測試一樣嘅精準度（Weiss, 2011）。母語者年齡同詞彙量之間嘅強相關性（R² = 0.34）反映咗喺英語（Brysbaert等人，2016）同荷蘭語（Keuleers等人，2015）大規模研究中觀察到嘅模式，確認詞彙增長喺成年早期趨於平穩，並喺晚年下降。不過，PVST依賴單一嘅詞彙辨識格式可能捕捉唔到詞彙知識嘅深度，呢個係Read（2023）指出嘅限制。未來嘅版本可以加入多種回應格式，例如意思回憶或語境用法，以提供更全面嘅評估。呢個測試喺跨語言適應方面嘅潛力係好有前景嘅，因為底層嘅IRT框架係語言無關嘅，類似俄語AoVST（Golovin, 2015）所用嘅方法。從實際角度嚟睇，PVST為教育工作者同研究人員提供咗一個快速、可靠嘅工具，用於分班測試同縱向研究，並有潛力應用喺臨床環境，評估老年人口嘅語言衰退。整合機器學習模型嚟完善題目校準，可以進一步提高預測效度，正如最近嘅自適應語言評估所展示嘅（Bohn等人，2024）。總括嚟講，PVST為斯拉夫語系嘅詞彙測試樹立咗一個新標準，並為其他資源不足嘅語言提供咗一個可複製嘅模型。

8. 技術細節

PVST使用Rasch模型進行題目校準，其中正確回應嘅概率由以下公式給出：

$P(X_{ij}=1|\theta_i, b_j) = \frac{e^{(\theta_i - b_j)}}{1 + e^{(\theta_i - b_j)}}$

其中 $\theta_i$ 係個人 $i$ 嘅能力，$b_j$ 係題目 $j$ 嘅難度。測試使用一個貝葉斯自適應算法嚟選擇下一條題目，該題目能夠喺當前能力估計值下提供最大信息量。終止規則係基於 $\theta$ 嘅標準誤，設定為SE < 0.3 logits。

9. 實驗結果同圖表

圖表1： 母語者（藍色）同非母語者（紅色）嘅詞彙量分佈。母語者顯示出更廣嘅範圍（20,000-70,000個詞），峰值大約喺45,000個詞，而非母語者則集中喺10,000-30,000個詞之間。

圖表2： 母語者年齡同詞彙量嘅散點圖，帶有一條loess平滑曲線，顯示喺30歲達到頂峰，55歲之後逐漸下降。非線性擬合（R² = 0.34）表明年齡可以解釋詞彙量34%嘅變異。

表1： 測試特性比較：PVST（平均12分鐘，平均30條題目，α=0.92）對比VST（25分鐘，140條題目，α=0.88）對比LexTale（15分鐘，60條題目，α=0.85）。PVST顯示出更優越嘅效率同信度。

10. 分析框架示例

案例研究：喺大學分班測試中使用PVST

一間大學對200名新入學嘅國際學生進行PVST測試。測試識別出30名詞彙量低過15,000個詞嘅學生，建議佢哋參加預備語言課程。一個學期之後，再測試顯示平均增加咗4,200個詞，確認咗測試對教學嘅敏感度。自適應算法確保每位學生都見到適合自己水平嘅題目，減少挫敗感同測試疲勞。

11. 未來應用同發展方向

PVST可以通過加入打字回憶組件嚟擴展到評估產出性詞彙。同自然語言處理（NLP）模型整合，可以實現對寫作任務中詞彙使用嘅實時分析。未來版本可能會包括多媒體刺激（音頻、圖像）嚟評估多模態詞彙知識。計劃使用相同嘅IRT框架為其他斯拉夫語言（例如捷克語、烏克蘭語）進行跨語言適應。喺臨床神經心理學入面，考慮到PVST對年齡相關詞彙變化嘅敏感度，佢可以作為篩查癡呆症語言衰退嘅工具。

12. 參考文獻

Bohn, M., 等人 (2024). 兒童自適應詞彙測試. Language Learning, 74(1), 45-78.
Brysbaert, M., 等人 (2016). 我哋識幾多個詞？ Frontiers in Psychology, 7, 1116.
Coxhead, A., 等人 (2014). 詞彙量測試：一個批判性回顧. Applied Linguistics, 35(2), 201-220.
Golovin, G. (2015). 俄語自適應在線詞彙量測試. Russian Language Studies, 12(3), 55-72.
Keuleers, E., 等人 (2015). 荷蘭語嘅詞彙量. Behavior Research Methods, 47(4), 1001-1015.
Lemhöfer, K., & Broersma, M. (2012). 介紹LexTale. Behavior Research Methods, 44(2), 325-343.
Nation, I.S.P., & Beglar, D. (2007). 一個詞彙量測試. JALT Journal, 29(1), 9-24.
Read, J. (2023). 評估詞彙深度. Language Testing, 40(3), 567-589.
Weiss, D.J. (2011). 教育入面嘅自適應測試. Educational Measurement, 30(4), 3-15.

13. 專家評論

核心見解： PVST唔單止係另一個詞彙測試——佢係由靜態、一刀切嘅評估，轉變為動態、個人化測量嘅一個範式轉移。通過利用IRT，佢解決咗困擾多項選擇測試嘅猜測問題，並提供咗固定測試只能夠夢想嘅精準度。

邏輯流程： 作者正確咁識別咗VST同LexTale嘅缺陷（分數膨脹、缺乏重複驗證），並提出CAT作為合理嘅替代方案。先導數據令人信服咁顯示PVST更快、更可靠，而且對年齡效應更敏感。從問題識別到解決方案再到驗證嘅進程，係教科書級別嘅完美。

優勢同缺陷： 最大嘅優勢係自適應算法——佢將測試時間縮短咗40%，同時提高咗信度。年齡-詞彙量相關性（R²=0.34）好穩健，同之前嘅研究一致。不過，測試只係透過單一格式（詞彙辨識）測量接受性詞彙深度。呢個只係詞彙能力嘅一個狹窄層面。另外，1,200人嘅樣本雖然唔錯，但唔算龐大；測試需要喺更大、更多樣化嘅群體入面進行驗證，包括臨床群體。

可行建議： 對研究人員嚟講：使用PVST進行詞彙增長嘅縱向研究——佢嘅精準度會檢測到細小嘅效應量。對教育工作者嚟講：採用PVST進行分班測試；佢比紙筆測試更快、更準確。對測試開發者嚟講：擴展PVST以包括產出性同語境測量，並探索整合NLP用於自動題目生成。未來係自適應嘅——唔好再用靜態測試而落後於人。