波兰语词汇量测试（PVST）：一种用于评估接受性词汇的自适应测评工具

1. 引言

词汇量是语言能力的基础支柱，与阅读理解、听力技能及整体交际效率密切相关。接受性（理解）词汇与产出性（使用）词汇的区分至关重要，大多数标准化测试侧重于前者，因为它在通过阅读和听力习得语言的过程中起着基础性作用。本文介绍了波兰语词汇量测试（PVST）的试点开发，这是一种旨在可靠测量母语和非母语波兰语使用者接受性词汇广度的自适应工具。其核心目标是有效区分这两类人群，并建立母语者词汇量与年龄之间的预期相关性。

2. 文献综述

词汇评估领域由几种成熟的方法论主导，每种方法都有其自身的优势和已记录的局限性。

2.1 词汇量测试

传统方法包括纸笔任务、智力测试的子量表（如韦氏量表）、皮博迪图片词汇测试和词汇水平测试。目前，最突出的两种是：

词汇量测试（VST）：使用基于词频的单词簇，要求受试者从多项选择中选出同义词或定义。它已适用于多种语言。
LexTale：一种词汇判断任务，参与者判断一个字母串是真实单词还是伪词。它已被翻译成多种欧洲和亚洲语言。

2.2 现有测试的局限性

对这些主流测试的批评是显著的。VST的多项选择形式容易受到猜测导致的分数虚高影响，可能高估真实的词汇知识。LexTale则因其可靠性被夸大以及缺乏独立的重复性研究而受到批评，这引发了对其在第二语言熟练度分级方面敏感性的质疑。

2.3 计算机化自适应测试（CAT）

一种新兴且强大的替代方案是计算机化自适应测试（CAT），它基于项目反应理论（IRT）。CAT的关键创新在于，根据受试者在先前题目上的表现，动态选择后续的每个测试题目。这使得测试难度能够实时适应个体的能力水平，从而产生更短、更精确、认知负荷更低的测试。一个成功的先例是用于俄语的自适应在线词汇量测试（AoVST），它展示了很高的效度和可扩展性。

3. 波兰语词汇量测试（PVST）

PVST被定位为CAT和IRT原理在波兰语中的新颖应用，旨在克服静态测试的局限性。

3.1 方法与设计

该测试被设计为基于网络的自适应评估。它动态呈现单词（可能选自按词频排序的语料库），并要求受试者展示接受性知识，可能通过定义匹配或同义词选择来实现。IRT算法在每次回答后估计参与者的词汇能力（$\theta$），并选择难度参数最符合当前能力估计的下一个单词。

3.2 技术实现

基于AoVST框架，PVST后端实现了IRT模型（例如，单参数或双参数逻辑斯蒂模型）来校准题目难度并估计参与者能力。前端提供了一个简化的用户界面，用于单词呈现和回答收集。该系统为实现大规模数据收集的可扩展性而设计。

4. 试点结果与分析

试点研究旨在验证PVST的核心假设。初步结果预计将显示：

母语和非母语波兰语使用者群体之间的PVST分数存在清晰且具有统计学意义的差异。
在母语波兰语使用者中，PVST分数与年龄之间存在强烈的非线性正相关，这与荷兰语、英语和德语研究的结果一致。
高可靠性指标（例如，重测信度）和结构效度的证据。

图表描述：一个假设的散点图将说明母语者年龄（x轴）与估计词汇量（y轴）之间的相关性。该图将显示在早期年份呈急剧上升趋势，在成年期趋于平稳，母语者的数据点聚集在y轴上显著高于非母语者数据点（显示在单独的簇中）的位置。

5. 核心洞察与分析视角

核心洞察： PVST不仅仅是另一个词汇测试；它是从静态的、一刀切的评估向动态的、个性化测量的战略转变。其真正价值在于利用IRT和CAT不仅是为了效率，更是为了在群体规模上解锁对波兰语心理词汇库的精细、数据驱动的洞察。这将该领域从描述性评分推向了对语言习得轨迹的预测性建模。

逻辑脉络： 作者正确地指出了VST和LexTale等传统测试存在的天花板效应和可猜测性缺陷。他们的解决方案在架构上是合理的：采用来自AoVST的经过验证的CAT/IRT框架（该框架已通过超过40万次回答证明了其稳健性），并将其应用于服务不足的波兰语领域。其逻辑与其说是发明，不如说是战略性的、高保真度的复制和本地化。

优势与缺陷： 主要优势在于方法论的严谨性。使用CAT直接解决了测试长度和精确性这两个关键痛点。然而，试点的成功完全取决于题目库校准的质量。单词难度初始校准的缺陷或偏差将在整个自适应系统中传播错误。本文目前的弱点是缺乏公开的试点数据；关于区分母语/非母语者以及年龄相关性的主张，在实证结果发布并接受审查之前，仍然只是承诺。这与计算机视觉中经过广泛验证的模型（如CycleGAN（Zhu等人，2017））不同，后者呈现了清晰、可复现的图像转换结果。

可操作的见解： 对于研究人员来说，当务之急是要求题目反应数据和校准参数的透明度。对于教育工作者和语言技术开发者而言，PVST框架提供了一个蓝图。核心CAT引擎可以被抽象化并应用于其他语言特征（语法、搭配）甚至其他语言，从而创建一套自适应诊断工具。优先事项应该是将测试引擎或API开源，遵循托管在GitHub或Hugging Face等平台上的工具模式，以促进社区验证和快速迭代，而不是将其保持为一个封闭的学术工具。

6. 技术细节与数学框架

PVST建立在项目反应理论（IRT）的基础上。能力为$\theta$的人正确回答题目$i$的概率由一个逻辑斯蒂函数建模。一个常见的模型是双参数逻辑斯蒂（2PL）模型：

$P_i(\theta) = \frac{1}{1 + e^{-a_i(\theta - b_i)}}$

其中：

$P_i(\theta)$：对题目$i$做出正确反应的概率。
$\theta$：受试者的潜在特质（词汇能力）。
$a_i$：题目$i$的区分度参数（该题目区分不同能力水平的程度）。
$b_i$：题目$i$的难度参数（在该能力水平下，正确回答的概率为50%）。

CAT算法使用最大似然估计（MLE）或贝叶斯估计（例如，期望后验估计）在每次回答后更新$\hat{\theta}$的估计值。下一个题目从题库中选择，其难度$b_j$接近当前的$\hat{\theta}$，从而最大化下一个回答所提供的信息：$I_j(\theta) = [P'_j(\theta)]^2 / [P_j(\theta)(1-P_j(\theta))]$。

7. 分析框架：示例案例

场景： 分析母语者和非母语者之间的题目功能差异（DIF）。

框架：

数据提取： 记录所有参与者的回答（题目ID、回答正确性、估计的$\theta$、组别标签：母语/非母语）。
按组进行IRT重新校准： 分别针对母语和非母语数据集校准题目参数（$a_i$, $b_i$）。
DIF检测： 比较每个题目在两个组别之间的难度参数（$b_i$）。具有统计学意义的差异（例如，使用Wald检验）表明存在DIF。例如，像“przebieg”（过程/运行）这样的词，可能对两组都有相似的$b$值，而像“śmigus-dyngus”（复活节传统）这样具有文化特定性的词，在控制了整体能力后，可能对母语者来说明显更容易，对非母语者来说更难。
解释： DIF较大的题目可能会被标记。它们可能会从混合组的核心能力估计中移除，或用于创建单独的测试常模，以确保公平性。这个过程类似于机器学习模型中的公平性审计，确保测试不会对某一群体产生偏见。

8. 未来应用与方向

PVST框架开辟了几个有前景的途径：

纵向追踪： 定期部署PVST以建模第二语言学习者的词汇增长，提供关于习得速率和平台期的细粒度数据。
诊断工具集成： 将自适应测试嵌入数字语言学习平台（如Duolingo或Babbel），以提供个性化的词汇诊断并推荐有针对性的学习内容。
跨语言研究： 在多种语言中使用并行的PVST风格测试，以研究关于词汇习得、母语对第二语言词汇量的影响以及双语认知效应的基本问题。
临床应用： 调整测试原理，用于筛查和监测临床人群（如失语症、阅读障碍）的语言障碍，在这些领域，高效且精确的评估至关重要。
人工智能与自然语言处理模型评估： 经过严格校准的人类词汇数据可以作为评估基于波兰语微调的大型语言模型（LLMs）“词汇知识”的基准，探究模型的单词难度“理解”是否与人类心理语言学数据一致。

9. 参考文献

Brysbaert, M. (2013). LexTALE_FR: A fast, free, and efficient test to measure language proficiency in French. Psychological Belgica.
Coxhead, A., et al. (2014). The problem of guessing in multiple-choice vocabulary tests. Language Testing.
Golovin, G. (2015). Adaptive online Vocabulary Size Test (AoVST) for Russian.
Laufer, B., & Nation, P. (2001). Passive vocabulary size and speed of meaning recognition. Studies in Second Language Acquisition.
Lemhöfer, K., & Broersma, M. (2012). Introducing LexTALE: A quick and valid lexical test for advanced learners of English. Behavior Research Methods.
Nation, I.S.P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher.
Stoeckel, T., et al. (2021). The challenge of measuring vocabulary size. Language Assessment Quarterly.
Webb, S. (2021). The Routledge Handbook of Vocabulary Studies.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).