Der polnische Wortschatzumfangstest: Ein neuartiger adaptiver Test zur Bewertung des rezeptiven Wortschatzes

1. Inhaltsverzeichnis

2. Einleitung
3. Literaturüberblick
- 3.1 Wortschatzumfangstests
- 3.2 Computergestütztes adaptives Testen (CAT)
4. Methodik
- 4.1 Testdesign und Itemauswahl
- 4.2 Teilnehmer und Ablauf
5. Ergebnisse
- 5.1 Verteilung des Wortschatzumfangs
- 5.2 Korrelation zwischen Alter und Wortschatz
6. Diskussion
7. Ursprüngliche Analyse
8. Technische Details
9. Experimentelle Ergebnisse und Abbildungen
10. Beispiel eines Analyseframeworks
11. Zukünftige Anwendungen und Richtungen
12. Literaturverzeichnis
13. Expertenkommentar

2. Einleitung

Der Wortschatzumfang ist ein Eckpfeiler der Sprachkompetenz und beeinflusst das Leseverständnis, die Hörfähigkeit und die Geschwindigkeit der Worterkennung. Der Polnische Wortschatzumfangstest (PVST) führt einen neuartigen adaptiven Ansatz ein, der auf der Item-Response-Theorie (IRT) basiert, um den rezeptiven Wortschatz sowohl bei polnischen Muttersprachlern als auch bei Nicht-Muttersprachlern zu bewerten. Diese Pilotstudie zielt darauf ab, den PVST als ein zuverlässiges, zeiteffizientes Werkzeug zu validieren, das die Grenzen traditioneller Tests mit festen Itemsätzen wie dem Vocabulary Size Test (VST) und LexTale überwindet.

3. Literaturüberblick

3.1 Wortschatzumfangstests

Traditionelle Tests wie der VST (Nation & Beglar, 2007) und LexTale (Lemhöfer & Broersma, 2012) werden häufig eingesetzt, leiden jedoch unter Problemen wie Ergebnisinflation durch Raten, mangelnder Replizierbarkeit und geringer Trennschärfe zwischen verschiedenen Kompetenzstufen. Der VST verwendet die Mehrfachauswahl zur Erkennung von Synonymen, während LexTale lexikalische Entscheidungsaufgaben einsetzt. Beide wurden an mehrere Sprachen angepasst, weisen jedoch kritische Mängel in Bezug auf Reliabilität und Validität auf.

3.2 Computergestütztes adaptives Testen (CAT)

CAT, das auf der IRT basiert, wählt Items dynamisch basierend auf den vorherigen Antworten des Testteilnehmers aus, was die Genauigkeit erhöht und die Testlänge reduziert. Golovin (2015) entwickelte einen adaptiven Online-Wortschatzumfangstest (AoVST) für das Russische, der eine hohe Validität und einen nichtlinearen Zusammenhang zwischen Wortschatz und Alter aufwies. Der PVST baut auf dieser Methodik für das Polnische auf.

4. Methodik

4.1 Testdesign und Itemauswahl

Der PVST verwendet einen Pool von 500 polnischen Wörtern, die mit dem Rasch-Modell kalibriert wurden. Die Items werden adaptiv basierend auf der geschätzten Fähigkeit des Testteilnehmers ausgewählt, wobei jede Antwort die Fähigkeitsschätzung mittels Maximum-Likelihood-Schätzung aktualisiert. Der Test wird beendet, wenn der Standardfehler der Schätzung unter 0,3 Logits fällt.

4.2 Teilnehmer und Ablauf

Eine Stichprobe von 1.200 Teilnehmern (800 polnische Muttersprachler, 400 Nicht-Muttersprachler) absolvierte den PVST online. Die Muttersprachler waren zwischen 18 und 70 Jahre alt, während die Nicht-Muttersprachler mindestens das Sprachniveau B1 hatten. Der Test dauerte durchschnittlich 12 Minuten.

5. Ergebnisse

5.1 Verteilung des Wortschatzumfangs

Muttersprachler zeigten einen durchschnittlichen rezeptiven Wortschatz von 45.000 Wörtern (SD = 8.200), während Nicht-Muttersprachler durchschnittlich 18.000 Wörter (SD = 5.400) erreichten. Die Verteilung bei Muttersprachlern war rechtsschief, wobei jüngere Erwachsene (18-30) höhere Werte erzielten als ältere Erwachsene (60+).

5.2 Korrelation zwischen Alter und Wortschatz

Es wurde eine signifikante nichtlineare Korrelation zwischen Alter und Wortschatzumfang bei Muttersprachlern festgestellt (R² = 0,34, p < 0,001), wobei der Wortschatz in der Altersgruppe der 25- bis 35-Jährigen seinen Höhepunkt erreichte und nach dem 50. Lebensjahr allmählich abnahm. Dies deckt sich mit den Ergebnissen von Keuleers et al. (2015) für das Niederländische.

6. Diskussion

Der PVST unterscheidet erfolgreich zwischen Muttersprachlern und Nicht-Muttersprachlern und erfasst altersbedingte Wortschatztrends. Seine adaptive Natur reduziert die Testzeit im Vergleich zu Tests mit fester Länge um 40 %, während eine hohe Reliabilität (Cronbachs α = 0,92) erhalten bleibt. Der Test adressiert die Hauptkritikpunkte an VST und LexTale, indem er Raten minimiert und präzisere Fähigkeitsschätzungen liefert.

7. Ursprüngliche Analyse

Der PVST stellt einen bedeutenden methodischen Fortschritt in der Wortschatzbewertung dar, indem er IRT-basiertes adaptives Testen nutzt, um langjährige Probleme der Testeffizienz und -genauigkeit zu lösen. Im Gegensatz zu traditionellen Tests mit festen Itemsätzen, die die Ergebnisse oft durch Raten aufblähen (Coxhead et al., 2014), passt der adaptive Algorithmus des PVST die Itemschwierigkeit an das Individuum an und reduziert so den Messfehler. Dieser Ansatz wird durch die Forschung zu CAT im Bildungswesen gestützt, die zeigt, dass adaptive Tests mit 50 % weniger Items die gleiche Genauigkeit wie feste Tests erreichen können (Weiss, 2011). Die starke Korrelation zwischen Alter und Wortschatzumfang bei Muttersprachlern (R² = 0,34) spiegelt Muster wider, die in groß angelegten Studien zum Englischen (Brysbaert et al., 2016) und Niederländischen (Keuleers et al., 2015) beobachtet wurden, und bestätigt, dass das Wortschatzwachstum im frühen Erwachsenenalter ein Plateau erreicht und in späteren Jahren abnimmt. Die Abhängigkeit des PVST von einem einzigen Worterkennungsformat könnte jedoch die Tiefe des Wortschatzwissens nicht erfassen, eine Einschränkung, die von Read (2023) festgestellt wurde. Zukünftige Versionen könnten mehrere Antwortformate integrieren, wie z. B. die Bedeutungserinnerung oder die kontextuelle Verwendung, um eine ganzheitlichere Bewertung zu ermöglichen. Das Potenzial des Tests für eine sprachübergreifende Anpassung ist vielversprechend, da das zugrundeliegende IRT-Framework sprachunabhängig ist, ähnlich dem Ansatz, der im russischen AoVST verwendet wird (Golovin, 2015). Aus praktischer Sicht bietet der PVST Pädagogen und Forschern ein schnelles, zuverlässiges Werkzeug für Einstufungstests und Längsschnittstudien, mit potenziellen Anwendungen im klinischen Bereich zur Bewertung des Sprachverlusts bei alternden Bevölkerungsgruppen. Die Integration von maschinellen Lernmodellen zur Verfeinerung der Item-Kalibrierung könnte die Vorhersagevalidität weiter verbessern, wie in aktuellen adaptiven Sprachbewertungen gezeigt wurde (Bohn et al., 2024). Insgesamt setzt der PVST einen neuen Standard für Wortschatztests in slawischen Sprachen und bietet ein replizierbares Modell für andere unterrepräsentierte Sprachen.

8. Technische Details

Der PVST verwendet das Rasch-Modell zur Item-Kalibrierung, wobei die Wahrscheinlichkeit einer richtigen Antwort gegeben ist durch:

$P(X_{ij}=1|\theta_i, b_j) = \frac{e^{(\theta_i - b_j)}}{1 + e^{(\theta_i - b_j)}}$

wobei $\theta_i$ die Fähigkeit der Person $i$ und $b_j$ die Schwierigkeit des Items $j$ ist. Der Test verwendet einen Bayes'schen adaptiven Algorithmus, um das nächste Item auszuwählen, das die Information bei der aktuellen Fähigkeitsschätzung maximiert. Die Abbruchregel basiert auf dem Standardfehler von $\theta$, der auf SE < 0,3 Logits festgelegt ist.

9. Experimentelle Ergebnisse und Abbildungen

Abbildung 1: Verteilung des Wortschatzumfangs für Muttersprachler (blau) und Nicht-Muttersprachler (rot). Muttersprachler zeigen eine breitere Spanne (20.000-70.000 Wörter) mit einem Höhepunkt bei etwa 45.000, während Nicht-Muttersprachler zwischen 10.000-30.000 Wörtern gruppiert sind.

Abbildung 2: Streudiagramm von Alter vs. Wortschatzumfang für Muttersprachler mit einer Loess-Glättungskurve, die einen Höhepunkt im Alter von 30 Jahren und einen allmählichen Rückgang nach 55 zeigt. Die nichtlineare Anpassung (R² = 0,34) zeigt, dass das Alter 34 % der Varianz im Wortschatzumfang erklärt.

Tabelle 1: Vergleich der Testmerkmale: PVST (12 Min., 30 Items im Durchschnitt, α=0,92) vs. VST (25 Min., 140 Items, α=0,88) vs. LexTale (15 Min., 60 Items, α=0,85). Der PVST zeigt eine überlegene Effizienz und Reliabilität.

10. Beispiel eines Analyseframeworks

Fallstudie: Einsatz des PVST in einem universitären Einstufungstest

Eine Universität setzt den PVST bei 200 neu eingeschriebenen internationalen Studierenden ein. Der Test identifiziert 30 Studierende mit einem Wortschatz unter 15.000 Wörtern und empfiehlt ihnen einen vorbereitenden Sprachkurs. Nach einem Semester zeigt ein erneuter Test einen durchschnittlichen Zuwachs von 4.200 Wörtern, was die Sensitivität des Tests gegenüber Unterrichtseinflüssen bestätigt. Der adaptive Algorithmus stellt sicher, dass jeder Studierende Items sieht, die seinem Niveau angemessen sind, was Frustration und Testermüdung reduziert.

11. Zukünftige Anwendungen und Richtungen

Der PVST kann erweitert werden, um den produktiven Wortschatz zu bewerten, indem eine tippbasierte Abrufkomponente integriert wird. Die Integration mit Modellen der natürlichen Sprachverarbeitung (NLP) könnte eine Echtzeitanalyse des Wortschatzgebrauchs in Schreibaufgaben ermöglichen. Zukünftige Versionen könnten multimediale Reize (Audio, Bilder) umfassen, um multimodales Wortschatzwissen zu bewerten. Sprachübergreifende Anpassungen für andere slawische Sprachen (z. B. Tschechisch, Ukrainisch) sind unter Verwendung desselben IRT-Frameworks geplant. In der klinischen Neuropsychologie könnte der PVST aufgrund seiner Sensitivität gegenüber altersbedingten Wortschatzveränderungen als Screening-Instrument für Sprachverlust bei Demenz dienen.

12. Literaturverzeichnis

Bohn, M., et al. (2024). Adaptive vocabulary tests for children. Language Learning, 74(1), 45-78.
Brysbaert, M., et al. (2016). How many words do we know? Frontiers in Psychology, 7, 1116.
Coxhead, A., et al. (2014). The Vocabulary Size Test: A critical review. Applied Linguistics, 35(2), 201-220.
Golovin, G. (2015). Adaptive online vocabulary size test for Russian. Russian Language Studies, 12(3), 55-72.
Keuleers, E., et al. (2015). Vocabulary size in Dutch. Behavior Research Methods, 47(4), 1001-1015.
Lemhöfer, K., & Broersma, M. (2012). Introducing LexTale. Behavior Research Methods, 44(2), 325-343.
Nation, I.S.P., & Beglar, D. (2007). A vocabulary size test. JALT Journal, 29(1), 9-24.
Read, J. (2023). Assessing vocabulary depth. Language Testing, 40(3), 567-589.
Weiss, D.J. (2011). Adaptive testing in education. Educational Measurement, 30(4), 3-15.

13. Expertenkommentar

Kernaussage: Der PVST ist nicht nur ein weiterer Wortschatztest – er ist ein Paradigmenwechsel von statischen Einheitsbewertungen hin zu dynamischen, personalisierten Messungen. Durch die Nutzung der IRT löst er das Rateproblem, das Multiple-Choice-Tests plagt, und liefert eine Präzision, von der feste Tests nur träumen können.

Logischer Aufbau: Die Autoren identifizieren korrekt die Schwächen von VST und LexTale (Ergebnisinflation, mangelnde Replizierbarkeit) und schlagen CAT als logische Alternative vor. Die Pilotdaten zeigen überzeugend, dass der PVST schneller, zuverlässiger und empfindlicher für Alterseffekte ist. Der Fortschritt von der Problemidentifikation über die Lösung zur Validierung ist lehrbuchhaft perfekt.

Stärken & Schwächen: Die größte Stärke ist der adaptive Algorithmus – er verkürzt die Testzeit um 40 % bei gleichzeitiger Steigerung der Reliabilität. Die Alters-Wortschatz-Korrelation (R²=0,34) ist robust und deckt sich mit früheren Arbeiten. Der Test misst jedoch nur die Tiefe des rezeptiven Wortschatzes über ein einziges Format (Worterkennung). Dies ist ein schmaler Ausschnitt der lexikalischen Kompetenz. Außerdem ist die Stichprobe von 1.200 Teilnehmern anständig, aber nicht riesig; der Test muss an größeren, vielfältigeren Populationen validiert werden, einschließlich klinischer Gruppen.

Handlungsorientierte Erkenntnisse: Für Forscher: Nutzen Sie den PVST für Längsschnittstudien zum Wortschatzwachstum – seine Präzision wird kleine Effektstärken erkennen. Für Pädagogen: Führen Sie den PVST für Einstufungstests ein; er ist schneller und genauer als papierbasierte Tests. Für Testentwickler: Erweitern Sie den PVST um produktive und kontextuelle Maße und erkunden Sie die NLP-Integration für die automatische Item-Generierung. Die Zukunft ist adaptiv – bleiben Sie nicht mit statischen Tests zurück.