Fallstudie: Prompt-Engineering-Strategien von EFL-Schüler:innen der Sekundarstufe mit ChatGPT für Schreibaufgaben

Inhaltsverzeichnis

1. Einleitung

Das Aufkommen modernster (State-of-the-Art, SOTA) generativer KI-Chatbots wie ChatGPT hat einen Paradigmenwechsel im Sprachlernen und bei der Schreibunterstützung bewirkt. Im Gegensatz zu regelbasierten Vorgängern können diese auf neuronalen Netzwerkarchitekturen wie dem Transformer basierenden Modelle kohärenten und kontextuell relevanten Text generieren. Für Lernende von Englisch als Fremdsprache (EFL) stellt dies ein mächtiges, aber komplexes Werkzeug dar. Die in dieser Studie identifizierte Kernherausforderung ist Prompt Engineering – die Fähigkeit, effektive Anweisungen zu formulieren, um gewünschte Ergebnisse von der KI zu erhalten. Ohne diese Fähigkeit sind Nutzer, insbesondere nicht-technisch versierte Schüler:innen, auf einen frustrierenden Versuch-und-Irrtum-Prozess beschränkt, was das pädagogische Potenzial des Werkzeugs einschränkt.

Diese Arbeit untersucht die neu entstehenden Prompt-Engineering-Verhaltensweisen von Schüler:innen der Sekundarstufe, die ChatGPT erstmals zur Bearbeitung einer Schreibaufgabe nutzen. Sie geht über theoretische Diskussionen hinaus und präsentiert empirische, qualitative Fallstudien, die unterschiedliche Nutzerstrategien abbilden.

2. Methodik & Datenerhebung

Die Forschung verwendet einen qualitativen Fallstudienansatz und analysiert reale Interaktionsdaten von Anfänger:innen.

2.1. Teilnehmer & Aufgabe

Die Teilnehmer waren Schüler:innen der Sekundarstufe, die zuvor keine formale Erfahrung mit SOTA-Chatbots wie ChatGPT hatten. Die Studie erfasste ihren Prozess mittels iPad-Bildschirmaufzeichnungen, während sie mit der KI interagierten, um eine definierte Schreibaufgabe zu erledigen. Diese Methodik bietet eine rohe, ungefilterte Sicht auf den Mensch-KI-Kollaborationsprozess.

2.2. Datenanalyse-Framework

Die Bildschirmaufzeichnungen wurden transkribiert und analysiert, um folgende Aspekte zu kodieren:

Prompt-Inhalt: Die sprachlichen und instruktionalen Komponenten jeder Schüleranfrage (z.B. Aufgabenbeschreibung, Stilanforderungen, Einschränkungen).
Prompt-Quantität: Die Anzahl der zur Aufgabenerledigung verwendeten Prompts.
Interaktionsmuster: Die Abfolge und Art von Folgeprompts basierend auf den KI-Antworten.
Ergebnisqualität: Die Eignung des finalen KI-generierten Textes für die gestellte Aufgabe.

Aus dieser Analyse wurden vier archetypische Nutzerstrategien identifiziert und zu detaillierten Fallstudien ausgearbeitet.

3. Fallstudien: Vier Prompt-Engineering-Strategien

Die Analyse kristallisierte vier distinkte Verhaltensmuster heraus, die ein Spektrum der Prompt-Engineering-Kompetenz abbilden.

3.1. Strategie A: Der Minimalist

Diese:r Schüler:in verwendete eine sehr geringe Anzahl von Prompts (z.B. 1-2). Der erste Prompt war oft eine einfache, direkte Übersetzung der Aufgabenstellung (z.B. „Schreibe einen Aufsatz über den Klimawandel“). Sie zeigte minimales Engagement mit der KI-Ausgabe und akzeptierte das erste Ergebnis mit wenig bis keiner Verfeinerung. Diese Strategie verdeutlicht ein Werkzeug-als-Orakel-Missverständnis, bei dem die KI als Lieferant einer vollständigen, endgültigen Antwort und nicht als kollaborativer Partner gesehen wird.

3.2. Strategie B: Der Iterative Verbesserer

Diese:r Schüler:in verwendete eine moderate Anzahl von Prompts in einer linearen, iterativen Abfolge. Sie begann mit einem einfachen Prompt, überprüfte die Ausgabe und gab Folgeanweisungen für spezifische Verbesserungen (z.B. „Mach es länger“, „Verwende einfachere Wörter“). Diese Strategie zeigt ein beginnendes Verständnis für die Reaktionsfähigkeit der KI auf Anweisungen, bleibt aber innerhalb eines grundlegenden Überarbeitungsanfrage-Rahmens.

3.3. Strategie C: Der Strukturierte Nachfrager

Diese:r Schüler:in setzte eine höhere Anzahl von Prompts mit einem strategischen, mehrstufigen Ansatz ein. Sie könnte die KI zunächst bitten, „drei Ideen für einen Aufsatz über X zu brainstormen“, dann eine auswählen, dann eine Gliederung anfordern und schließlich einen Entwurf basierend auf dieser Gliederung erbitten. Diese Strategie spiegelt eine anspruchsvollere metakognitive Strategie wider, die den Schreibprozess aufgliedert und die KI für strukturierte Unterstützung in jeder Phase nutzt.

3.4. Strategie D: Der Versuch-und-Irrtum-Entdecker

Diese:r Schüler:in verwendete eine große Menge an Prompts mit erheblicher Variation, aber wenig erkennbarer Strategie. Die Prompts wechselten dramatisch in Fokus und Stil (z.B. von formal zu umgangssprachlich, von breit zu eng) ohne klare Progression. Diese Strategie verkörpert das unstrukturierte Experimentieren, das die Anfängererfahrung charakterisiert, was oft zu Verwirrung und ineffizienter Zeitnutzung führt, gelegentlich aber auch kreative Ergebnisse hervorbringen kann.

4. Zentrale Ergebnisse & Analyse

4.1. Muster in Prompt-Qualität und -Quantität

Die Studie fand keine einfache Korrelation zwischen der Anzahl der Prompts und der Qualität des Endergebnisses. Strategie C (Strukturierter Nachfrager) erzeugte oft den aufgabenangemessensten Text, nicht unbedingt durch die meisten Prompts, sondern durch die strategischsten und qualitativ hochwertigsten Prompts. Qualität wurde durch Spezifität, Kontextbereitstellung und Aufgliederung der Aufgabe definiert. Ein einziger gut konstruierter Prompt (z.B. „Schreibe einen 300-Wörter-Überzeugungsaufsatz für ein Schulmagazin, der sich für mehr Recyclingbehälter auf dem Campus ausspricht, verwende zwei Statistiken und einen Aufruf zum Handeln“) konnte ein Dutzend vager Prompts übertreffen.

Interaktionszusammenfassung

Strategie C (Strukturiert) erzielte durchgängig die von unabhängigen Gutachtern am höchsten bewerteten Endentwürfe, obwohl nicht immer die meisten Interaktionsschritte verwendet wurden. Strategie D (Versuch-und-Irrtum) wies die größte Varianz in der Ergebnisqualität auf.

4.2. Die Rolle von KI-Kompetenz

Die Strategien veranschaulichen deutlich unterschiedliche Grade impliziter KI-Kompetenz. Schüler:innen der Strategien A und D fehlte ein funktionales mentales Modell davon, wie ChatGPT Anfragen verarbeitet. Im Gegensatz dazu zeigten Schüler:innen der Strategien B und C ein aufkeimendes Verständnis der KI als ein stochastisches, anweisungsbefolgendes System. Sie begriffen intuitiv, dass klarere, strukturiertere Eingaben zu vorhersehbareren und nützlicheren Ausgaben führen. Dieser Befund unterstützt direkt Forderungen von Organisationen wie der International Society for Technology in Education (ISTE), Grundlagen der KI-Kompetenz in die Curricula der Primar- und Sekundarstufe zu integrieren.

5. Technisches Framework & Analyse

Das Verständnis dieser Strategien erfordert eine technische Betrachtung. ChatGPT und ähnliche Modelle basieren auf der Transformer-Architektur und sind im Kern nächstes-Token-Prädiktoren. Die Wahrscheinlichkeit, eine spezifische Ausgabesequenz $O$ bei gegebenem Eingabe-Prompt $P$ zu generieren, wird modelliert als: $$P(O|P) = \prod_{t=1}^{|O|} P(o_t | P, o_1, ..., o_{t-1})$$ wobei $o_t$ das Token an Position $t$ ist. Der Prompt $P$ einer/s Schüler:in setzt den initialen Kontext und die Wahrscheinlichkeitsverteilung für die Ausgabe.

Beispiel für ein Analyse-Framework: Wir können eine Prompt-Engineering-Sitzung einer/s Schüler:in als Zustandsautomat modellieren. Sei der Zustand (S) das aktuelle Kontextfenster der Konversation (die letzten $k$ Tokens). Die Aktion (A) ist der nächste Prompt der/s Schüler:in. Die Belohnung (R) ist die wahrgenommene Nützlichkeit der KI-Antwort (z.B. eine subjektive Bewertung von 1-5). Das Ziel der/s Schüler:in ist es, eine Policy $\pi$ zu erlernen, die Zustände auf Aktionen abbildet, um die kumulative Belohnung zu maximieren. Die vier Strategien repräsentieren unterschiedliche, oft suboptimale Explorations-Policies für dieses Verstärkungslernproblem, mit dem der menschliche Nutzer konfrontiert ist.

Diagrammbeschreibung: Ein konzeptionelles Diagramm würde Prompt-Spezifität (X-Achse) gegen Aufgabendekomposition (Y-Achse) abtragen. Strategie A (Minimalist) würde sich im niedrig-niedrig-Quadranten ballen. Strategie D (Versuch-und-Irrtum) würde eine verstreute Wolke über das gesamte Diagramm zeigen. Strategie B (Iterativer Verbesserer) würde eine horizontale Bewegung nach rechts (zunehmende Spezifität) zeigen. Strategie C (Strukturierter Nachfrager) würde den hoch-hoch-Quadranten einnehmen und sowohl hohe Spezifität als auch hohe Nutzung der Aufgabendekomposition in ihren Prompts demonstrieren.

6. Pädagogische Implikationen & Zukunftsperspektiven

Kernimplikation: Schüler:innen dem selbständigen Entdecken von Prompt Engineering durch Versuch und Irrtum zu überlassen, ist pädagogisch ineffizient und ungerecht. Es begünstigt Schüler:innen, die von Natur aus strategisches Denken entwickeln (Strategie C), und benachteiligt andere.

Umsetzbare Strategie: Explizite, gestufte Prompt-Engineering-Anleitung muss in die EFL-Schreibdidaktik integriert werden. Dazu gehört:

Die Vermittlung des „Rolle-Ziel-Format-Einschränkungen“-Prompt-Frameworks.
Die Demonstration iterativer Verfeinerung (z.B. strategische Nutzung von ChatGPTs „Neu generieren“- oder „Fortsetzen“-Funktionen).
Die kritische Bewertung von KI-Ausgaben auf Voreingenommenheit, Genauigkeit und Stil.

Zukünftige Forschung & Entwicklung:

Adaptive Lernoberflächen: Zukünftige KI-Schreibassistenten könnten die Strategie eines Nutzers erkennen (z.B. minimalistische Prompts) und kontextuelle Hinweise oder Tutorials anbieten, um sie zu effektiveren Strategien hinzuführen.
Prompt-Bibliotheken & Vorlagen: Entwicklung kuratierter, niveaugerechter Prompt-Vorlagen für gängige EFL-Schreibaufgaben (z.B. „Vergleiche-und-Kontrastiere-Aufsatz-Generator“).
Längsschnittstudien: Verfolgung, wie sich die Prompt-Engineering-Strategien von Schüler:innen mit Anleitung und Erfahrung über die Zeit entwickeln.
Sprach- und kulturübergreifende Studien: Untersuchung, ob sich Prompt-Engineering-Strategien zwischen Sprachen und Bildungskulturen signifikant unterscheiden.

7. Literaturverzeichnis

Woo, D. J., Guo, K., & Susanto, H. (2023). Cases of EFL Secondary Students’ Prompt Engineering Pathways to Complete a Writing Task with ChatGPT. Manuskript in Vorbereitung.
Caldarini, G., Jaf, S., & McGarry, K. (2022). A Literature Survey of Recent Advances in Chatbots. Information, 13(1), 41.
Long, D., & Magerko, B. (2020). What is AI Literacy? Competencies and Design Considerations. Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, 1–16.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
International Society for Technology in Education (ISTE). (2023). AI Explorations for Educators. Abgerufen von iste.org.
Zhao, W. X., et al. (2023). A Survey of Large Language Models. arXiv preprint arXiv:2303.18223.

8. Analystenperspektive: Die Mensch-KI-Schreibpartitur dekonstruiert

Kernerkenntnis: Diese Studie handelt nicht wirklich von ChatGPT; sie ist eine deutliche Offenbarung des unvorbereiteten Menschen in der Mensch-KI-Rückkopplungsschleife. Das Werkzeug ist exponentiell leistungsfähiger als die Fähigkeit des Nutzers, es zu lenken. Die vier Strategien sind nicht nur Verhaltensweisen; sie sind diagnostische Marker für eine neue Form des digitalen Analphabetismus. Die eigentliche Produktlücke ist kein besseres LLM, sondern eine bessere menschliche Schnittstellenebene, die Interaktionsstrategie in Echtzeit lehrt.

Logischer Ablauf: Das Papier identifiziert korrekt das Problem (Versuch und Irrtum ist der Standard) und liefert elegante, empirische Belege durch die Strategien-Taxonomie. Der logische Sprung, den es macht – und das ist entscheidend – ist, dass diese Anfänger-Verhaltensweisen keine vorübergehende Phase sind. Ohne Intervention können sich die Strategien des Minimalisten und des Versuch-und-Irrtum-Entdeckers zu dauerhaften, suboptimalen Nutzungsmustern verfestigen und eine Machtasymmetrie zementieren, bei der der Nutzer von den Werkzeugvorgaben geleitet wird, anstatt es zu lenken. Dies deckt sich mit breiteren Bedenken in der HCI-Forschung, wie sie etwa in Arbeiten zu „Automation Bias“ und „Skill Decay“ in hochgradig assistierten Systemen diskutiert werden.

Stärken & Schwächen: Die Stärke ist ihre fundierte, beobachtende Methodik. Bildschirmaufzeichnungen lügen nicht. Der größte, implizit eingeräumte Mangel ist der Umfang. Vier Strategien aus einer begrenzten Stichprobe sind überzeugende Archetypen, keine definitiven Kategorien. Die Studie umgeht auch das offensichtliche Problem: Leistungsbewertung. Wenn ein Minimalist von einer überlasteten Lehrkraft für einen KI-generierten Aufsatz eine ausreichende Note erhält, welchen Anreiz hat er/sie dann, Prompt Engineering zu lernen? Die pädagogischen Empfehlungen des Papiers setzen auf ein System, das den Prozess über das Produkt stellt, was die meisten aktuellen Bewertungsrahmen in der Bildung nicht tun.

Umsetzbare Erkenntnisse: Für EdTech-Investoren und -Entwickler ist die Erkenntnis klar: Die nächste Wertschöpfungswelle liegt im Prompt-Engineering-Scaffolding. Denken Sie an Grammarly für Prompts – eine Überlagerung, die den vagen Befehl eines Schülers analysiert und vorschlägt: „Versuchen Sie, eine Zielgruppe und eine Wortanzahl hinzuzufügen. Klicken Sie hier, um ein Beispiel zu sehen.“ Für Schuladministratoren besteht der Auftrag darin, nicht nur die berufliche Weiterbildung zur Nutzung von KI, sondern auch zur Vermittlung der Pädagogik der Interaktion mit KI zu finanzieren. Diese Studie liefert den perfekten Beleg, um für diesen Budgetposten zu argumentieren. Schließlich ist das Strategien-Framework für Forschende eine replizierbare Linse. Wenden Sie es auf Fachleute an, die KI für Coding (GitHub Copilot), Design oder Rechtsrecherche nutzen. Ich prognostiziere, dass Sie dieselben vier Archetypen finden werden, was beweist, dass dies eine grundlegende Mensch-Computer-Interaktionsherausforderung und nicht nur ein EFL-Problem ist.