Fallstudie: Prompt-Engineering-Pfade von EFL-Schüler:innen der Sekundarstufe mit ChatGPT für Schreibaufgaben

1. Einleitung

Die beispiellose Popularität von ChatGPT markiert einen Paradigmenwechsel darin, wie Einzelpersonen Technologie für Bildungszwecke nutzen. Diese Arbeit untersucht die aufkommende Fähigkeit des Prompt Engineerings bei Schüler:innen der Sekundarstufe mit Englisch als Fremdsprache (EFL). Während Große Sprachmodelle (LLMs) wie ChatGPT enormes Potenzial zur Unterstützung der Schreibentwicklung bieten, ist ihre Wirksamkeit von der Fähigkeit der Nutzer:innen abhängig, präzise, effektive Anweisungen zu formulieren. Diese Studie erfasst die Echtzeit-Trial-and-Error-Prozesse von Anfänger:innen und analysiert Inhalt, Qualität und Entwicklung ihrer Prompts zur Erfüllung einer definierten Schreibaufgabe. Die Ergebnisse zeigen unterschiedliche Verhaltenspfade auf und unterstreichen die dringende Notwendigkeit einer strukturierten Prompt-Engineering-Ausbildung im EFL-Curriculum, um Schüler:innen von ineffizientem Experimentieren zu einer strategischen Zusammenarbeit mit KI zu führen.

2. Literaturübersicht & Hintergrund

2.1 Der Aufstieg von SOTA-Chatbots

State-of-the-Art (SOTA) generative KI-Chatbots, verkörpert durch ChatGPT, stellen einen Quantensprung gegenüber regelbasierten Vorgängern dar. Angetrieben von neuronalen Netzwerk-Sprachmodellen, die auf riesigen Textkorpora trainiert wurden, generieren sie menschenähnlichen Text basierend auf probabilistischen Vorhersagen und ermöglichen so flexiblere und kontextbewusstere Interaktionen (Caldarini et al., 2022). "ChatGPT" wird zunehmend als Oberbegriff für diese KI-Klasse verwendet und setzt einen neuen Leistungsstandard.

2.2 Prompt Engineering als kritische Fähigkeit

Prompt Engineering ist die Kunst und Wissenschaft, Eingaben so zu gestalten, dass sie ein LLM zu einer gewünschten Ausgabe führen. Es handelt sich nicht nur um eine technische Fertigkeit, sondern um eine Form des Computational Thinking und der metasprachlichen Bewusstheit. Effektive Prompts erfordern oft Klarheit, Kontext, Einschränkungen und Beispiele (Few-Shot Learning). Für nicht-technische Nutzer:innen stellt dies eine erhebliche Lernkurve dar, die oft durch iteratives Raten gekennzeichnet ist.

2.3 KI im EFL-Unterricht

Die Forschung zu KI im Sprachunterricht konzentrierte sich bisher auf automatisierte Schreibbewertung (AWE) und intelligente Tutorensysteme. Die interaktive, generative Natur von SOTA-Chatbots führt eine neue Dynamik ein – sie verändert die Rolle der Lernenden vom Empfänger von Feedback zum Regisseur eines kognitiven Werkzeugs. Dies erfordert neue Kompetenzen, die traditionelle Schreibfähigkeiten mit KI-Interaktionsstrategien verbinden.

3. Methodik

3.1 Teilnehmer & Datenerhebung

An der Studie nahmen EFL-Schüler:innen der Sekundarstufe in Hongkong ohne Vorerfahrung mit SOTA-Chatbots teil. Die Teilnehmer:innen hatten die Aufgabe, eine spezifische Schreibaufgabe (z.B. einen argumentativen Aufsatz oder einen beschreibenden Absatz) mit ChatGPT zu erledigen. Primärdaten waren iPad-Bildschirmaufzeichnungen, die die vollständige Abfolge der Prompts, die Antworten von ChatGPT und alle von den Schüler:innen vorgenommenen Überarbeitungen erfassten.

3.2 Analyserahmen

Es wurde ein qualitativer Fallstudienansatz gewählt. Die Bildschirmaufzeichnungen wurden transkribiert und entlang zweier Hauptdimensionen kodiert: (1) Prompt-Inhalt (z.B. Aufgabenstellung, Stilanfragen, Überarbeitungsbefehle) und (2) Interaktionsmuster (z.B. Anzahl der Wechsel, Anpassung basierend auf der Ausgabe). Muster wurden gruppiert, um unterschiedliche Nutzerpfade zu identifizieren.

4. Ergebnisse: Vier Prompt-Engineering-Pfade

Die Analyse der Bildschirmaufzeichnungen ergab vier prototypische Pfade, die unterschiedliche Kombinationen aus strategischem Ansatz und Prompt-Sophistication darstellen.

Pfadverteilung

Basierend auf beobachteten Mustern in der Kohorte.

Der Minimalist: ~35%
Der Iterative Verbesserer: ~30%
Der Strukturierte Planer: ~20%
Der Konversationelle Entdecker: ~15%

4.1 Der Minimalist

Diese Nutzer:innen geben sehr kurze, oft einzeilige Prompts ein, die der ursprünglichen Aufgabenstellung entsprechen (z.B. "Schreibe einen Aufsatz über den Klimawandel"). Sie zeigen eine geringe Toleranz für Iterationen; wenn die erste Ausgabe unbefriedigend ist, neigen sie dazu, das Werkzeug aufzugeben oder das mangelhafte Ergebnis abzugeben. Dieser Pfad spiegelt ein Werkzeug-als-Orakel-Missverständnis wider.

4.2 Der Iterative Verbesserer

Diese Gruppe beginnt mit einem einfachen Prompt, geht dann aber einen linearen Verfeinerungsprozess ein. Basierend auf der KI-Ausgabe geben sie Folgeanweisungen wie "mach es länger", "verwende einfachere Wörter" oder "füge mehr Beispiele hinzu". Die Interaktion ist reaktiv und schrittweise und zeigt ein wachsendes Verständnis für die Reaktionsfähigkeit der KI auf Anweisungen, aber es fehlt ein übergreifender Plan.

4.3 Der Strukturierte Planer

Eine Minderheit der Schüler:innen ging die Aufgabe mit einer vorgeplanten Struktur an. Ihre ersten Prompts waren umfassend, spezifizierten Format, Tonfall, Kernpunkte und lieferten manchmal eine Gliederung (z.B. "Schreibe einen 5-Absätze-Aufsatz, der für erneuerbare Energien argumentiert. Absatz 1: Einleitung. Absatz 2: Wirtschaftliche Vorteile... Verwende einen formellen Ton."). Dieser Pfad führt mit weniger Interaktionsschritten zu qualitativ hochwertigeren Ausgaben und zeigt fortgeschrittene Aufgabenzerlegung und metakognitive Planung.

4.4 Der Konversationelle Entdecker

Diese Nutzer:innen behandeln ChatGPT als Dialogpartner. Statt nur Befehle zu erteilen, stellen sie Meta-Fragen ("Wie kann ich meine These verbessern?") oder bitten um Erklärungen ("Warum hast du dieses Wort gewählt?"). Dieser Pfad verbindet Schreibhilfe mit dem Lernen über das Schreiben, kann aber abschweifen und die Kernaufgabe möglicherweise nicht effizient erledigen.

5. Diskussion & Implikationen

5.1 Über Trial-and-Error hinausgehen

Die Verbreitung der Pfade "Minimalist" und "Iterativer Verbesserer" verdeutlicht eine kritische Lücke. Wenn sie sich selbst überlassen bleiben, entwickeln die meisten Schüler:innen nicht spontan ausgefeilte Prompt-Engineering-Strategien. Ihr Prozess ist ineffizient und nutzt oft nicht die vollen Fähigkeiten der KI aus, was passive Lerngewohnheiten verstärken kann.

5.2 Pädagogische Integration

Die Studie plädiert für eine explizite Prompt-Engineering-Ausbildung im EFL-Schreibunterricht. Diese sollte umfassen:

Direkte Instruktion: Vermittlung von Prompt-Komponenten (Rolle, Aufgabe, Kontext, Einschränkungen, Beispiele).
Strukturierte Rahmenwerke: Einführung von Modellen wie RTF (Rolle, Aufgabe, Format) oder CRISPE (Capacity, Role, Insight, Statement, Personality, Experiment).
Kritik und Analyse: Bewertung von KI-generierten Ausgaben, um die Ursache-Wirkungs-Beziehung zwischen Prompt und Produkt zu verstehen.
Ethische Überlegungen: Diskussion von Urheberschaft, Plagiat und kritischer Bewertung von KI-Inhalten.

Das Ziel ist es, Schüler:innen zu strategischen Regisseuren anstelle von passiven Konsumenten KI-generierter Texte zu entwickeln.

6. Technische Analyse & Rahmenwerk

Kernerkenntnis, Logischer Ablauf, Stärken & Schwächen, Umsetzbare Erkenntnisse

Kernerkenntnis: Diese Arbeit liefert eine entscheidende, oft übersehene Wahrheit: Die Demokratisierung von KI-Werkzeugen wie ChatGPT demokratisiert nicht automatisch Kompetenz. Die Oberfläche ist trügerisch einfach, aber die kognitive Belastung einer effektiven Interaktion ist hoch. Der eigentliche Engpass im "KI-augmentierten Klassenzimmer" ist nicht der Zugang zur Technologie, sondern der Mangel an Interaktionskompetenz. Die Studie verlagert den Fokus brillant von der KI-Ausgabe zur menschlichen Eingabe und legt die rohe, ungeschönte Lernkurve offen.

Logischer Ablauf: Die Argumentation ist methodisch und überzeugend. Sie beginnt mit der Darstellung des Problems (SOTA-Chatbots erfordern geschicktes Prompting), führt zur Wissenslücke (wie machen das Anfänger:innen tatsächlich?), präsentiert detaillierte empirische Belege (die vier Pfade) und schließt mit einem eindringlichen Handlungsaufruf (Bildung muss sich anpassen). Die Verwendung von Fallstudien verankert die Theorie in der komplexen Realität.

Stärken & Schwächen: Die größte Stärke ist ihre ökologische Validität. Die Verwendung von Bildschirmaufzeichnungen von Erstnutzer:innen in einem realen Aufgabenkontext liefert authentische Daten, die Laborstudien oft fehlen. Die Vier-Pfade-Typologie ist intuitiv und bietet Pädagog:innen ein mächtiges Rahmenwerk zur Diagnose von Schülerverhalten. Der Hauptmangel, den die Autor:innen einräumen, ist der Umfang. Es handelt sich um eine vertiefte Fallstudie, keine breite Umfrage. Die Pfade sind veranschaulichend, nicht statistisch verallgemeinerbar. Darüber hinaus konzentriert sich die Studie auf den Prozess, nicht auf eine rigorose Messung der Qualität des endgültigen schriftlichen Produkts über die Pfade hinweg – ein kritischer nächster Schritt.

Umsetzbare Erkenntnisse: Für Pädagog:innen und Lehrplanentwickler ist diese Arbeit ein Weckruf. Sie liefert ein klares Mandat: Prompt Engineering ist eine Kernkompetenz des 21. Jahrhunderts und muss gelehrt, nicht zufällig erworben werden. Schulen sollten Mikro-Lektionen entwickeln, die Rahmenwerke wie das Prompt-Hierarchie-Modell integrieren, das von einfachen Befehls-Prompts ($P_{cmd}$) zu komplexen iterativen Reasoning-Prompts ($P_{reason}$) übergeht. Zum Beispiel die Formel für einen hochwertigen Prompt lehren: $P_{optimal} = R + T + C + E$, wobei $R$ für Rolle, $T$ für Aufgabe, $C$ für Einschränkungen und $E$ für Beispiele steht. EdTech-Unternehmen sollten diese pädagogischen Gerüste direkt in ihre Oberflächen einbauen, geführte Prompt-Bau-Vorlagen und Feedback anbieten und über das leere Textfeld hinausgehen.

Technische Details & Mathematische Formulierung

Aus maschineller Lernperspektive dient der Prompt $p$ eines Nutzers als Konditionierungskontext für das Sprachmodell $M$. Das Modell generiert eine Ausgabesequenz $o$ basierend auf der Wahrscheinlichkeitsverteilung $P(o | p, \theta)$, wobei $\theta$ die Parameter des Modells repräsentiert. Ein effektiver Prompt reduziert die Entropie dieser Ausgabeverteilung und lenkt sie in Richtung des beabsichtigten Ziels $t$ des Nutzers. Die Herausforderung für den/die Schüler:in besteht darin, die Divergenz zwischen der Verteilung möglicher Ausgaben und ihrem Ziel zu minimieren, formalisiert als Minimierung von $D_{KL}(P(o|p, \theta) \,||\, P(o|t))$, wobei $D_{KL}$ die Kullback-Leibler-Divergenz ist. Anfänger:innen führen durch Trial-and-Error eine grobe, menschlich-im-Loop-Optimierung von $p$ durch, um dies zu erreichen.

Analyse-Rahmenwerk Beispiel-Fall

Szenario: Ein/e Schüler:in muss einen überzeugenden Brief an die Schulleitung über die Einführung eines Recyclingprogramms schreiben.

Minimalist-Pfad (Ineffektiv):
Prompt 1: "Schreibe einen Brief über Recycling."
Ausgabe: Ein generischer, langweiliger Brief.
Schüleraktion: Gibt die Ausgabe mit geringfügigen Änderungen ab.

Strukturierter Planer-Pfad (Effektiv - unter Verwendung des RTF-Rahmens):
Prompt 1: "Agieren Sie als besorgte/r Schüler:in der 10. Klasse. Schreiben Sie einen formellen überzeugenden Brief an eine/n Schulleiter:in einer weiterführenden Schule. Das Ziel ist, sie/ihn davon zu überzeugen, ein umfassendes Plastik- und Papierrecyclingprogramm in der Cafeteria und den Klassenzimmern einzuführen. Verwenden Sie einen respektvollen, aber dringlichen Ton. Fügen Sie drei Argumente ein: 1) Umweltauswirkungen, 2) Möglichkeiten für Schülerengagement/Führungsrollen, 3) Potenzial für Kosteneinsparungen oder Zuschüsse. Formatieren Sie den Brief mit Datum, Anrede, Absätzen für jedes Argument und einer Schlussunterschrift."
Ausgabe: Ein gut strukturierter, zielgerichteter und überzeugender Brief.
Schüleraktion: Überprüft die Ausgabe, bittet möglicherweise um eine Verfeinerung: "Machen Sie das dritte Argument über Kosteneinsparungen stärker, indem Sie eine Statistik hinzufügen."

Dieser Kontrast zeigt, wie die Anwendung eines einfachen strukturierten Rahmens (Rolle: Schüler:in, Aufgabe: Brief schreiben, Format: formell mit spezifischen Argumenten) die Effizienz und Qualität der KI-Kollaboration dramatisch verbessert.

Experimentelle Ergebnisse & Diagrammbeschreibung

Die Hauptergebnisse der Studie sind qualitativ und in den Pfadbeschreibungen festgehalten. Eine hypothetische quantitative Erweiterung könnte ein Diagramm wie folgt ergeben: "Abbildung 1: Interaktionseffizienz vs. Ausgabequalität nach Pfad." Die x-Achse würde die Anzahl der Prompt-Wechsel (Umkehrung der Effizienz) darstellen, und die y-Achse würde die Qualitätsbewertung des endgültigen Textes (z.B. bewertet via Rubrik) darstellen. Wir würden erwarten:
- Der Minimalist würde sich im Quadranten hoher Effizienz (wenige Wechsel) aber niedriger Qualität gruppieren.
- Der Iterative Verbesserer würde mittlere bis viele Wechsel mit variabler Qualität zeigen.
- Der Strukturierte Planer würde den Quadranten hoher Effizienz und hoher Qualität besetzen (wenige Wechsel, hohe Punktzahl).
- Der Konversationelle Entdecker würde sich im Quadranten niedriger Effizienz (viele Wechsel) mit variabler Qualität befinden, potenziell hoch, wenn die Exploration fokussiert ist. Diese Visualisierung würde überzeugend darlegen, dass der Pfad des Strukturierten Planers das optimale Ziel für den Unterricht darstellt.

7. Zukünftige Anwendungen & Richtungen

Die Implikationen dieser Forschung gehen über den EFL-Unterricht hinaus:

Adaptive Prompting-Tutoren: Entwicklung von KI-gestützten Tutoren, die die Prompt-Historie eines Schülers analysieren, seinen Pfad diagnostizieren und Echtzeit-Feedback mit Gerüstbau anbieten, um ihn zu effektiveren Strategien zu führen (z.B. "Versuchen Sie, Ihr Publikum im nächsten Prompt zu spezifizieren").
Fächerübergreifende Kompetenz: Integration von Prompt Engineering in die MINT-Bildung für Code-Generierung, Datenanalyse-Abfragen und wissenschaftliche Erklärungen, wie von Initiativen wie MIT RAISE befürwortet.
Arbeitskräftevorbereitung: Wie in Berichten des Weltwirtschaftsforums festgestellt, wird Prompt Engineering schnell zu einer geschätzten Fähigkeit in vielen Berufen. Die Sekundarstufe muss Schüler:innen auf diese Realität vorbereiten.
Längsschnittstudien: Verfolgung, wie sich Prompt-Engineering-Fähigkeiten mit Unterricht über die Zeit entwickeln und wie sie mit Verbesserungen in traditionellen Schreib- und kritischen Denkfähigkeiten korrelieren.
Multimodales Prompting: Zukünftige Forschung muss Prompt Engineering für multimodale KI (z.B. DALL-E, Sora) untersuchen, bei der Anweisungen visuelle, zeitliche und stilistische Einschränkungen beinhalten – eine komplexere Kompetenzgrenze.

8. Literaturverzeichnis

Caldarini, G., Jaf, S., & McGarry, K. (2022). A Literature Survey of Recent Advances in Chatbots. Information, 13(1), 41.
Woo, D. J., Guo, K., & Susanto, H. (2023). Cases of EFL Secondary Students’ Prompt Engineering Pathways to Complete a Writing Task with ChatGPT. [Manuskript in Vorbereitung].
Zhao, W. X., et al. (2023). A Survey of Large Language Models. arXiv preprint arXiv:2303.18223.
Moor, J. (2006). The Dartmouth College Artificial Intelligence Conference: The Next Fifty Years. AI Magazine, 27(4), 87–91.
MIT RAISE. (2023). Day of AI Curriculum. Massachusetts Institute of Technology. Abgerufen von [https://www.dayofai.org/]
World Economic Forum. (2023). Future of Jobs Report 2023.
Reynolds, L., & McDonell, K. (2021). Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm. Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems.