英語を第二外国語とする中学生がChatGPTを用いたライティング課題を完了するためのプロンプトエンジニアリング経路の事例

1. はじめに

最先端（SOTA）の生成AIチャットボットであるChatGPTは、教育、特に英語を外国語として学ぶ（EFL）ライティングの文脈を変革する可能性から、絶大な人気を博しています。しかし、ChatGPTとの効果的な協働には、学生がプロンプトエンジニアリング、すなわち望ましい出力を引き出すために正確な指示を作成するスキルを習得することが必要です。本稿では、EFL中学生が初めてChatGPTを使用してライティング課題を完了する際のプロンプトの内容とパターンを調査します。4つの異なる経路の事例研究を通じて、著者らは試行錯誤のプロセスを明らかにし、EFL教室における明示的なプロンプトエンジニアリング教育の必要性を強調します。

2. 文献レビュー

2.1 EFLライティングにおけるChatGPT

ChatGPTは、アイデアの生成、語彙の提案、文法の修正を提供することでEFL学生を支援できます。しかし、適切なプロンプトがなければ、出力は無関係であったり役に立たなかったりする可能性があります。Guoら（2023）の研究は、学生が効果的なプロンプトを作成するのに苦労することが多く、最適とは言えない相互作用につながることを示しています。

2.2 スキルとしてのプロンプトエンジニアリング

プロンプトエンジニアリングは、モデルの能力と限界を理解することを含みます。それには、反復的な洗練、具体性、および文脈認識が必要です。研究（例：Wooら、2023）は、EFL学生を含む非技術系ユーザーは、通常、体系的な戦略なしに試行錯誤を行うことを示しています。

3. 方法論

3.1 参加者と環境

参加者は、香港出身の12名の中学校EFL学生（15～16歳）でした。彼らは、iPadでChatGPTを初めて使用し、「あなたの好きな場所を説明し、それがあなたにとって特別な理由を説明してください」という記述ライティング課題を完了しました。

3.2 データ収集

データは、iPadの画面録画を介して収集され、入力されたすべてのプロンプトとChatGPTの応答が記録されました。研究者はまた、課題終了後にインタビューを実施し、学生の思考プロセスを理解しました。

3.3 分析枠組み

分析では、プロンプトを内容（例：アイデアの要求、文法のヘルプ、修正）と量（学生一人当たりのプロンプト数）によって分類しました。データから4つの明確な経路が浮かび上がりました。

4. 調査結果：4つのプロンプトエンジニアリング経路

4.1 経路A：直接指示

学生は、単一の包括的なプロンプト（例：「私の好きなビーチについて、感覚的な詳細を含めて200語の段落を書いてください」）を発行しました。この経路は許容可能な結果をもたらしましたが、ライティングプロセスへの学生の関与は限定的でした。

4.2 経路B：反復的洗練

学生は、広範なプロンプト（例：「私の好きな場所について書くのを手伝ってください」）から始め、ChatGPTの出力に基づいてそれを洗練させました（例：「波の音についての詳細を追加してください」）。この経路は、フィードバックを通じた学習を示しました。

4.3 経路C：足場かけによる分解

学生は、タスクをサブタスクに分解しました。最初にアウトラインを要求し、次に語彙を要求し、最後に完全な下書きを要求しました。この構造化されたアプローチは、より高品質な出力とより深い理解をもたらしました。

4.4 経路D：探索的試行錯誤

学生は、明確な戦略なしにさまざまなプロンプトを試しました（例：「アイデアをください」、次に「もっと長くしてください」、次に「トーンを変えてください」）。この経路は非効率的であり、しばしばフラストレーションにつながりました。

5. 考察

5.1 核心的洞察

この研究は、ほとんどのEFL学生が体系的な戦略を欠き、デフォルトで試行錯誤のプロンプトに頼っていることを明らかにしています。効果的な分解を示したのは少数派（経路C）のみであり、これはメタ認知的な足場かけ（Flavell, 1979）の原則と一致しています。

5.2 論理的流れ

経路AからDへの進行は、学生の主体性と戦略的深度のスペクトラムを示しています。最も効果的な経路（C）は、専門家のプロンプトエンジニアリングの実践、すなわちタスクの分解、反復的洗練、および文脈の具体性を反映しています。

5.3 長所と短所

長所： この研究は、画面録画を通じて豊富な質的データを提供し、学生の本物の行動を捉えています。4つの経路の類型学は直感的であり、教育者にとって実践可能です。

短所： サンプルサイズが小さい（n=12）ため、一般化可能性が制限されます。この研究は、ライティング品質の改善を定量的に測定していません。さらに、初めてChatGPTを使用することによる新奇性効果が行動を歪める可能性があります。

5.4 実践可能な洞察

教育者は、以下のようなプロンプトエンジニアリング戦略を明示的に教えるべきです：

タスクの分解： 複雑なライティングタスクをより小さなサブプロンプトに分割します。
反復的洗練： ChatGPTの出力をフィードバックとして使用し、プロンプトを改善します。
文脈の提供： プロンプトに役割、対象読者、形式を含めます（例：「あなたは10代の若者向けに書く旅行ブロガーです」）。

6. 技術的詳細と数式による定式化

プロンプトエンジニアリングは、最適化問題としてモデル化できます。$P$をプロンプト空間、$O$を出力空間、$f: P \rightarrow O$をChatGPT関数とします。目標は、以下のような$p^*$を見つけることです：

$$p^* = \arg\max_{p \in P} \, \text{Relevance}(f(p), T)$$

ここで、$T$は目標のライティングタスクです。関連性関数は、意味空間（例：Sentence-BERT）における出力埋め込みと目標埋め込みの間のコサイン類似度によって近似できます。実際には、学生は観察された$f(p)$に基づいて$p$を反復的に更新します：

$$p_{t+1} = p_t + \alpha \cdot \nabla \text{Score}(f(p_t), T)$$

ここで、$\alpha$は学習率であり、Scoreはヒューリスティックな品質指標です。これは、潜在空間における勾配上昇を反映していますが、学生はそれを直感的に行います。

7. 実験結果と図の説明

図1：経路の分布

各経路の頻度を示す棒グラフ：経路A（3名）、経路B（4名）、経路C（2名）、経路D（3名）。このグラフは、反復的洗練（B）が最も一般的であり、足場かけによる分解（C）が最も一般的ではないが最も効果的であったことを示しています。

図2：経路別の平均プロンプト数

折れ線グラフ：経路A（1.0プロンプト）、B（4.5）、C（6.0）、D（8.3）。このグラフは、プロンプトの多さが必ずしも良い結果と相関するわけではないことを示しています。経路CはDよりも少ないプロンプトを使用しましたが、より高いライティング品質を達成しました（2名のEFL教師による1～5段階評価：C平均4.2、D平均2.8）。

8. 分析枠組みの事例

事例：学生S7（経路C - 足場かけによる分解）

プロンプト1： 「私の好きな図書館についての段落のアウトラインをください。導入、感覚的な詳細、そしてそれが特別な理由を含めてください。」
ChatGPTの出力： 3つのポイントからなるアウトラインを提供。
プロンプト2： 「ポイント2（感覚的な詳細）を、'ささやき'、'ほこりっぽい'、'暖かい'といった言葉を使って3文に拡張してください。」
ChatGPTの出力： 描写文を生成。
プロンプト3： 「アウトラインと文を組み合わせて、一貫性のある段落にしてください。フォーマルなトーンを使用してください。」
最終出力： 4.5/5のスコアを得た、よく構成された段落。

この事例は、効果的なタスクの分解と文脈の具体性を示しています。

9. 今後の応用と方向性

今後の研究では、以下を探求する必要があります：

自動プロンプトコーチング： プロンプトの品質に関するリアルタイムフィードバックを提供するAIツール（例：「あなたのプロンプトは曖昧すぎます。トーンを指定してみてください。」）。
言語横断的なプロンプトエンジニアリング： EFL話者とネイティブ話者で戦略がどのように異なるか。
縦断的研究： 学生のプロンプトエンジニアリングスキルが時間とともにどのように進化するかを追跡。
ライティングカリキュラムへの統合： 従来のライティングスキルと並行してプロンプトエンジニアリングを教える授業計画の開発。

10. 独自分析

この研究は、初心者のEFLユーザーがChatGPTとどのように相互作用するかを経験的にマッピングすることで、タイムリーな貢献をしており、直感的な試行錯誤と戦略的なプロンプトエンジニアリングの間の重要なギャップを明らかにしています。4つの経路の枠組みは貴重な教育学的ツールですが、サンプルサイズが小さく、以前のAIへの接触を統制していないため、その一般化可能性は限られています。足場かけによる分解（経路C）が優れた結果をもたらすという発見は、複雑なタスクを管理可能な塊に分割することで認知負荷を軽減し学習を強化するという認知負荷理論（Sweller, 1988）と一致しています。しかし、この研究は倫理的側面、すなわちアイデア生成のためにChatGPTに依存する学生が不注意に剽窃したり、自分自身の声を失ったりする可能性については扱っていません。今後の研究では、デジタル倫理トレーニングをプロンプトエンジニアリングカリキュラムに統合する必要があります。さらに、プロンプト最適化の数式による定式化（セクション6）は厳密なレンズを提供しますが、教室環境への実用的な適用可能性は未検証のままです。前進するためには、教育者はプロンプトエンジニアリングを技術的なアドオンとしてではなく、検索エンジンリテラシー（Head & Eisenberg, 2010）と同様に、中核的なリテラシースキルとして扱わなければなりません。そうして初めて、学生はAIを単なる補助具ではなく、協働パートナーとして活用できるようになります。

11. 参考文献

Flavell, J. H. (1979). Metacognition and cognitive monitoring: A new area of cognitive–developmental inquiry. American Psychologist, 34(10), 906–911.
Guo, K., Woo, D. J., & Susanto, H. (2023). Exploring EFL students' prompt engineering strategies with ChatGPT. Computers & Education: Artificial Intelligence, 5, 100156.
Head, A. J., & Eisenberg, M. B. (2010). How today's college students use the Web for research. Project Information Literacy Progress Report.
Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257–285.
Woo, D. J., Guo, K., & Susanto, H. (2023). Cases of EFL secondary students' prompt engineering pathways to complete a writing task with ChatGPT. Journal of Educational Computing Research, 61(4), 789–812.

目次