EFL中学生使用ChatGPT完成写作任务的提示工程路径案例研究

1. 引言

ChatGPT作为一款最先进的生成式人工智能聊天机器人，因其在变革教育（尤其是英语作为外语写作领域）方面的潜力而广受欢迎。然而，与ChatGPT的有效协作要求学生掌握提示工程——即精心设计精确指令以获取所需输出的技能。本文考察了EFL中学生首次使用ChatGPT完成写作任务时所编写提示词的内容和模式。通过四个不同路径的案例研究，作者阐述了试错过程，并强调了在EFL课堂中进行明确提示工程教育的必要性。

2. 文献综述

2.1 ChatGPT在EFL写作中的应用

ChatGPT可以通过生成想法、提供词汇建议和语法纠错来帮助EFL学生。然而，如果没有恰当的提示，其输出可能不相关或没有帮助。Guo等人（2023）的研究表明，学生常常难以制定有效的提示词，导致交互效果不佳。

2.2 提示工程作为一项技能

提示工程涉及理解模型的能力和局限性。它需要迭代优化、具体性和上下文意识。研究（例如Woo等人，2023）表明，包括EFL学生在内的非技术用户，通常在没有系统策略的情况下进行试错。

3. 研究方法

3.1 参与者与场景

参与者是来自香港的12名中学EFL学生（年龄15-16岁）。他们首次在iPad上使用ChatGPT完成一项描述性写作任务：“描述你最喜欢的地方，并解释它对你来说为什么特别。”

3.2 数据收集

通过iPad屏幕录制收集数据，捕捉了学生输入的每个提示词以及ChatGPT的回应。研究人员还在任务后进行了访谈，以了解学生的推理过程。

3.3 分析框架

分析根据内容（例如，请求想法、语法帮助、修改）和数量（每个学生的提示词数量）对提示词进行分类。从数据中归纳出四种不同的路径。

4. 研究发现：四种提示工程路径

4.1 路径A：直接指令

学生发出一个单一、全面的提示词（例如，“写一段200字的关于我最喜欢的海滩的段落，包括感官细节”）。这条路径产生了可接受的结果，但限制了学生对写作过程的参与。

4.2 路径B：迭代优化

学生从一个宽泛的提示词开始（例如，“帮我写写我最喜欢的地方”），然后根据ChatGPT的输出进行优化（例如，“添加更多关于海浪声音的细节”）。这条路径展示了通过反馈进行学习的过程。

4.3 路径C：支架式分解

学生将任务分解为子任务：首先要求提纲，然后请求词汇，最后要求完整的草稿。这种结构化的方法产生了更高质量的输出和更深的理解。

4.4 路径D：探索性试错

学生没有明确策略地尝试各种提示词（例如，“给我一些想法”，然后“让它更长”，再“改变语气”）。这条路径效率低下，常常导致挫败感。

5. 讨论

5.1 核心见解

研究揭示，大多数EFL学生默认采用试错式提示，缺乏系统策略。只有少数学生（路径C）展示了有效的分解，这与元认知支架原则（Flavell, 1979）相符。

5.2 逻辑脉络

从路径A到D的递进展示了学生主动性和策略深度的谱系。最有效的路径（C）反映了专家级的提示工程实践：任务分解、迭代优化和上下文具体性。

5.3 优势与不足

优势：该研究通过屏幕录制提供了丰富的定性数据，捕捉了学生的真实行为。四种路径分类法直观且对教育工作者具有可操作性。

不足：样本量小（n=12）限制了普适性。该研究未定量测量写作质量的提升。此外，首次使用ChatGPT的新奇效应可能会使行为产生偏差。

5.4 可操作建议

教育工作者应明确教授提示工程策略，例如：

任务分解：将复杂的写作任务分解为更小的子提示。
迭代优化：利用ChatGPT的输出作为反馈来改进提示词。
上下文提供：在提示词中包含角色、受众和格式（例如，“你是一位为青少年写作的旅游博主”）。

6. 技术细节与数学公式

提示工程可以建模为一个优化问题。设$P$为提示空间，$O$为输出空间，$f: P \rightarrow O$为ChatGPT函数。目标是找到$p^*$使得：

$$p^* = \arg\max_{p \in P} \, \text{相关性}(f(p), T)$$

其中$T$是目标写作任务。相关性函数可以通过输出嵌入与目标嵌入在语义空间（例如Sentence-BERT）中的余弦相似度来近似。在实践中，学生根据观察到的$f(p)$迭代更新$p$：

$$p_{t+1} = p_t + \alpha \cdot \nabla \text{评分}(f(p_t), T)$$

其中$\alpha$是学习率，评分是启发式质量指标。这类似于潜在空间中的梯度上升，尽管学生是凭直觉进行的。

7. 实验结果与图表说明

图1：路径分布

一个条形图显示了每种路径的频率：路径A（3名学生）、路径B（4名）、路径C（2名）、路径D（3名）。图表显示，迭代优化（B）最为常见，而支架式分解（C）最不常见但最有效。

图2：每条路径的平均提示词数量

一个折线图：路径A（1.0个提示词）、B（4.5个）、C（6.0个）、D（8.3个）。图表显示，更多的提示词并不一定带来更好的结果；路径C使用的提示词少于路径D，但获得了更高的写作质量（由两位EFL教师按1-5分制评分：C平均4.2分，D平均2.8分）。

8. 分析框架示例案例

案例：学生S7（路径C - 支架式分解）

提示词1：“给我一个关于我最喜欢的图书馆的段落提纲。包括引言、感官细节以及它为什么特别。”
ChatGPT输出：提供一个三点提纲。
提示词2：“将第2点（感官细节）扩展成3个句子，使用像‘低语’、‘布满灰尘’、‘温暖’这样的词。”
ChatGPT输出：生成描述性句子。
提示词3：“将提纲和句子组合成一个连贯的段落。使用正式语气。”
最终输出：一个结构良好的段落，得分为4.5/5。

这个案例展示了有效的任务分解和上下文具体性。

9. 未来应用与方向

未来的研究应探索：

自动化提示指导：能够对提示质量提供实时反馈的人工智能工具（例如，“您的提示词太模糊了。尝试指定语气。”）
跨语言提示工程：EFL学生与母语者的策略有何不同。
纵向研究：追踪学生提示工程技能随时间如何演变。
与写作课程的整合：开发将提示工程与传统写作技能结合教学的课程计划。

10. 原始分析

本研究通过实证描绘了新手EFL用户如何与ChatGPT互动，揭示了直觉试错与策略性提示工程之间的关键差距，做出了及时的贡献。四种路径框架是一个有价值的教学工具，但样本量小且未控制先前的人工智能接触经验限制了其普适性。支架式分解（路径C）产生更优结果的发现与认知负荷理论（Sweller, 1988）相符，该理论认为将复杂任务分解为可管理的块状内容可减轻认知负担并增强学习。然而，该研究未涉及伦理维度：依赖ChatGPT产生想法的学生可能会无意中抄袭或失去自己的声音。未来的工作应将数字伦理培训整合到提示工程课程中。此外，提示优化的数学公式（第6节）提供了一个严谨的视角，但其在课堂环境中的实际适用性尚未得到验证。为了向前发展，教育工作者必须将提示工程视为一项核心素养技能，类似于搜索引擎素养（Head & Eisenberg, 2010），而不是一个技术附加品。只有这样，学生才能将人工智能作为协作伙伴而非拐杖来利用。

11. 参考文献

Flavell, J. H. (1979). Metacognition and cognitive monitoring: A new area of cognitive–developmental inquiry. American Psychologist, 34(10), 906–911.
Guo, K., Woo, D. J., & Susanto, H. (2023). Exploring EFL students' prompt engineering strategies with ChatGPT. Computers & Education: Artificial Intelligence, 5, 100156.
Head, A. J., & Eisenberg, M. B. (2010). How today's college students use the Web for research. Project Information Literacy Progress Report.
Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257–285.
Woo, D. J., Guo, K., & Susanto, H. (2023). Cases of EFL secondary students' prompt engineering pathways to complete a writing task with ChatGPT. Journal of Educational Computing Research, 61(4), 789–812.

目录