选择语言

案例研究:EFL中学生使用ChatGPT完成写作任务的提示工程路径分析

分析英语作为外语的中学生如何利用ChatGPT学习并运用提示工程完成写作任务,探讨其模式、挑战及教育启示。
learn-en.org | PDF Size: 1.0 MB
评分: 4.5/5
您的评分
您已经为此文档评过分
PDF文档封面 - 案例研究:EFL中学生使用ChatGPT完成写作任务的提示工程路径分析

目录

1. 引言

以ChatGPT为代表的尖端生成式AI聊天机器人的出现,为语言学习和写作支持带来了范式转变。与基于规则的早期工具不同,这些基于Transformer等神经网络架构构建的模型能够生成连贯且符合语境的文本。对于英语作为外语的学习者而言,这提供了一个强大但复杂的工具。本研究确定的核心挑战是提示工程——即设计有效指令以从AI中引出期望输出的技能。缺乏这项技能,用户(尤其是非技术背景的学生)将陷入令人沮丧的试错过程,从而限制了该工具的教学潜力。

本文调查了中学生EFL学习者首次使用ChatGPT完成写作任务时,其初期的提示工程行为。研究超越了理论探讨,通过实证性的定性案例研究,描绘了不同的用户交互路径。

2. 研究方法与数据收集

本研究采用定性案例研究方法,分析新手用户的真实交互数据。

2.1. 参与者与任务

参与者为中学生EFL学习者,此前没有正式使用ChatGPT等尖端聊天机器人的经验。研究通过iPad屏幕录制捕捉了他们与AI交互以完成指定写作任务的过程。这种方法提供了人机协作过程原始、未经修饰的视角。

2.2. 数据分析框架

对屏幕录制内容进行转录和分析,编码内容包括:

  • 提示内容:每个学生查询的语言和指令组成部分(例如,任务描述、风格要求、约束条件)。
  • 提示数量:完成任务所使用的提示数量。
  • 交互模式:基于AI响应的后续提示的顺序和性质。
  • 结果质量:最终AI生成文本对于指定任务的适用性。

基于此分析,识别出四种典型的用户路径,并发展为详细的案例研究。

3. 案例研究:四种提示工程路径

分析提炼出四种不同的行为模式,代表了提示工程熟练度的不同层次。

3.1. 路径A:极简主义者

这类学生使用的提示数量极少(例如1-2个)。初始提示通常是任务指令的简单直译(例如,“写一篇关于气候变化的文章”)。他们对AI的输出参与度极低,几乎不加修改地接受第一个结果。这条路径突显了一种工具即神谕的误解,即认为AI提供的是完整、最终的答案,而非协作伙伴。

3.2. 路径B:迭代优化者

这类学生使用中等数量的提示,呈线性、迭代的序列。他们从一个基本提示开始,审阅输出,然后发出后续指令以进行具体改进(例如,“写长一点”,“用更简单的词”)。这条路径表明了对AI响应指令的初步理解,但仍停留在基本的修订请求框架内。

3.3. 路径C:结构化询问者

这类学生使用更多数量的提示,并采取策略性的多阶段方法。他们可能首先要求AI“就X主题为文章构思三个想法”,然后选择一个,接着要求大纲,最后基于该大纲请求草稿。这条路径反映了一种更复杂的元认知策略,将写作过程分解,并在每个阶段利用AI提供结构化支持。

3.4. 路径D:试错探索者

这类学生使用大量提示,变化显著但缺乏明显策略。提示的重点和风格发生剧烈变化(例如,从正式到口语化,从宽泛到具体),没有清晰的进展。这条路径体现了新手体验中典型的非结构化实验,常常导致困惑和时间利用效率低下,尽管偶尔可能产生创造性结果。

4. 主要发现与分析

4.1. 提示质量与数量模式

研究发现,提示数量与最终输出质量之间没有简单的相关性。路径C(结构化询问者)通常能产生最符合任务要求的文本,这并非必然通过最多的提示实现,而是通过最具策略性和高质量的提示。质量由具体性、语境提供和任务分解程度来定义。一个精心设计的提示(例如,“为校刊写一篇300字的议论文,主张在校园内增设更多回收箱,使用两个统计数据和一个行动号召”)可能胜过十几个模糊的提示。

交互摘要

路径C(结构化) 产出的最终草稿经独立评估者评定始终得分最高,尽管其交互轮数并非总是最多。路径D(试错) 的结果质量方差最大。

4.2. AI素养的作用

这些路径鲜明地展示了不同层次的隐性AI素养。路径A和D的学生缺乏关于ChatGPT如何处理请求的功能性心智模型。相比之下,路径B和C的学生表现出对AI作为随机的、遵循指令的系统的初步理解。他们直觉地认识到,更清晰、更结构化的输入会带来更可预测和有用的输出。这一发现直接支持了如国际教育技术协会等组织提出的将AI素养基础知识融入K-12课程的呼吁。

5. 技术框架与分析

理解这些路径需要技术视角。ChatGPT及类似模型基于Transformer架构,本质上是下一个词元预测器。给定输入提示 $P$,生成特定输出序列 $O$ 的概率建模为: $$P(O|P) = \prod_{t=1}^{|O|} P(o_t | P, o_1, ..., o_{t-1})$$ 其中 $o_t$ 是位置 $t$ 的词元。学生的提示 $P$ 为输出设定了初始语境和概率分布。

分析框架示例: 我们可以将学生的提示工程会话建模为一个状态机。令状态 (S) 为对话的当前上下文窗口(最后 $k$ 个词元)。动作 (A) 是学生的下一个提示。奖励 (R) 是AI响应的感知有用性(例如,1-5分的主观评分)。学生的目标是学习一个策略 $\pi$,将状态映射到动作,以最大化累积奖励。这四种路径代表了人类用户面对这个强化学习问题时,所采取的不同且通常是次优的探索策略。

图表描述: 一个概念性图表将以提示具体性(X轴)对比任务分解度(Y轴)。路径A(极简主义者)将聚集在低-低象限。路径D(试错探索者)将在图表上呈现分散的点云。路径B(迭代优化者)将显示向右的水平移动(具体性增加)。路径C(结构化询问者)将占据高-高象限,表明其提示既具有高具体性,又高度运用了任务分解。

6. 教育启示与未来方向

核心启示: 让学生通过试错自行发现提示工程,在教学上是低效且不公平的。这有利于天生具备策略性思维(路径C)的学生,而使其他学生处于劣势。

可操作策略: 必须将明确、有支架的提示工程教学整合到EFL写作教学中。这包括:

  • 教授“角色-目标-格式-约束”提示框架。
  • 演示迭代优化(例如,策略性地使用ChatGPT的“重新生成”或“继续”功能)。
  • 批判性地评估AI输出的偏见、准确性和风格。

未来研究与开发:

  • 自适应学习界面: 未来的AI写作助手可以检测用户的路径(例如,检测到极简提示),并提供情境提示或教程,引导他们采用更有效的策略。
  • 提示库与模板: 为常见的EFL写作任务开发精选的、适合水平的提示模板(例如,“比较与对比文章生成器”)。
  • 纵向研究: 追踪学生的提示工程路径如何随着教学和经验而演变。
  • 跨语言与文化研究: 调查提示工程策略在不同语言和教育文化中是否存在显著差异。

7. 参考文献

  1. Woo, D. J., Guo, K., & Susanto, H. (2023). Cases of EFL Secondary Students’ Prompt Engineering Pathways to Complete a Writing Task with ChatGPT. Manuscript in preparation.
  2. Caldarini, G., Jaf, S., & McGarry, K. (2022). A Literature Survey of Recent Advances in Chatbots. Information, 13(1), 41.
  3. Long, D., & Magerko, B. (2020). What is AI Literacy? Competencies and Design Considerations. Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, 1–16.
  4. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
  5. International Society for Technology in Education (ISTE). (2023). AI Explorations for Educators. Retrieved from iste.org.
  6. Zhao, W. X., et al. (2023). A Survey of Large Language Models. arXiv preprint arXiv:2303.18223.

8. 分析师视角:解构人机协作的写作之舞

核心洞见: 这项研究并非真正关于ChatGPT;它是对人机反馈循环中未做好准备的人类的鲜明揭示。该工具的能力远超用户引导它的能力。这四种路径不仅仅是行为;它们是一种新型数字素养缺失的诊断标志。真正的产品差距不在于更好的大语言模型,而在于一个更好的人机交互界面层,能够实时教授交互策略。

逻辑脉络: 本文正确地识别了问题(试错是默认模式),并通过路径分类法提供了优雅的实证证据。它做出的逻辑飞跃——这一点至关重要——在于这些新手行为并非一个短暂阶段。若无干预,“极简主义者”和“试错探索者”路径可能固化为永久性的、次优的使用模式,强化一种权力不对称,即用户被工具的默认设置所引导,而非主导工具。这与HCI研究中更广泛的关切相符,例如关于高度辅助系统中“自动化偏见”“技能衰退”的讨论。

优势与不足: 其优势在于其扎根的、观察性的研究方法。屏幕录制不会说谎。主要的不足(文中已隐含承认)是规模问题。从有限样本中得出的四种路径是引人注目的原型,而非确定的类别。该研究也回避了房间里的大象:评估。如果一个“极简主义者”使用AI生成的文章从工作繁重的老师那里获得了及格分数,他们还有什么动力去学习提示工程?本文的教育建议依赖于一个重视过程而非结果的系统,而当前大多数教育评估框架并非如此。

可操作的见解: 对于教育科技投资者和开发者而言,结论很明确:下一波价值创造在于提示工程支架。想象一下提示的“Grammarly”——一个覆盖层,分析学生初始的模糊指令并建议:“尝试添加目标受众和字数要求。点击此处查看示例。”对于学校管理者而言,任务是资助专业发展,不仅限于使用AI,还包括教授与AI交互的教学法。本研究为争取这项预算提供了完美的证据。最后,对于研究者而言,路径框架是一个可复制的视角。将其应用于专业人士使用AI进行编码(GitHub Copilot)、设计或法律研究。我预测你会发现同样的四种原型,证明这是一个根本性的人机交互挑战,而不仅仅是EFL领域的问题。