2.1. 參與者與任務
參與者為中學EFL學生,先前沒有使用ChatGPT等頂尖聊天機器人的正式經驗。研究透過iPad螢幕錄影捕捉他們與AI互動以完成指定寫作任務的過程。此方法提供了人機協作過程原始、未經篩選的視角。
ChatGPT等頂尖生成式AI聊天機器人的出現,為語言學習與寫作輔助帶來了典範轉移。與基於規則的前代技術不同,這些建構於Transformer等神經網路架構的模型,能夠生成連貫且符合語境的文本。對於以英語為外語的學習者而言,這提供了一個強大卻也複雜的工具。本研究指出的核心挑戰是提示工程——即設計有效指令以從AI引導出期望輸出的技能。缺乏此技能,使用者(尤其是非技術背景的學生)將淪於令人沮喪的試誤過程,限制了該工具的教學潛力。
本文探討中學EFL學生首次使用ChatGPT完成寫作任務時,新興的提示工程行為。它超越理論討論,呈現了描繪不同使用者路徑的實證性、質性個案研究。
本研究採用質性個案研究法,分析來自新手使用者的真實互動資料。
參與者為中學EFL學生,先前沒有使用ChatGPT等頂尖聊天機器人的正式經驗。研究透過iPad螢幕錄影捕捉他們與AI互動以完成指定寫作任務的過程。此方法提供了人機協作過程原始、未經篩選的視角。
螢幕錄影被轉錄並分析,針對以下項目進行編碼:
從此分析中,識別出四種典型的使用者路徑,並發展為詳細的個案研究。
分析結果具體呈現了四種不同的行為模式,代表了提示工程熟練度的光譜。
此類學生使用極少的提示數量(例如:1-2個)。初始提示通常是對任務指令的簡單、直接翻譯(例如:「寫一篇關於氣候變遷的文章」)。他們對AI的輸出表現出極低的參與度,幾乎不加修改地接受第一個結果。此路徑凸顯了工具即神諭的誤解,即視AI為提供完整最終答案的來源,而非協作夥伴。
此類學生以線性、迭代的序列使用中等數量的提示。他們從基本提示開始,檢視輸出,並針對特定改進發出後續指令(例如:「寫長一點」、「用更簡單的詞彙」)。此路徑顯示了對AI回應指令的初步理解,但仍停留在基本的修訂請求框架內。
此類學生採用策略性、多階段的方法,使用較多的提示。他們可能先要求AI「針對X主題腦力激盪三個文章點子」,然後選擇一個,接著要求大綱,最後根據該大綱請求草稿。此路徑反映了更為複雜的後設認知策略,將寫作過程分解,並在每個階段使用AI提供結構化支援。
此類學生使用大量提示,變化顯著但缺乏明顯策略。提示的重點和風格劇烈轉變(例如:從正式到口語,從廣泛到狹窄),沒有清晰的進展。此路徑體現了新手經驗特徵的非結構化實驗,常導致混淆和時間使用效率低下,儘管偶爾可能產生創意結果。
研究發現提示數量與最終輸出品質之間沒有簡單的相關性。路徑C(結構化詢問者)通常產出最符合任務需求的文本,這並非必然透過最多的提示,而是透過最具策略性且高品質的提示。品質由具體性、上下文提供以及任務分解來定義。一個精心設計的單一提示(例如:「為校刊撰寫一篇300字的說服性文章,主張在校園增設更多回收桶,使用兩個統計數據和一個行動呼籲」)可能勝過十幾個模糊的提示。
路徑C(結構化) 在獨立評估者評分中,持續產出評分最高的最終草稿,儘管並非總是使用最多的對話回合。路徑D(試誤) 的成果品質變異性最高。
這些路徑鮮明地展示了不同程度的隱性AI素養。路徑A和D的學生缺乏關於ChatGPT如何處理請求的功能性心智模型。相比之下,路徑B和C的學生展現了對AI作為隨機性、遵循指令的系統的初步理解。他們直覺地領悟到,更清晰、更有結構的輸入會帶來更可預測且有用的輸出。此發現直接支持了如國際教育科技學會等組織的呼籲,即將AI素養基礎整合到K-12課程中。
理解這些路徑需要技術視角。ChatGPT及類似模型基於Transformer架構,本質上是下一個詞元預測器。給定輸入提示 $P$,生成特定輸出序列 $O$ 的機率建模為: $$P(O|P) = \prod_{t=1}^{|O|} P(o_t | P, o_1, ..., o_{t-1})$$ 其中 $o_t$ 是位置 $t$ 的詞元。學生的提示 $P$ 為輸出設定了初始上下文和機率分佈。
分析框架範例: 我們可以將學生的提示工程過程建模為一個狀態機。令狀態 (S) 為對話當前的上下文視窗(最後 $k$ 個詞元)。動作 (A) 是學生的下一個提示。獎勵 (R) 是對AI回應感知有用性(例如:1-5分的主觀評分)。學生的目標是學習一個策略 $\pi$,將狀態映射到動作,以最大化累積獎勵。這四種路徑代表了人類使用者面對此強化學習問題時,不同且通常是次優的探索策略。
圖表描述: 一個概念性圖表會將提示具體性 (X軸) 對比任務分解 (Y軸)。路徑A(極簡主義者)會聚集在低-低象限。路徑D(試誤探索者)會在圖上呈現分散的雲點。路徑B(迭代精煉者)會顯示向右的水平移動(增加具體性)。路徑C(結構化詢問者)會佔據高-高象限,在其提示中同時展現高具體性和高任務分解使用率。
核心意涵: 讓學生透過試誤自行發現提示工程,在教學上是低效且不公平的。它有利於自然發展策略性思維的學生(路徑C),而使其他學生處於劣勢。
可行策略: 必須將明確的、有架構的提示工程教學整合到EFL寫作教學法中。這包括:
未來研究與發展:
核心洞見: 這項研究並非真正關於ChatGPT;它是對人機回饋循環中未做好準備的人類的鮮明揭示。工具的能力遠超過使用者引導它的能力。這四種路徑不僅是行為;它們是一種新型數位文盲的診斷標記。真正的產品缺口不在於更好的LLM,而在於一個更好的人機介面層,能夠即時教授互動策略。
邏輯脈絡: 本文正確地指出了問題(試誤是預設模式),並透過路徑分類法提供了優雅、實證的證據。它所做出的邏輯飛躍——這點至關重要——在於這些新手行為並非暫時階段。若無干預,極簡主義者和試誤探索者路徑可能固化為永久、次優的使用模式,鞏固一種權力不對稱,即使用者被工具的預設值引導,而非主導它。這與人機互動研究中更廣泛的擔憂相符,例如關於高度輔助系統中「自動化偏誤」和「技能衰退」的討論。
優點與缺陷: 其優點在於紮根、觀察性的方法論。螢幕錄影不會說謊。主要的缺陷(文中隱含承認)是規模問題。來自有限樣本的四種路徑是引人注目的原型,而非確定的類別。該研究也迴避了房間裡的大象:評量。如果一個極簡主義者使用AI生成的文章從工作繁重的教師那裡獲得及格分數,他們有什麼動機去學習提示工程?本文的教育建議依賴於一個重視過程而非結果的系統,而目前大多數教育評量框架並非如此。
可行洞見: 對於教育科技投資者與開發者而言,結論很明確:下一波價值創造在於提示工程架構。想像一下提示的Grammarly——一個覆蓋層,分析學生初始的模糊指令並建議:「試著加入目標受眾和字數要求。點擊此處查看範例。」對於學校管理者而言,任務是資助專業發展,不僅是關於使用AI,更是關於教授與AI互動的教學法。本研究為爭取該預算項目提供了完美的證據。最後,對於研究者而言,路徑框架是一個可複製的視角。將其應用於使用AI進行編碼(GitHub Copilot)、設計或法律研究的專業人士。我預測你會發現相同的四種原型,證明這是一個基本的人機互動挑戰,而不僅僅是EFL問題。