목차
1. 서론
ChatGPT는 최첨단 생성형 AI 챗봇으로, 특히 영어를 외국어로 배우는 EFL 쓰기 맥락에서 교육을 혁신할 잠재력으로 큰 인기를 얻고 있습니다. 그러나 ChatGPT와의 효과적인 협업을 위해서는 학생들이 원하는 결과를 이끌어내기 위해 정확한 지시문을 작성하는 기술인 프롬프트 엔지니어링을 숙달해야 합니다. 본 논문은 EFL 중학생들이 ChatGPT를 처음 사용하여 쓰기 과제를 완료할 때 작성한 프롬프트의 내용과 패턴을 조사합니다. 네 가지 뚜렷한 경로에 대한 사례 연구를 통해 저자들은 시행착오 과정을 설명하고 EFL 교실에서 명시적인 프롬프트 엔지니어링 교육의 필요성을 강조합니다.
2. 문헌 검토
2.1 EFL 쓰기에서의 ChatGPT
ChatGPT는 아이디어 생성, 어휘 제안 제공, 문법 교정 제시를 통해 EFL 학생들을 도울 수 있습니다. 그러나 적절한 프롬프트 없이는 출력이 부적절하거나 도움이 되지 않을 수 있습니다. Guo 외 (2023)의 연구에 따르면 학생들은 종종 효과적인 프롬프트를 구성하는 데 어려움을 겪어 최적이 아닌 상호작용을 초래합니다.
2.2 기술로서의 프롬프트 엔지니어링
프롬프트 엔지니어링은 모델의 능력과 한계를 이해하는 것을 포함합니다. 반복적인 개선, 구체성, 맥락 인식이 필요합니다. 연구(예: Woo 외, 2023)에 따르면 EFL 학생을 포함한 비기술 사용자는 일반적으로 체계적인 전략 없이 시행착오에 참여합니다.
3. 연구 방법
3.1 참가자 및 환경
참가자는 홍콩 출신의 중학교 EFL 학생 12명(15-16세)이었습니다. 이들은 iPad에서 ChatGPT를 처음 사용하여 "가장 좋아하는 장소를 설명하고 그 장소가 왜 특별한지 설명하세요"라는 설명문 쓰기 과제를 완료했습니다.
3.2 데이터 수집
데이터는 iPad 화면 녹화를 통해 수집되어 입력된 모든 프롬프트와 ChatGPT의 응답을 캡처했습니다. 연구자들은 과제 완료 후 인터뷰를 통해 학생들의 추론 과정을 이해했습니다.
3.3 분석 프레임워크
분석은 프롬프트를 내용(예: 아이디어 요청, 문법 도움, 수정)과 양(학생당 프롬프트 수)별로 분류했습니다. 데이터에서 네 가지 뚜렷한 경로가 도출되었습니다.
4. 연구 결과: 네 가지 프롬프트 엔지니어링 경로
4.1 경로 A: 직접 지시
학생들은 단일하고 포괄적인 프롬프트(예: "제가 가장 좋아하는 해변에 대해 감각적 세부 사항을 포함한 200단어 분량의 문단을 작성해 주세요")를 제시했습니다. 이 경로는 수용 가능한 결과를 산출했지만 쓰기 과정에 대한 학생의 참여는 제한적이었습니다.
4.2 경로 B: 반복적 개선
학생들은 광범위한 프롬프트(예: "제가 가장 좋아하는 장소에 대해 쓰는 것을 도와주세요")로 시작하여 ChatGPT의 출력(예: "파도 소리에 대한 세부 사항을 더 추가해 주세요")에 따라 이를 개선했습니다. 이 경로는 피드백을 통한 학습을 보여주었습니다.
4.3 경로 C: 단계적 분해
학생들은 과제를 하위 과제로 나누었습니다: 먼저 개요를 요청하고, 그다음 어휘를 요청하고, 마지막으로 전체 초안을 요청했습니다. 이 구조화된 접근 방식은 더 높은 품질의 출력과 더 깊은 이해를 가져왔습니다.
4.4 경로 D: 탐색적 시행착오
학생들은 명확한 전략 없이 다양한 프롬프트를 실험했습니다(예: "아이디어를 줘", 그다음 "더 길게 만들어 줘", 그다음 "어조를 바꿔 줘"). 이 경로는 비효율적이었고 종종 좌절감을 초래했습니다.
5. 논의
5.1 핵심 통찰
이 연구는 대부분의 EFL 학생들이 체계적인 전략 없이 시행착오 프롬프트를 기본으로 사용한다는 것을 보여줍니다. 소수(경로 C)만이 효과적인 분해를 보여주었으며, 이는 초인지적 스캐폴딩(Flavell, 1979)의 원칙과 일치합니다.
5.2 논리적 흐름
경로 A에서 D로의 진행은 학생 주도성과 전략적 깊이의 스펙트럼을 보여줍니다. 가장 효과적인 경로(C)는 전문가 프롬프트 엔지니어링 관행인 과제 분해, 반복적 개선, 맥락 특수성을 반영합니다.
5.3 강점 및 한계
강점: 이 연구는 화면 녹화를 통해 풍부한 질적 데이터를 제공하여 실제 학생 행동을 포착합니다. 네 가지 경로 유형은 교육자에게 직관적이고 실행 가능합니다.
한계: 작은 표본 크기(n=12)는 일반화 가능성을 제한합니다. 이 연구는 쓰기 품질 향상을 정량적으로 측정하지 않습니다. 또한, 첫 ChatGPT 사용의 신규성 효과가 행동을 왜곡할 수 있습니다.
5.4 실행 가능한 시사점
교육자는 다음과 같은 프롬프트 엔지니어링 전략을 명시적으로 가르쳐야 합니다:
- 과제 분해: 복잡한 쓰기 과제를 더 작은 하위 프롬프트로 나눕니다.
- 반복적 개선: ChatGPT의 출력을 피드백으로 사용하여 프롬프트를 개선합니다.
- 맥락 제공: 프롬프트에 역할, 청중, 형식을 포함합니다(예: "당신은 청소년을 위해 글을 쓰는 여행 블로거입니다").
6. 기술적 세부 사항 및 수학적 공식화
프롬프트 엔지니어링은 최적화 문제로 모델링될 수 있습니다. $P$를 프롬프트 공간, $O$를 출력 공간, $f: P \rightarrow O$를 ChatGPT 함수라고 합시다. 목표는 다음과 같은 $p^*$를 찾는 것입니다:
$$p^* = \arg\max_{p \in P} \, \text{관련성}(f(p), T)$$
여기서 $T$는 대상 쓰기 과제입니다. 관련성 함수는 의미 공간(예: Sentence-BERT)에서 출력 임베딩과 대상 임베딩 간의 코사인 유사도로 근사화될 수 있습니다. 실제로 학생들은 관찰된 $f(p)$를 기반으로 $p$를 반복적으로 업데이트합니다:
$$p_{t+1} = p_t + \alpha \cdot \nabla \text{점수}(f(p_t), T)$$
여기서 $\alpha$는 학습률이고 점수는 휴리스틱 품질 지표입니다. 이는 잠재 공간에서의 경사 상승법을 반영하지만, 학생들은 직관적으로 수행합니다.
7. 실험 결과 및 다이어그램 설명
그림 1: 경로 분포
각 경로의 빈도를 보여주는 막대 차트: 경로 A(3명), 경로 B(4명), 경로 C(2명), 경로 D(3명). 차트는 반복적 개선(B)이 가장 일반적이었던 반면, 단계적 분해(C)는 가장 덜 일반적이었지만 가장 효과적이었음을 나타냅니다.
그림 2: 경로별 평균 프롬프트 수
선 그래프: 경로 A(1.0개 프롬프트), B(4.5개), C(6.0개), D(8.3개). 그래프는 더 많은 프롬프트가 반드시 더 나은 결과와 상관관계가 있지는 않음을 보여줍니다. 경로 C는 D보다 더 적은 프롬프트를 사용했지만 더 높은 쓰기 품질을 달성했습니다(두 명의 EFL 교사가 1-5점 척도로 평가: C 평균 4.2, D 평균 2.8).
8. 분석 프레임워크 예시 사례
사례: 학생 S7 (경로 C - 단계적 분해)
- 프롬프트 1: "제가 가장 좋아하는 도서관에 대한 문단의 개요를 제공해 주세요. 서론, 감각적 세부 사항, 그리고 왜 특별한지 포함해 주세요."
- ChatGPT 출력: 3가지 항목의 개요를 제공합니다.
- 프롬프트 2: "2번 항목(감각적 세부 사항)을 '속삭임', '먼지 쌓인', '따뜻한'과 같은 단어를 사용하여 3문장으로 확장해 주세요."
- ChatGPT 출력: 설명적인 문장을 생성합니다.
- 프롬프트 3: "개요와 문장을 하나의 일관된 문단으로 결합해 주세요. 격식 있는 어조를 사용해 주세요."
- 최종 출력: 4.5/5점을 받은 잘 구조화된 문단.
이 사례는 효과적인 과제 분해와 맥락 특수성을 보여줍니다.
9. 향후 응용 및 방향
향후 연구는 다음을 탐구해야 합니다:
- 자동화된 프롬프트 코칭: 프롬프트 품질에 대한 실시간 피드백을 제공하는 AI 도구(예: "프롬프트가 너무 모호합니다. 어조를 지정해 보세요.")
- 교차 언어 프롬프트 엔지니어링: EFL 사용자와 원어민 간의 전략 차이.
- 종단 연구: 학생들의 프롬프트 엔지니어링 기술이 시간이 지남에 따라 어떻게 진화하는지 추적.
- 쓰기 교육 과정과의 통합: 전통적인 쓰기 기술과 함께 프롬프트 엔지니어링을 가르치는 수업 계획 개발.
10. 종합 분석
이 연구는 초보 EFL 사용자가 ChatGPT와 상호작용하는 방식을 경험적으로 매핑하여 직관적인 시행착오와 전략적 프롬프트 엔지니어링 사이의 중요한 격차를 밝혀냄으로써 시의적절한 기여를 합니다. 네 가지 경로 프레임워크는 가치 있는 교육 도구이지만, 작은 표본 크기와 사전 AI 노출에 대한 통제 부족은 일반화 가능성을 제한합니다. 단계적 분해(경로 C)가 우수한 결과를 산출한다는 발견은 인지 부하 이론(Sweller, 1988)과 일치하며, 이는 복잡한 과제를 관리 가능한 덩어리로 나누는 것이 인지적 부담을 줄이고 학습을 향상시킨다고 가정합니다. 그러나 이 연구는 윤리적 차원을 다루지 않습니다: 아이디어 생성을 위해 ChatGPT에 의존하는 학생들은 의도치 않게 표절하거나 자신의 목소리를 잃을 수 있습니다. 향후 연구는 디지털 윤리 교육을 프롬프트 엔지니어링 교육 과정에 통합해야 합니다. 또한, 프롬프트 최적화의 수학적 공식화(섹션 6)는 엄격한 렌즈를 제공하지만, 교실 환경에 대한 실제 적용 가능성은 아직 검증되지 않았습니다. 나아가기 위해 교육자는 프롬프트 엔지니어링을 기술적 부가물이 아닌 검색 엔진 리터러시(Head & Eisenberg, 2010)와 유사한 핵심 리터러시 기술로 취급해야 합니다. 그래야만 학생들이 AI를 버팀목이 아닌 협력 파트너로 활용할 수 있습니다.
11. 참고문헌
- Flavell, J. H. (1979). Metacognition and cognitive monitoring: A new area of cognitive–developmental inquiry. American Psychologist, 34(10), 906–911.
- Guo, K., Woo, D. J., & Susanto, H. (2023). Exploring EFL students' prompt engineering strategies with ChatGPT. Computers & Education: Artificial Intelligence, 5, 100156.
- Head, A. J., & Eisenberg, M. B. (2010). How today's college students use the Web for research. Project Information Literacy Progress Report.
- Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257–285.
- Woo, D. J., Guo, K., & Susanto, H. (2023). Cases of EFL secondary students' prompt engineering pathways to complete a writing task with ChatGPT. Journal of Educational Computing Research, 61(4), 789–812.