1. 서론
아동의 언어 습득은 놀랍도록 일관된 순서를 따릅니다: 음소 범주화에서 어휘 발달로, 그리고 마침내 복잡한 통사 구조를 숙달하는 단계에 이릅니다. 영아기부터 약 6세까지 관찰되는 이 발달 경로는 근본적인 계산 원리에 대한 질문을 제기합니다. 이러한 단계적 학습은 인간 신경생물학의 독특한 특징인가, 아니면 인공 시스템에서도 나타날 수 있는가? 본 연구는 54명의 아동(18개월~6세)과 처음부터 훈련된 48개의 GPT-2 모델의 학습 경로를 직접 비교하여 이 문제를 다룹니다. 핵심 가설은 양쪽에서 유사한 단계가 나타난다면, 이는 공통된 데이터 주도 학습 제약을 가리킬 수 있다는 것입니다.
2. 방법론
본 연구는 비교 프레임워크를 사용하여 인간 학습자와 인공 학습자의 발달 여러 단계를 프로빙합니다.
2.1 실험 설정
아동: 54명 아동의 언어 산출을 분석했습니다. Friedmann 외(2021)가 확립한 방법론에 따라, 그들의 자발적 발화와 다양한 통사적 복잡성을 가진 문장을 따라 말하는 능력을 평가했습니다.
GPT-2 모델: GPT-2 모델(1억 2,400만 파라미터 변형)의 48개 인스턴스를 무작위 초기화 상태에서 표준 언어 모델링 목표(예: WebText)로 훈련시켰습니다. 훈련 과정 전반에 걸쳐 정기적으로 그들의 내부 상태를 프로빙했습니다.
2.2 데이터 수집 및 프로브
기존 벤치마크에서 96개의 진단 프로브를 선별했습니다:
- BLiMP: 67가지 통사 현상에 걸친 문법 지식 평가용.
- Zorro: 의미론 및 상식 추론 프로빙용.
- BIG-Bench: 더 넓은 언어 및 인지 능력 평가용.
이 프로브들은 각 훈련 체크포인트에서 GPT-2 모델에 적용되었으며, 아동의 산출 과제에 대한 유사한 측정치 역할을 했습니다.
3. 결과 및 분석
3.1 학습 경로 비교
분석 결과, GPT-2 모델은 아동과 마찬가지로 언어 능력을 체계적인 순서로 습득하는 것으로 나타났습니다. 더 간단한 과제(예: 기본적인 문법적 일치)는 훈련 초기에 숙달되는 반면, 더 복잡한 과제(예: 관계절과 같은 중첩된 통사 구조)는 상당히 더 많은 훈련 단계(발달 시간에 비유됨)를 필요로 합니다.
3.2 병렬 학습 방식
핵심 발견은 학습의 병렬적 성격입니다. 훈련 후반에 완전히 습득되는 과제조차도 첫 번째 단계부터 측정 가능한 향상을 보입니다. 이는 모델이 엄격하게 고립된 순서로 기술을 배우기보다는, 지속적으로 정제되는 기초적 표현을 구축한다는 것을 시사합니다.
3.3 공통 단계 vs. 상이한 단계
본 연구는 중첩되는 부분과 중요한 차이점을 모두 확인했습니다:
- 공통점: 단순한 통사 형태에서 더 복잡한 형태로의 광범위한 진행.
- 차이점: 일부 하위 기술의 구체적인 순서가 달랐습니다. 예를 들어, 모델은 특정 형식적 통사 규칙을 아동과 다른 순서로 습득할 수 있는데, 이는 훈련 데이터 분포와 인간의 지각 및 사회적 경험 간의 차이 때문일 수 있습니다.
이는 데이터 주도적 압력이 단계화를 만들어내지만, 단계 순서의 구체적인 내용은 학습자의 구조와 입력에 의해 조절된다는 점을 강조합니다.
핵심 실험 지표
훈련된 모델: GPT-2 인스턴스 48개
진단 프로브: BLiMP, Zorro, BIG-Bench의 96개 과제
아동 참가자: 54명 (18개월 ~ 6세)
핵심 발견: 아동과 모델 간 학습 단계 순서에 유의미한 상관관계가 있으나, 동일하지는 않음.
4. 기술적 프레임워크
4.1 수학적 공식화
GPT-2의 핵심 학습 목표는 최대 우도 추정을 통한 다음 토큰 예측입니다. 토큰 시퀀스 $x_1, x_2, ..., x_t$가 주어졌을 때, 매개변수 $ heta$로 정의된 모델은 음의 로그 우도를 최소화하도록 훈련됩니다:
$L(\theta) = -\sum_{t} \log P(x_t | x_{ 특정 언어 프로브 $p$에 대한 훈련 단계 $ au$에서의 프로브 정확도 $A_p(\theta, \tau)$는 발현 능력을 측정합니다. 학습 경로는 함수 $ au \rightarrow \{A_{p_1}(\theta, \tau), A_{p_2}(\theta, \tau), ...\}$입니다. 본 연구의 분석은 모델에 대해서는 $ au$에 걸쳐, 아동에 대해서는 연령에 걸쳐 서로 다른 프로브 $p$가 성능 임계값(예: 80% 정확도)을 넘는 순서를 비교합니다. 사례: 관계절 습득 추적 프로브 과제: 문법적인 문장("내가 본 소년이 노래했다")과 비문법적인 문장("내가 본 소년이 노래하다")을 구별. 분석 단계: 이 프레임워크를 통해 근본적으로 다른 학습 시스템 간의 발달 일정을 정량적으로 비교할 수 있습니다. 개념도: 학습 경로 비교 결과는 이중 축 차트로 시각화할 수 있습니다: 차트는 각 기술에 대해 두 경로 모두 S자형 학습 곡선을 보여주지만, 선들의 순서(어떤 기술이 먼저 상승하는지)가 완벽하게 동일하지는 않더라도 유사함을 보여줄 것입니다. 두 번째 핵심 시각화는 모델 앙상블에 대한 모든 96개 프로브의 습득 순서와 아동에서 관찰된 순서 간의 상관관계 행렬을 보여주는 히트맵으로, 높은 상관관계와 낮은 상관관계의 군집을 강조할 것입니다. 핵심 통찰: 이 논문은 미묘하지만 결정적인 발견을 제공합니다: 언어 학습의 단계화는 인간만의 신비가 아니라, 제약 하에서의 점진적, 데이터 주도 최적화의 발현적 속성입니다. 그러나 그 단계들의 청사진은 학습자의 선천적 구조에 의해 공동 작성됩니다. GPT-2와 아동이 "단순에서 복잡으로"의 커리큘럼에 수렴하는 이유는 데이터가 그 커리큘럼을 포함하기 때문입니다. 그들이 구체적인 사항에서 갈라지는 이유는 트랜스포머의 "귀납적 편향"(Vaswani 외, 2017)이 인간 아동의 인지 및 지각 사전 지식과 다르기 때문입니다. 논리적 흐름: 논증은 우아하게 구성되었습니다. 잘 확립된 경험적 사실(아동의 순서화된 단계)로 시작하여, 계산적 질문(이 순서가 AI에서도 발현되는가?)을 제기하고, 이를 검증하기 위해 강력한 다중 프로브 방법론을 사용합니다. "순서가 존재함"을 입증하는 것에서 "병렬적 성격"을 분석하고, 마침내 "공통/상이한" 요소를 해부하는 것으로 나아가는 것은 논리적으로 강력합니다. 이는 CycleGAN 논문(Zhu 외, 2017)과 같은 기초 연구에서의 분석적 진행을 반영하는데, 해당 논문은 단순히 새로운 모델을 제시하는 것이 아니라, 짝을 이루지 않은 이미지 변환 문제를 순환적 일관성 제약으로 체계적으로 분해했습니다. 강점과 결점: 본 연구의 강점은 방법론적 엄격성과 직접적인 비교 가능성입니다. 다중 모델 인스턴스와 방대한 프로브 세트를 사용하여 노이즈를 완화합니다. 암묵적으로 인정된 주요 결점은 측정의 비대칭성입니다: 아동의 산출 vs. 모델의 내부 프로브 정확도. 모델이 프로브에서 통사 규칙을 "알고" 있다는 것이 아동이 자발적 발화에서 그것을 "사용"하는 것과 동등한가? 반드시 그렇지는 않습니다. 이는 모델이 지름길을 학습하는 ImageNet과 같은 벤치마크에 대한 비판(Geirhos 외, 2020)과 유사합니다. 프로브 세트는 광범위하지만, 인간 언어 습득의 통합적, 의사소통적 본질을 포착하지 못할 수 있습니다. 실행 가능한 통찰: AI 연구자들에게 이는 커리큘럼 학습과 모델 진단을 위한 금광입니다. 모델이 인간처럼 학습하도록 만들고 싶다면, 인간 발달 일정을 더 잘 반영하는 훈련 데이터 시퀀스나 손실 함수를 설계해야 합니다. 인지 과학자들에게 이 작업은 새로운, 조작 가능한 테스트베드를 제공합니다: 모델의 구조(예: LSTM처럼 순환 연결 도입)나 훈련 데이터(예: 다중 모드 입력 추가)를 변경하고, 발달 경로가 어떻게 변하는지 관찰하십시오. 이는 특정 인간 편향의 기여를 분리하는 데 도움이 될 수 있습니다. 궁극적인 통찰은 더 나은 AI를 구축하는 것과 인간 인지를 이해하는 것이 이제 단일한, 얽힌 노력이 되었다는 점입니다.4.2 분석 프레임워크 예시
5. 결과 시각화
6. 핵심 통찰 및 분석가 관점
7. 향후 응용 및 방향
8. 참고문헌