신경망 언어 모델을 언어 습득의 인지 모델로 평가하기

1 서론

본 논문은 신경망 언어 모델(LM)을 인간 언어 습득 이론의 대리인으로 사용하는 증가하는 추세를 비판적으로 검토합니다. LM은 다양한 NLP 작업에서 놀라운 성공을 거두었지만, 아동 언어 학습과 비교했을 때 훈련 데이터의 규모와 본질에 있어 근본적인 차이로 인해 인지 모델로서의 관련성은 의문시되고 있습니다.

저자들은 인기 있는 구문 평가 벤치마크(예: BLiMP, SyntaxGym)가 LM이 인간과 유사한 방식으로 언어를 습득하는지 평가하는 데 필요한 구조적 다양성과 심리학적 타당성을 결여할 수 있다고 주장합니다. 그들은 원어민의 등급별 수용성 판단을 포함하는 LI-Adger 데이터셋과 같이 더 엄격하고 언어학적으로 정제된 데이터셋을 사용할 것을 주창합니다.

1.1 언어 습득에 대한 함의는?

이 섹션은 현저한 데이터 격차를 강조합니다: BERT와 같은 모델은 수십억 개의 토큰으로 훈련되는 반면, 아동은 1년에 약 1천만 단어만 접합니다. 최근 연구는 더 인간적인 규모(예: 5백만 토큰)의 아동 지향 발화(CDS)로 모델을 훈련시켜 이 격차를 해소하려 시도합니다. 핵심 질문은 이러한 '제한된' 입력으로 훈련된 모델이 행동 벤치마크에서 여전히 잘 수행할 수 있으며, 따라서 타당한 인지 모델로 기능할 수 있는지 여부입니다.

2 핵심 통찰: 벤치마킹의 신기루

본 논문의 핵심 주제는 NLP 커뮤니티의 안주심에 대한 직접적인 도전입니다. BLiMP와 같은 템플릿화된 합성 벤치마크에서의 인상적인 성능은 문법적 능력의 환상을 만들어냅니다. 저자들은 이것이 방법론적 인공물임을 폭로합니다. LM이 특정 구문 원리를 탐구하기 위해 이론 언어학자들이 설계한 최소 대조쌍으로 구성된 신중하게 구축된 LI-Adger 데이터셋에서 테스트될 때, 그들의 평가는 인간 판단과 현저히 다릅니다. 이는 단순한 성능 격차가 아닙니다; 근본적인 표현 불일치의 증거입니다. LM은 단순한 구문 템플릿과 우연히 일치하는 표면적 통계 패턴을 학습하고 있을 뿐, 인간 문법의 기초가 되는 추상적이고 계층적인 구조를 학습하지 못하고 있을 수 있습니다.

3 논리적 흐름: 데이터 격차에서 방법론적 비판으로

논증은 정밀하게 진행됩니다. 첫째, LM 훈련과 아동 습득 사이의 부인할 수 없는 데이터 규모의 심연을 확립하며, '소규모 훈련' 연구를 필요하지만 불충분한 수정 조치로 규정합니다. 둘째, 이렇게 평준화된 경기장(소규모 데이터)에서도 LM이 더 단순한 기준선과 성능이 비슷할 수 있음을 보여주어, 그들의 추가적인 인지적 가치에 의문을 제기합니다. 논리적 전환점은 벤치마크 설계에 대한 비판입니다: 템플릿화된 작업은 실제 언어 탐구의 '구조적 다양성'이 부족합니다. 마지막, 결정적인 증거는 LI-Adger 테스트에서 나옵니다. 여기서 LM 성능은 인간의 언어적 직관과 명백히 모순됩니다. 흐름은 다음과 같습니다: 문제 진술(데이터 불일치) -> 시도된 해결책(소규모 훈련) -> 더 깊은 문제의 폭로(결함 있는 평가) -> 결정적인 반증.

4 장점과 결점: 비판적 분석

장점: 본 논문의 가장 큰 장점은 방법론적 엄격함과 학제간 기반입니다. 단순히 비판만 하는 것이 아니라 더 우수한 대안(LI-Adger)을 제시합니다. 평가를 핵심 이론 언어학 및 심리언어학과 연결함으로써, '인간과 유사한' 지식의 증거를 구성하는 기준을 높입니다. 데이터 규모에 대한 초점은 효율적인 ML의 더 넓은 추세와 일치하며 선견지명이 있습니다.

결점 및 누락: 분석은 날카롭지만, 실패를 과장할 가능성이 있습니다. LI-Adger에서의 차이가 LM 학습과 습득 사이의 모든 유사점을 무효화합니까? 아마 아닐 것입니다. 논문은 LM이 올바르게 얻는 것과 그 이유에 대해 더 깊이 다룰 수 있습니다. 더 나아가, 이는 구문적 지식에 크게 의존합니다; 완전한 인지 모델은 의미론적, 화용론적, 사회적 학습 측면도 설명해야 합니다. '더 현실적인 데이터'에 대한 요구는 타당하지만 구체적이지 않습니다—아동 지향 입력의 다중 모드적, 상호작용적, 오류가 많은 본질을 어떻게 모델링할까요?

5 실행 가능한 통찰: 앞으로의 길

연구자들에게 명령은 분명합니다: 쉬운 벤치마크의 안락함을 버리십시오. 이론 언어학(예: LI-Adger 패러다임) 및 발달 심리학의 자원을 평가 도구에 통합하십시오. 인간 언어 학습의 특징을 테스트하는 '인지 벤치마크'의 구축을 우선시하십시오: 희소 데이터로부터의 일반화, 노이즈에 대한 강건성, 추상적 문법 원칙의 준수. 모델 개발자들에게 목표는 벤치마크 점수 극대화에서 데이터 효율적이고 인간과 유사한 입력(예: 발달에서 영감을 받은 커리큘럼 학습 또는 능동 학습 메커니즘 통합)으로부터 학습할 수 있는 아키텍처와 훈련 체계를 설계하는 것으로 전환되어야 합니다. 궁극적인 통찰: 진정한 인지 모델을 구축하는 것은 성능 좋은 NLP 시스템을 구축하는 것과는 다른—그리고 더 어려운—문제입니다.

6 독창적 분석: 언어 모델링의 인지적 심연

Vázquez Martínez 외의 이 논문은 규모에 종종 현혹되는 시대에 필요한 그리고 냉정하게 하는 비판을 제공합니다. 이 논문은 근본적인 긴장을 올바르게 지적합니다: 현대 LM, 특히 대규모 언어 모델(LLM)이 인상적인 표면적 언어 능력을 보여주지만, 그 능력에 이르는 경로는 아동의 경로와 천문학적으로 다릅니다. 저자들의 벤치마크 불충분성에 대한 초점은 특히 예리합니다. 이는 벤치마크 성능이 강건하고 일반화 가능한 지능으로 전환되지 못하는 다른 AI 영역의 우려와 공명합니다. 예를 들어, 컴퓨터 비전에서 ImageNet에서 뛰어난 모델은 단순한 적대적 섭동에 의해 속아 넘어가며, 진정한 시각적 이해의 부족을 드러냅니다—이는 MIT 및 Google Brain과 같은 기관의 연구에서 상세히 설명된 현상입니다. 유사하게, 본 논문은 BLiMP에서의 LM 성공이 유사한 종류의 '클레버 한스' 효과일 수 있음을 보여줍니다. 여기서 모델은 기본 구문 규칙을 학습하기보다는 벤치마크 구성의 통계적 규칙성을 이용합니다.

LI-Adger 데이터셋에 대한 주창은 논문의 가장 중요한 기여입니다. 평가를 최소 대조쌍과 등급별 수용성 판단—이론 구문학의 금본위—에 기반을 둠으로써, 모델이 가능성뿐만 아니라 문법성에 대한 지식을 입증하도록 강제합니다. LM이 여기서 실패한다는 발견은 의미심장합니다. 이는 방대한 텍스트 코퍼스로부터 학습된 확률 분포($P(w_n | w_{1:n-1})$)가 인간 문법 지식을 특징짓는 범주적 또는 등급적 판단에 반드시 수렴하지는 않음을 시사합니다. 이는 노엄 촘스키와 같은 언어학자들의 주장과 일치합니다. 그들은 오랫동안 표면 형태로부터의 통계적 학습이 자극의 빈곤성과 구문 규칙의 추상적 본질을 설명하기에는 불충분하다고 주장해 왔습니다.

그러나, 논문의 결론은 LM이 인지 과학과 무관하다는 것이 되어서는 안 됩니다. 대신, 그것은 도전을 재구성합니다. 미래는 '인지 아키텍처 정보 기반' 모델링에 있습니다. 여기에는 일부 신경-심볼릭 접근법에서 볼 수 있듯이 언어 이론에서 영감을 받은 귀납적 편향(예: 계층 구조에 대한 성향)을 통합하거나, 다음 단어 예측을 넘어서는 훈련 목표를 설계하는 것이 포함될 수 있습니다. Brenden Lake와 Marco Baroni와 같은 연구자들의 소수 샷 학습 및 구성성에 대한 작업은 이 방향을 가리킵니다. 앞으로의 길은 LM을 버리는 것이 아니라 올바른 인지 벤치마크에 대해 엄격하게 테스트하고, 다른 과학에서의 이론과 실험의 사이클처럼, 실패를 바탕으로 반복적으로 재설계하는 것입니다.

7 기술적 세부사항 및 수학적 프레임워크

논의된 핵심 평가 방법은 언어 모델의 출력 확률을 사용하여 인간의 수용성 판단을 예측하는 것입니다. 문장 $S = w_1, w_2, ..., w_n$에 대해, 표준 자기회귀 LM은 확률을 할당합니다: $$P_{LM}(S) = \prod_{i=1}^{n} P(w_i | w_1, ..., w_{i-1}; \theta)$$ 여기서 $\theta$는 모델 매개변수입니다. 놀람 또는 음의 로그 가능도는 종종 (비)수용성의 대리 지표로 사용됩니다: $$\text{Surprisal}(S) = -\frac{1}{n} \sum_{i=1}^{n} \log P(w_i | w_1, ..., w_{i-1}; \theta)$$ 가설은 더 높은 확률(더 낮은 놀람)이 더 높은 인간 수용성 등급과 상관관계를 가져야 한다는 것입니다. 본 논문의 중요한 발견은 이 상관관계가 LI-Adger 데이터셋에서 깨진다는 것으로, LM의 확률 기반 '문법성' 측정치와 인간 판단 사이의 단절을 나타냅니다.

본 논문은 또한 아동 지향 발화로 훈련된 모델을 언급합니다. 여기서 핵심 기술적 도전은 표준 LM 코퍼스($>10^9$ 토큰)에 비해 매우 작은 데이터셋($\approx 5\times10^6$ 토큰)으로부터 학습하는 것입니다. 이는 과적합을 피하고 희소 데이터로부터 일반화 가능한 패턴을 추출하기 위해 효율적인 아키텍처와 훈련 기술을 필요로 합니다.

8 실험 결과 및 차트 분석

본 논문은 그림 1(PDF 내용에 설명됨)에서 주요 결과를 제시합니다. 차트는 LI-Adger 데이터셋에서 서로 다른 LM(BabyBERTa, AO-CHILDES, AO-NEWSELA, Wikipedia-1)의 성능을 인간 성능의 기준선과 비교합니다.

차트 해석: 인간 성능을 나타내는 수직선은 벤치마크 역할을 합니다. 차트는 각 LM에 대해 모델 놀람과 인간 수용성 등급 사이의 상관 계수(예: Spearman의 $\rho$)를 보여줄 가능성이 높습니다. 중요한 발견은 모든 LM 막대가 인간 벤치마크 선에 현저히 미치지 못한다는 것입니다. 이것은 시각적으로 본 논문의 중심 주장을 보여줍니다: 아동과 유사한 데이터(BabyBERTa, AO-CHILDES)로 특별히 훈련된 모델들조차도 이 구문적으로 미묘한 데이터셋에서 인간 판단과 일치하지 못합니다. 성능 격차는 현재 LM 훈련 목표가 이 엄격한 테스트로 측정했을 때 인간과 유사한 문법 지식의 습득으로 이어지지 않음을 나타냅니다.

9 분석 프레임워크: LI-Adger 사례 연구

프레임워크: 최소 대조쌍 수용성을 통한 LM의 인지 모델로서의 평가.

목적: LM의 내부 확률 분포가 구조적으로 대조적인 문장에 대한 인간의 문법적 직관과 일치하는지 확인합니다.

절차:

자극 선택: LI-Adger와 같은 데이터셋을 사용합니다. 이 데이터셋은 특정 구문 원리(예: 'that-trace' 필터)에 기반하여 한 변형이 문법적이고 다른 변형이 덜 수용 가능하거나 비문법적인 최소 대조쌍(예: "Who do you think that John saw?" vs. "Who do you think John saw?")으로 구성됩니다.
모델 질의: 최소 대조쌍의 각 문장 $S$에 대해 모델의 평균 토큰 놀람을 계산합니다: $\text{Surprisal}(S) = -\frac{1}{|S|} \sum \log P(w_i | context)$.
예측 생성: 모델은 더 낮은 놀람을 가진 문장을 '선호'합니다. 최소 대조쌍 (A, B)에 대해, $\text{Surprisal}(A) < \text{Surprisal}(B)$이면 모델은 A가 더 수용 가능하다고 예측합니다.
인간 데이터와 비교: 수백 개의 이러한 최소 대조쌍에 걸친 모델의 선호 패턴을 인간 참가자들의 집계된 수용성 판단과 비교합니다. 모델 놀람과 인간 등급 점수 사이의 상관 계수(예: Spearman의 $\rho$)를 계산합니다.
해석: 높고 유의미한 양의 상관관계는 LM의 지식이 인간 구문 판단과 일치함을 시사합니다. 낮거나 유의미하지 않은 상관관계(논문에서 발견된 바와 같이)는 불일치를 나타냅니다.

비코드 예시: 산만한 절을 가로지르는 주어-동사 일치에 대한 지식을 테스트하는 것을 고려해 보십시오: "The key to the cabinets *are/*is on the table." 인간은 'is'를 올바른 것으로 확고히 평가합니다. 추상적 일치 규칙(주어 'key' -> 동사 'is')을 학습한 LM은 올바른 문장에 더 높은 확률을 할당해야 합니다. 지역 n-그램 통계에 의존하는 LM은 "cabinets"의 근접성에 의해 오도되어 'are'를 선호할 수 있습니다. 위의 프레임워크를 많은 이러한 쌍에 적용하면 LM이 습득한 지식의 본질을 드러냅니다.

10 미래 적용 및 연구 방향

1. '인지 벤치마크' 개발: 주요 방향은 구문을 넘어 의미론, 화용론, 언어 습득 이정표(예: 어휘 폭발, 과잉일반화 오류)를 포함하는 표준화된, 다면적인 평가 도구의 창조입니다. 이러한 벤치마크는 계산 언어학자, 발달 심리학자, 인지 과학자들이 공동 설계해야 합니다.

2. 언어적 귀납적 편향을 가진 아키텍처: 미래 모델은 명시적 구조적 사전 지식을 통합할 수 있습니다. 예를 들어, 본질적으로 계층적 표현을 구축하거나 생성 중에 구문적 제약을 적용하는 아키텍처로, 언어학의 원리와 매개변수 프레임워크에 더 가까워질 수 있습니다.

3. 상호작용적 및 다중 모드 훈련: 아동 학습을 더 잘 모방하기 위해, 모델은 정적 텍스트가 아닌 체화된 AI 연구에서 탐구되는 바와 같이, 근거 있는 환경 내에서 상호작용적이고 다중 모드적인 데이터 스트림(시각 + 음성 + 텍스트)으로 훈련될 수 있습니다.

4. 데이터 효율적 및 커리큘럼 학습: 아동 지향 발화의 복잡성 진행을 반영하는 커리큘럼 학습 전략을 구현함으로써, 수십 배 적은 데이터로 성공하는 훈련 알고리즘을 개발합니다.

5. 신경언어학과의 연결: 언어 작업 중 인간의 신경 데이터(예: fMRI, EEG)와 LM의 내부 표현 및 처리 역학을 비교하는 것은, MIT 맥거번 연구소 연구자들의 작업에서 선구한 바와 같이, 인지 모델에 대한 새로운 수준의 검증을 제공할 수 있습니다.

11 참고문헌

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics.
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of ACL.
Huebner, P. A., et al. (2021). BabyBERTa: Learning More Grammar With Small-Scale Child-Directed Language. Proceedings of CoNLL.
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Lake, B. M., & Baroni, M. (2023). Human-like systematic generalization through a meta-learning neural network. Nature.
Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. Proceedings of NAACL.
Warstadt, A., & Bowman, S. R. (2022). What Artificial Neural Networks Can Tell Us About Human Language Acquisition. Algebraic Structures in Natural Language.
Fenson, L., et al. (1994). Variability in early communicative development. Monographs of the Society for Research in Child Development.