어휘 크기와 스케일링 법칙: 왜 더 큰 모델은 더 큰 어휘집이 필요한가

1. 서론

대규모 언어 모델(LLM)의 스케일링 법칙은 전통적으로 모델 매개변수와 학습 데이터 크기에 초점을 맞추어 왔으며, 중요한 스케일링 차원인 어휘 크기를 크게 간과해 왔습니다. 본 논문은 어휘 크기가 LLM 성능에 미치는 영향을 조사하고, 주어진 학습 예산에 대해 계산 최적의 어휘 크기를 결정하는 방법을 제안합니다.

이 연구는 Llama2-70B와 같은 현재의 LLM들이 최적이 아닌 어휘 크기(32K 대비 예측된 최적값 216K)를 사용하고 있음을 보여주며, 현재 관행에서의 상당한 효율성 격차를 강조합니다.

모델 범위

33M - 3B

학습된 매개변수

학습 데이터

500B

처리된 문자 수

어휘 격차

7배

Llama2-70B 과소평가

2. 방법론

2.1 정규화 손실 공식화

다양한 어휘 크기를 가진 모델들 간의 공정한 비교를 보장하기 위해, 저자들은 토큰화 효율성 차이를 고려한 정규화 손실 함수를 도입합니다. 이 정규화는 더 큰 어휘를 가진 모델들이 손실 지표에서 인위적인 이점을 가지는 것을 방지합니다.

2.2 세 가지 예측 접근법

본 논문은 최적 어휘 크기를 예측하기 위한 세 가지 상호 보완적인 방법을 제안합니다:

2.2.1 동일 FLOPs 분석

동일한 계산 예산으로 서로 다른 어휘 크기를 가진 모델들을 학습시켜 각 예산 수준에서의 최소 손실 지점을 식별합니다.

2.2.2 미분 추정

어휘 크기에 대한 손실 함수의 미분이 0이 되는 지점을 찾기 위해 기울기 기반 방법을 사용하여 최적점을 나타냅니다.

2.2.3 매개변수 적합

모델 매개변수, 어휘 크기 및 손실 간의 멱법칙 관계를 적합시켜 예측 공식을 도출합니다.

3. 실험 결과

3.1 모델 학습 설정

33M에서 3B 매개변수 범위의 모델들이 다양한 어휘 구성을 사용하여 최대 500B 문자로 학습되었습니다. 학습은 포괄적인 스케일링 관계를 확립하기 위해 다양한 FLOPs 예산에 걸쳐 진행되었습니다.

3.2 최적 어휘 크기 발견

연구는 멱법칙 관계를 밝혀냅니다: $N_v^{opt} \propto N_{nv}^\gamma$ (여기서 $\gamma < 1$). 이는 최적 어휘 매개변수가 비어휘 매개변수보다 느리게 스케일링되어야 함을 나타내며, 모델 규모에 걸쳐 고정된 어휘 크기를 사용하는 일반적인 관행과 상반됩니다.

그림 1: 어휘 스케일링 관계

시각화는 이론적 예측과 일치하는 경험적 결과를 보여주며, 더 큰 원은 더 높은 손실 값을 나타냅니다. 그래프는 서로 다른 모델 규모에 대한 명확한 최적 어휘 크기를 보여주며, 뚜렷한 멱법칙 곡선을 형성합니다.

3.3 다운스트림 성능 검증

3B 매개변수 모델을 사용한 경험적 검증은 예측된 최적 어휘 크기를 사용할 때 일관된 성능 향상을 보여줍니다. ARC-Challenge에서, 어휘를 32K에서 43K로 증가시키면 동일한 2.3e21 FLOPs 예산으로 성능이 29.1에서 32.0으로 향상되었습니다.

핵심 통찰

어휘 크기는 LLM 스케일링 효율성에 상당한 영향을 미칩니다.
최적 어휘 크기는 계산 예산 및 모델 크기에 따라 스케일링됩니다.
현재 LLM들은 일반적으로 최적이 아닌 어휘 크기를 사용합니다.
토큰화와 모델 스케일링을 함께 고려하는 것이 필수적입니다.

4. 기술 분석 및 프레임워크

4.1 수학적 공식화

발견된 핵심 수학적 관계는 다음과 같이 표현됩니다:

$L(N_{nv}, N_v, D) = E + \frac{A}{N_{nv}^\alpha} + \frac{B}{N_v^\beta} + \frac{C}{D^\gamma}$

여기서 $L$은 정규화된 손실, $N_{nv}$는 비어휘 매개변수, $N_v$는 어휘 매개변수, $D$는 학습 데이터 크기이며, $E, A, B, C, \alpha, \beta, \gamma$는 적합된 상수입니다.

최적 어휘 크기는 다음을 만족합니다: $\frac{\partial L}{\partial N_v} = 0$

4.2 분석 프레임워크 예시

사례 연구: 10B 매개변수 모델에 대한 최적 어휘 결정

주어진 조건: 학습 예산 = 1e23 FLOPs, 대상 도메인 = 일반 언어 이해

프레임워크 적용:

비어휘 매개변수 추정: $N_{nv} = 9.5\text{B}$ (전체의 95%)
멱법칙 적용: $N_v^{opt} \propto N_{nv}^{0.7}$ (경험적 적합에서)
계산: $N_v^{opt} \approx 150\text{K}$ 토큰
주어진 예산에 대해 동일 FLOPs 분석으로 검증
도메인 특정 토큰 분포에 맞게 조정

이 프레임워크는 현재 모델 개발자들이 종종 간과하는 어휘 크기 결정에 대한 체계적인 접근법을 제공합니다.

5. 산업 분석가 관점

5.1 핵심 통찰

산업계는 어휘 크기를 정적 하이퍼파라미터로 취급하는 데 근본적으로 오도되어 왔습니다. 이 논문은 중요한 맹점을 드러냅니다: 우리는 한 손을 등 뒤로 묶은 채로 LLM을 최적화해 왔습니다. Llama2-70B의 어휘가 7배 더 커야 한다는 발견은 단순한 학문적 호기심이 아닙니다. 이는 전체 AI 생태계에서 수십억 달러에 달하는 낭비된 계산 자원과 최적이 아닌 모델 성능을 나타냅니다. 이 간과는 활성화 함수의 중요성을 과소평가했던 초기 신경망 연구를 떠올리게 합니다. 이는 Glorot와 Bengio(2010)의 심층 순방향 신경망 학습의 어려움을 이해한 선구적 연구에서 잘 문서화되어 있습니다.

5.2 논리적 흐름

논문의 주장은 외과 수술과 같은 정밀함으로 진행됩니다: 첫째, 그들은 어휘가 중요함을 확립합니다(주류 스케일링 법칙 가정과 반대로). 둘째, 멱법칙을 통해 체계적으로 중요함을 입증합니다. 셋째, 최적화를 위한 실용적인 도구를 제공합니다. 논리적 연결은 문제 식별부터 방법론적 혁신, 경험적 검증까지 완벽합니다. 이것이 근본적 통찰 없이 점진적 개선만 발표하는 트렌드와 달리, 엄격한 연구가 수행되어야 하는 방식입니다.

5.3 강점 및 한계

강점: 삼중 방법론 접근법(동일 FLOPs, 미분, 매개변수 적합)은 강력한 검증을 제공합니다. 실험 규모(33M ~ 3B 매개변수)는 인상적이고 설득력이 있습니다. 실용적 함의는 LLM을 학습하는 모든 조직에 즉시 실행 가능합니다.

한계: 연구는 주로 영어 텍스트에 초점을 맞추고 있습니다. 다국어적 함의는 탐구되지 않았습니다. 그들의 방법론의 계산 비용은 소규모 연구 그룹에게는 부담스러울 수 있습니다. 어휘 최적화가 어텐션 메커니즘과 같은 다른 아키텍처 선택과 어떻게 상호작용하는지 다루지 않습니다. 이는 Transformer 아키텍처 논문(Vaswani 외., 2017)이 여전히 분야를 지배하는 기초 원칙을 확립한 영역입니다.

5.4 실행 가능한 통찰

LLM을 학습하는 모든 AI 연구실은 즉시 다음을 수행해야 합니다: 1) 그들의 어휘 크기 결정 전략을 재평가, 2) 현재 프로젝트에 대해 동일 FLOPs 분석을 구현, 3) 어휘 크기를 매개변수 및 데이터와 동등한 1급 스케일링 차원으로 고려. NVIDIA 및 AMD와 같은 하드웨어 회사의 경우, 이 연구는 더 큰 임베딩 테이블을 위한 메모리 아키텍처에서 새로운 최적화 기회를 시사합니다. Llama2-70B의 7배 어휘 격차는 현재 하드웨어가 최적 모델 구성과 근본적으로 맞지 않음을 의미합니다.

6. 미래 적용 및 방향

즉각적인 적용:

차세대 LLM(GPT-5, Gemini 2.0 등)을 위한 어휘 전략 재설계
더 큰 임베딩 테이블을 위한 하드웨어 최적화
모델 서빙 및 추론 효율성 향상

연구 방향:

다양한 언어에 걸친 다국어 어휘 최적화
학습 중 동적 어휘 크기 조정
전문가 혼합 아키텍처와의 통합
도메인 특정 모델을 위한 어휘 최적화
다중 모달 모델을 위한 교차 모달 어휘 고려

이 연구에서 확립된 원칙은 생물정보학, 코드 생성, 시계열 분석의 다른 시퀀스 모델로 확장될 수 있습니다. 이는 컴퓨터 비전의 합성곱 신경망 원칙(AlexNet 논문, Krizhevsky 외., 2012)이 다른 도메인으로 전이된 것과 유사합니다.

7. 참고문헌

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
Brown, T., et al. (2020). Language Models are Few-Shot Learners.
Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models.
Vaswani, A., et al. (2017). Attention Is All You Need.
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks.
Krizhevsky, A., et al. (2012). ImageNet Classification with Deep Convolutional Neural Networks.
Team, G., et al. (2024). Gemma: Open Models Based on Gemini Research and Technology.
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models.