크기의 과학: GPT-4와 서울시가 공유하는 숨겨진 성장 공식

GPT-4를 훈련하는 데 얼마나 많은 비용이 들었을까요? 추정치에 따르면 약 1억 달러, 한화로 1,300억 원이 넘습니다. 그런데 놀라운 사실이 있습니다. OpenAI는 이 천문학적인 비용을 투자하기 전에 이미 GPT-4의 성능을 상당히 정확하게 예측할 수 있었습니다. 어떻게 가능했을까요? 답은 스케일링 법칙(Scaling Laws)에 있습니다.

💡 KEY INSIGHT

스케일링 법칙은 AI 모델, 도시, 생물체에 공통으로 적용되는 보편적 성장 공식입니다. 규모가 커질 때 성능이 어떻게 변하는지 예측할 수 있게 해주지만, 이 공식이 알려주지 않는 것이 더 중요할 수 있습니다.

스케일링 법칙이란 무엇인가

스케일링 법칙은 시스템의 크기나 규모가 변할 때 성능, 비용, 효율성 등의 지표가 어떻게 변하는지를 설명하는 수학적 관계식입니다. 핵심은 이 관계가 멱함수(Power Law) 형태를 따른다는 것입니다.

수학적으로 표현하면 다음과 같습니다:

L ∝ N-α
(L: 손실/오류, N: 규모, α: 스케일링 지수)

이 공식이 의미하는 바는 명확합니다. 규모(N)를 키우면 손실(L)이 감소한다는 것이죠. 하지만 여기서 중요한 점은 한계 수익 체감입니다. 규모가 커질수록 동일한 성능 개선을 위해 더 많은 자원이 필요합니다.

변수	설명	AI에서의 의미
N (모델 크기)	파라미터 수	GPT-4: 약 1.8조 개 추정
D (데이터)	학습 데이터 크기	토큰 수 기준
C (연산량)	컴퓨팅 자원	FLOPs 단위
α (지수)	개선 속도	보통 0.05~0.1 범위

AI가 증명한 스케일링의 힘

2020년, OpenAI 연구팀은 역사적인 논문을 발표합니다. “Scaling Laws for Neural Language Models”라는 제목의 이 논문은 언어 모델의 성능이 세 가지 변수—모델 크기, 데이터셋 크기, 연산량—에 대해 예측 가능한 멱함수 관계를 따른다는 것을 실증했습니다.

이것이 왜 혁명적이었을까요? 소규모 실험의 결과로 대규모 시스템의 성능을 미리 예측할 수 있게 되었기 때문입니다. 1,000억 원을 투자하기 전에, 10억 원짜리 실험으로 결과를 예측할 수 있다는 뜻이죠.

10x

모델 크기 증가 시

손실 약 5% 감소

70B

Chinchilla 최적 크기

1.4조 토큰 기준

2022년, DeepMind의 Chinchilla 논문은 한 걸음 더 나아갑니다. 같은 연산 예산이라면 모델 크기와 데이터를 균형 있게 키우는 것이 한쪽만 키우는 것보다 훨씬 효율적이라는 것을 밝혔죠. 이 발견은 업계 전체의 방향을 바꿨습니다.

🎯 핵심 포인트

스케일링 법칙 덕분에 AI 연구는 “되는지 안 되는지 해봐야 안다”에서 “얼마나 투자하면 어느 정도 성능이 나올지 예측할 수 있다”로 패러다임이 전환되었습니다.

도시, 생물체, 네트워크: 어디에나 존재하는 스케일링

놀라운 사실이 있습니다. 스케일링 법칙은 AI만의 전유물이 아닙니다. 물리학자 Geoffrey West는 저서 『Scale』에서 생물학, 도시 과학, 경제학에서 동일한 패턴이 발견된다고 밝혔습니다.

🐘 클라이버 법칙: 생물의 대사율

동물의 대사율은 체중의 3/4 제곱에 비례합니다. 코끼리는 쥐보다 1만 배 무겁지만, 대사율은 1,000배만 높습니다. 이것이 클라이버 법칙(Kleiber’s Law)입니다. 큰 동물일수록 에너지 효율이 좋아지는 거죠.

🏙️ 도시 스케일링: 인프라와 혁신

도시 인구가 두 배가 되면 어떤 일이 일어날까요?

인프라(도로, 전선)는 두 배보다 적게 필요합니다 (약 85% 증가)
혁신 지표(특허, 소득)는 두 배보다 많이 증가합니다 (약 115% 증가)

서울이 부산보다 단순히 2배 큰 것이 아니라, 특허 출원이 2배 이상 많고 1인당 소득도 더 높은 이유가 여기에 있습니다.

🌐 네트워크 효과: 메트칼프 법칙

메트칼프 법칙에 따르면 네트워크의 가치는 사용자 수의 제곱에 비례합니다. 카카오톡 사용자가 100명일 때와 5,000만 명일 때의 가치 차이는 단순한 500배가 아니라는 뜻이죠. 다만 최근 연구에 따르면 실제로는 n·log(n) 형태가 더 정확하다고 합니다.

📈 초선형 스케일링

혁신, 특허, 소득
규모가 커질수록 기하급수적 증가

📉 준선형 스케일링

인프라, 에너지 소비
규모가 커질수록 효율 증가

스케일링 법칙이 알려주지 않는 것들

여기까지 읽으면 “규모를 키우면 만사형통”처럼 들릴 수 있습니다. 하지만 솔직히 말씀드리면, 스케일링 법칙에는 심각한 한계가 있습니다. 제가 이 주제를 공부하면서 가장 흥미로웠던 부분이기도 합니다.

1. 창발적 능력은 예측 불가

GPT-3에서 GPT-4로 넘어가면서 갑자기 나타난 능력들이 있습니다. 복잡한 추론, 코드 작성, 심지어 수학 문제 풀이까지. 이런 창발적(emergent) 능력은 스케일링 곡선에서 예측할 수 없었습니다.

복잡계 이론에서 말하는 창발성이 바로 이것입니다. 개별 구성 요소의 단순한 상호작용에서 예측할 수 없는 새로운 특성이 나타나는 현상이죠. 양적 변화가 어느 순간 질적 전환을 일으키는데, 멱함수 모델은 이 불연속적 도약을 포착하지 못합니다.

✅ 스케일링 법칙이 예측하는 것

평균 손실 감소
언어 모델의 perplexity
점진적 성능 개선

❌ 예측하지 못하는 것

창발적 능력의 등장 시점
질적 전환점
새로운 기능의 출현

2. 포화 효과와 수익 체감

영원히 스케일링할 수는 없습니다. 어느 시점이 되면 성능 개선이 정체되거나, 심지어 역전될 수 있습니다. 최근 AI 업계에서 “스케일링의 벽”에 대한 논의가 활발한 이유입니다.

3. 데이터 품질의 함정

저품질 데이터를 아무리 많이 넣어도 스케일링 법칙은 작동하지 않습니다. 오히려 성능이 저하될 수 있죠. 양보다 질이 중요한 영역이 분명히 존재합니다.

4. 아키텍처 혁신의 파괴력

Transformer 아키텍처의 등장이 좋은 예입니다. 근본적인 알고리즘 혁신은 스케일링 곡선 자체를 위로 이동시킵니다. 같은 규모에서 더 좋은 성능을 내는 것이죠. 스케일링 법칙에만 의존하면 이런 패러다임 전환의 가능성을 놓칠 수 있습니다.

⚠️ 주의사항

스케일링 법칙은 예측 도구이지 성장 전략이 아닙니다. “더 크게”만으로는 한계가 있으며, 질적 혁신과의 균형이 필요합니다.

스케일링 법칙을 활용하는 법

그렇다면 우리는 스케일링 법칙을 어떻게 활용할 수 있을까요? 세 가지 수준에서 생각해 볼 수 있습니다.

🔬 연구자/개발자라면

소규모 실험 결과를 로그-로그 플롯으로 시각화하세요
예산 제약 하에서 최적의 파라미터 조합을 계산하세요 (Chinchilla 최적화)
한계 수익 체감을 체크포인트마다 기록하며 자원 배분을 조정하세요

🏢 기업 전략가라면

성장에 따른 인프라 비용을 준선형 스케일링으로 예측하세요
네트워크 효과가 있는 비즈니스에서 임계 규모를 계산하세요
스케일링만으로 해결되지 않는 질적 문제(문화, 혁신)에도 주의하세요

📚 개인 학습자라면

학습 시간을 로그 척도로 늘리며 성과 변화를 추적하세요
포화 지점(더 해도 늘지 않는 시점)에서 전략을 전환하세요
“더 많이”보다 “다르게”가 필요한 순간을 인식하세요

자주 묻는 질문

Q. 스케일링 법칙은 모든 AI 모델에 적용되나요?

A. 대부분의 딥러닝 모델에서 유사한 패턴이 관찰됩니다. 언어 모델뿐 아니라 비전 모델, 멀티모달 모델에서도 스케일링 법칙이 확인되었습니다. 다만 구체적인 스케일링 지수(α)는 아키텍처와 태스크에 따라 다릅니다.

Q. 왜 멱함수 형태가 자연에서 이렇게 흔한가요?

A. 완전히 합의된 답은 없지만, 많은 복잡 시스템이 프랙탈적 자기유사성을 가지기 때문이라는 설명이 유력합니다. 시스템이 어떤 규모에서 보든 비슷한 구조를 가지면, 멱함수 관계가 자연스럽게 나타납니다.

Q. AGI 달성에 스케일링만으로 충분할까요?

A. 이것은 AI 업계에서 가장 뜨거운 논쟁 중 하나입니다. 일부는 “충분히 큰 모델은 AGI가 될 것”이라고 주장하고, 다른 이들은 “근본적인 아키텍처 혁신이 필요하다”고 반박합니다. 스케일링 법칙의 한계를 고려하면, 후자의 주장에도 일리가 있어 보입니다.

Q. 개인이나 작은 조직도 스케일링 법칙을 활용할 수 있나요?

A. 물론입니다. 스케일링 법칙의 핵심 통찰—소규모 실험으로 대규모 결과 예측, 한계 수익 체감 인식, 양적 성장과 질적 전환의 구분—은 규모와 관계없이 유용합니다. 오히려 자원이 제한된 상황에서 더 중요할 수 있습니다.

참고 자료

Jared Kaplan 외, 「Scaling Laws for Neural Language Models」, arXiv, 2020
Hoffmann 외, 「Training Compute-Optimal Large Language Models」 (Chinchilla), arXiv, 2022
Geoffrey B. West, 『Scale: The Universal Laws of Growth, Innovation, Sustainability』, Penguin, 2017
Luís M. A. Bettencourt 외, 「Growth, Innovation, Scaling, and the Pace of Life in Cities」, PNAS, 2007
Albert-László Barabási, 『Linked: The New Science of Networks』, Basic Books, 2014

“스케일링 법칙은 성장의 예측 가능한 측면을 보여주지만, 진정한 도약은 종종 예측 불가능한 곳에서 일어난다. 양적 성장과 질적 전환, 둘 다 놓치지 마세요.”

— 이 글의 결론