신경망 학습에서 「배치(batch)」와 「에폭(epoch)」은 가장 자주 마주치는 두 단위입니다.
한마디로 정리하면 배치는 「한 번의 학습 스텝에서 보는 데이터의 양」, 에폭은 「전체 학습 데이터를 한 번 다 본 단위」입니다.
예를 들어 1만 개의 학습 데이터가 있고 배치 크기를 100으로 정했다면, 한 에폭은 100개씩 100번의 스텝으로 이루어집니다.
보통 모델은 수십~수백 에폭을 학습하므로, 같은 데이터를 여러 번 반복해서 보게 됩니다.
배치 크기는 학습 속도와 메모리에 직접 영향을 줍니다.
배치를 크게 잡으면(예: 1024) 한 스텝에 더 많은 데이터를 GPU가 병렬로 처리해 빠르지만, GPU 메모리를 많이 잡아먹습니다.
작게 잡으면(예: 16) 메모리는 아끼지만 학습 시간이 길어지고 학습이 더 흔들립니다.
배치 크기는 학습 효과에도 영향을 줍니다.
작은 배치는 매 스텝이 노이즈가 많아 손실이 들쭉날쭉 하지만, 그 노이즈가 「과적합 방지」 역할을 하기도 합니다.
큰 배치는 손실 곡선이 매끄럽지만 일반화에 살짝 손해 볼 수 있다는 보고가 많습니다.
에폭 수는 보통 검증 손실을 보면서 정합니다.
검증 손실이 더 이상 줄지 않거나 오히려 늘면(과적합 시작) 학습을 중단합니다.
이를 「조기 종료(early stopping)」라 부르며, 시간과 자원을 절약해 줍니다.
한 줄 요약
배치는 한 학습 스텝에서 보는 데이터의 양, 에폭은 전체 데이터를 한 번 다 본 단위입니다.
배치 크기는 메모리·속도·일반화에, 에폭 수는 과적합에 직접 영향을 줍니다.
더 알아볼 것
- 미니배치 SGD의 작동 원리
- Gradient Accumulation — 작은 GPU에서 큰 배치 효과
- Early Stopping과 검증 손실의 관계