활성화 함수(activation function)는 뉴런의 출력에 「비선형성」을 부여하는 작은 함수입니다.
만약 활성화 함수가 없다면 신경망은 아무리 층을 쌓아도 결국 한 개의 큰 선형 변환과 같아져 깊이의 의미가 사라집니다.
즉 활성화 함수가 있어야 「깊이」가 의미를 가집니다.
역사적으로 가장 먼저 쓰인 활성화 함수는 시그모이드(sigmoid)입니다.
「입력을 0~1 사이의 확률 비슷한 값으로 짜내는」 S자 곡선 함수입니다.
직관적이고 미분이 쉽지만, 입력이 매우 크거나 작으면 기울기가 0에 가까워져 「그래디언트 소실」을 일으키는 약점이 있습니다.
Tanh(쌍곡탄젠트)는 시그모이드의 변형으로 출력 범위가 -1~1입니다.
시그모이드보다 학습이 잘 되지만 여전히 그래디언트 소실 문제가 남습니다.
1990~2000년대 신경망에서 자주 쓰였습니다.
ReLU(Rectified Linear Unit)는 2010년경에 등장한 게임 체인저입니다.
「입력이 0보다 크면 그대로, 0 이하면 0」이라는 매우 단순한 함수입니다.
계산이 빠르고 그래디언트 소실 문제도 크게 줄여 줘 알렉스넷 이후 모든 CNN의 표준이 되었습니다.
최신 LLM에서는 GELU(Gaussian Error Linear Unit)나 SwiGLU 같은 더 부드러운 변형이 자주 쓰입니다.
ReLU의 단순함을 유지하면서도 0 부근에서 부드럽게 휘는 곡선이 더 안정적인 학습을 만들어 줍니다.
GPT·BERT·Llama 등 거의 모든 대형 모델이 이 계열을 씁니다.
한 줄 요약
활성화 함수는 신경망에 비선형성을 부여하는 핵심입니다.
시그모이드·Tanh의 그래디언트 소실 문제를 해결한 ReLU가 표준이 되었고, 최신 LLM은 GELU·SwiGLU 같은 변형을 씁니다.
더 알아볼 것
- Leaky ReLU·ELU·PReLU 등 ReLU 변종
- Softmax — 출력층 전용 활성화
- 왜 모든 활성화는 미분 가능해야 하는가