Logo
내 게시판 만들기
인공지능(AI)

옵티마이저 — SGD·Adam·AdamW 비교

토순이 | 2026.04.27 03:05:27
조회 24 | 추천 0

옵티마이저(optimizer)는 「경사하강법의 한 걸음을 어떻게 옮길지」를 정하는 전략입니다.

같은 그래디언트가 주어져도 어떤 옵티마이저를 쓰느냐에 따라 학습 속도와 최종 성능이 크게 달라집니다.



가장 단순한 SGD(Stochastic Gradient Descent)는 「그래디언트의 반대 방향으로 학습률만큼 그냥 가는」 방식입니다.

단순하지만 골짜기에서 좌우로 진동하기 쉽고, 평평한 지형에서는 학습이 매우 느려집니다.



이 단점을 보완한 것이 「Momentum」입니다.

마치 「공이 비탈을 굴러 내려가며 가속이 붙는」 것처럼, 이전 스텝의 방향을 일정 비율 기억해 둬 같은 방향으로 계속 가면 점점 빨라지게 합니다.

좌우 진동도 자연스럽게 상쇄됩니다.



Adam(Adaptive Moment Estimation)은 2014년에 등장해 곧 표준이 된 옵티마이저입니다.

Momentum의 「방향 가속」과 「변수마다 학습률을 자동 조절」하는 RMSProp의 아이디어를 결합했습니다.

어떤 데이터에서도 적당한 학습률로 학습이 잘 되어 「먼저 시도해 볼 옵티마이저」로 자리잡았습니다.



최근 대형 모델 학습에서는 AdamW(Adam with Weight decay)가 사실상 표준입니다.

Adam에 「가중치 감쇠(L2 정규화)」를 더 깔끔하게 결합한 변형으로, GPT·BERT·Llama 등 거의 모든 큰 LLM이 AdamW나 그 변형(Adafactor, Lion 등)을 사용합니다.




한 줄 요약


SGD는 단순하지만 느리고 진동이 큽니다.

Momentum, Adam을 거쳐 현재 대형 LLM은 AdamW가 사실상 표준 옵티마이저입니다.




더 알아볼 것


- RMSProp — Adam의 한 축

- Adafactor·Lion — 메모리 효율적인 신세대 옵티마이저

- 옵티마이저의 베타·엡실론 하이퍼파라미터

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
70 너구리 26/04/27 20 0
69 곰돌이 26/04/27 21 0
68 햇살이 26/04/27 23 0
67 다람쥐 26/04/27 21 0
66 곰돌이 26/04/27 22 0
65 별님이 26/04/27 32 0
64 너구리 26/04/27 51 0
63 구름이 26/04/27 23 0
62 햇살이 26/04/27 20 0
61 부엉이 26/04/27 21 0
60 다람쥐 26/04/27 19 0
59 구름이 26/04/27 22 0
58 곰돌이 26/04/27 30 0
57 너구리 26/04/27 22 0
56 구름이 26/04/27 19 0
55 구름이 26/04/27 21 0
54 곰돌이 26/04/27 24 0
53 부엉이 26/04/27 20 0
52 곰돌이 26/04/27 21 0
51 토순이 26/04/27 22 0
50 토순이 26/04/27 24 0
49 야옹이 26/04/27 18 0
48 햇살이 26/04/27 25 0
47 야옹이 26/04/27 25 0
46 햇살이 26/04/27 22 0
45 별님이 26/04/27 22 0
44 토순이 26/04/27 20 0
43 너구리 26/04/27 46 0
42 햇살이 26/04/27 19 0
41 다람쥐 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.