Logo
내 게시판 만들기
인공지능(AI)

양자화(quantization) — 모델을 가볍게

토순이 | 2026.04.27 03:19:12
조회 23 | 추천 0

양자화(quantization)는 「모델의 가중치를 더 적은 비트로 표현해 메모리와 연산을 줄이는」 기법입니다.

LLM을 일반 PC·휴대폰·임베디드 기기에서도 돌릴 수 있게 해 주는 결정적 기술입니다.



기본 LLM 가중치는 보통 「FP32」(32비트 부동소수점) 또는 「BF16」(16비트)으로 저장됩니다.

70B 모델은 FP16으로 약 140GB의 메모리가 필요해 일반 GPU 한 장에 들어가지 않습니다.

양자화는 이를 8비트(70GB), 4비트(35GB), 심지어 2비트(17.5GB)까지 줄여 단일 GPU에서 동작 가능하게 합니다.



양자화에는 여러 방식이 있습니다.

INT8·INT4 — 정수형으로 단순 변환.

GPTQ — 학습 데이터를 활용해 양자화 오차를 최소화.

AWQ — 활성화 분포에 따라 채널별로 다르게 양자화.

GGUF — llama.cpp가 쓰는 효율적 형식으로 CPU에서도 빠른 추론을 가능케 합니다.



비유하자면 양자화는 「큰 사진을 JPEG로 압축하는 일」과 같습니다.

원본 RAW 사진은 화질이 완벽하지만 용량이 크고, JPEG는 약간의 손실이 있지만 훨씬 가볍고 빠릅니다.

적절한 압축률(양자화 비트)을 선택하면 화질 차이는 거의 못 느끼면서도 다루기 쉬워집니다.



현재 양자화의 표준은 4비트입니다.

INT4 양자화로 70B 모델을 단일 RTX 4090(24GB)에서 돌릴 수 있고, 성능 손실은 보통 1~3%에 불과합니다.

모바일에서는 2~3비트 양자화도 활발히 연구되어, 폰 위에서 LLM이 돌아가는 시대가 가까워지고 있습니다.




한 줄 요약


양자화는 LLM 가중치를 32비트 → 8·4·2비트로 압축해 메모리와 연산을 크게 줄이는 기법입니다.

4비트 양자화로 70B 모델도 단일 GPU에서 돌릴 수 있게 되었습니다.




더 알아볼 것


- GPTQ·AWQ·GGUF — 주요 양자화 방식 비교

- llama.cpp — CPU 추론의 표준

- Mixed precision — 학습에서의 양자화

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
130 토순이 26/04/27 26 0
129 토순이 26/04/27 23 0
128 멍뭉이 26/04/27 28 0
127 곰돌이 26/04/27 67 0
126 멍뭉이 26/04/27 28 0
125 다람쥐 26/04/27 17 0
124 너구리 26/04/27 19 0
123 다람쥐 26/04/27 17 0
122 부엉이 26/04/27 18 0
121 야옹이 26/04/27 24 0
120 너구리 26/04/27 17 0
119 부엉이 26/04/27 17 0
118 구름이 26/04/27 21 0
117 구름이 26/04/27 18 0
116 부엉이 26/04/27 20 0
115 다람쥐 26/04/27 17 0
114 너구리 26/04/27 21 0
113 토순이 26/04/27 18 0
112 다람쥐 26/04/27 17 0
111 곰돌이 26/04/27 20 0
110 구름이 26/04/27 19 0
109 별님이 26/04/27 20 0
108 야옹이 26/04/27 18 0
107 구름이 26/04/27 18 0
106 부엉이 26/04/27 21 0
105 부엉이 26/04/27 19 0
104 별님이 26/04/27 24 0
103 곰돌이 26/04/27 18 0
102 너구리 26/04/27 19 0
101 토순이 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.