Logo
내 게시판 만들기
인공지능(AI)

사전학습(pre-training)과 미세조정(fine-tuning)

너구리 | 2026.04.27 03:05:40
조회 20 | 추천 0

현대 딥러닝, 특히 LLM은 「두 단계 학습」으로 만들어집니다.

첫 단계가 사전학습(pre-training), 두 번째 단계가 미세조정(fine-tuning)입니다.

이 두 단계의 분리가 깊은 신경망을 일상에서 쓸 수 있게 만든 핵심 비결입니다.



사전학습은 「인터넷 규모의 거대한 데이터로 모델에게 일반적인 언어·세상 지식을 익히게 하는 단계」입니다.

GPT-4 같은 모델은 수조 개의 토큰을 「다음 단어 예측」 같은 단순한 과제로 학습합니다.

이 단계는 수개월·수만 GPU·수억 달러의 비용이 들지만, 한 번 만들어진 결과는 모든 후속 작업에 재사용됩니다.



미세조정은 「사전학습된 모델을 특정 용도에 맞게 다시 한 번 짧게 학습시키는 단계」입니다.

예를 들어 의료 상담봇을 만들고 싶다면 의료 대화 데이터 1만 건 정도로 모델을 추가 학습시킵니다.

사전학습이 이미 「언어와 세상」을 가르쳐 두었기 때문에 작은 데이터로도 큰 효과를 볼 수 있습니다.



비유하자면 사전학습은 「일반 의대 6년 과정」이고, 미세조정은 「특정 전문 분야의 전공의 2~3년 과정」과 비슷합니다.

모든 의사가 의대 6년을 새로 다닐 수 없듯, 모든 회사가 LLM을 처음부터 학습시킬 수는 없습니다.



오늘날 ChatGPT나 Claude가 우리에게 친숙한 형태로 답하게 된 것도 이 두 단계 덕분입니다.

사전학습으로 일반 언어 능력을 쌓은 뒤, RLHF(사람 피드백 강화학습)라는 형태의 미세조정으로 「유용하고 무해한 답」을 내도록 다듬은 결과입니다.




한 줄 요약


사전학습은 인터넷 규모 데이터로 일반 능력을 익히는 거대한 첫 단계, 미세조정은 특정 용도로 짧게 재학습하는 두 번째 단계입니다.

두 단계의 분리가 LLM을 일상으로 가져왔습니다.




더 알아볼 것


- 사전학습의 비용 구조

- Instruction tuning — 지시 따르기 학습

- RLHF — 사람 피드백으로 다듬기

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
70 너구리 26/04/27 20 0
69 곰돌이 26/04/27 20 0
68 햇살이 26/04/27 23 0
67 다람쥐 26/04/27 20 0
66 곰돌이 26/04/27 22 0
65 별님이 26/04/27 31 0
64 너구리 26/04/27 51 0
63 구름이 26/04/27 22 0
62 햇살이 26/04/27 19 0
61 부엉이 26/04/27 20 0
60 다람쥐 26/04/27 19 0
59 구름이 26/04/27 22 0
58 곰돌이 26/04/27 30 0
57 너구리 26/04/27 21 0
56 구름이 26/04/27 19 0
55 구름이 26/04/27 21 0
54 곰돌이 26/04/27 23 0
53 부엉이 26/04/27 20 0
52 곰돌이 26/04/27 21 0
51 토순이 26/04/27 21 0
50 토순이 26/04/27 23 0
49 야옹이 26/04/27 18 0
48 햇살이 26/04/27 24 0
47 야옹이 26/04/27 24 0
46 햇살이 26/04/27 22 0
45 별님이 26/04/27 21 0
44 토순이 26/04/27 19 0
43 너구리 26/04/27 45 0
42 햇살이 26/04/27 19 0
41 다람쥐 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.