요약(summarization) — 추출형과 생성형

야옹이 | 2026.04.27 03:25:24

조회 21 | 추천 0

요약(summarization)은 「긴 글을 짧고 핵심적인 글로 줄이는」 NLP 작업입니다.

뉴스 기사 요약, 회의록 정리, 논문 초록 작성, 책의 핵심 메시지 추출 같은 산업적 활용이 풍부합니다.

정보 과잉 시대에 점점 더 중요해지는 영역입니다.

요약은 두 가지 큰 접근이 있습니다.

첫째, 「추출형(extractive)」 — 원문에서 가장 중요한 문장 몇 개를 그대로 골라 나열합니다.

결과가 원문에 충실하고 사실 왜곡 위험이 적지만, 읽었을 때 부자연스러울 수 있습니다.

둘째, 「생성형(abstractive)」 — 원문의 의미를 이해한 뒤 새로운 문장을 만들어 냅니다.

사람이 쓴 듯 자연스럽지만, 「환각(원문에 없는 내용)」이 들어갈 위험이 있습니다.

현대 LLM 기반 요약은 거의 모두 생성형입니다.

비유하자면 추출형은 「책에서 중요한 문장에 형광펜을 칠해 그대로 옮기는 일」이고, 생성형은 「책을 읽은 뒤 친구에게 입말로 풀어 들려주는 일」과 같습니다.

형광펜은 안전하지만 어색하고, 입말은 자연스럽지만 약간의 왜곡 가능성이 있습니다.

현장에서는 두 방식의 결합이 흔합니다.

「먼저 원문에서 핵심 문단을 추출 → 그 핵심을 바탕으로 자연스러운 문장으로 다듬기」 식의 2단계 파이프라인입니다.

또 LLM의 환각을 줄이기 위해 「원문에 없는 내용은 절대 추가하지 마라」는 명시적 프롬프트가 함께 쓰입니다.

한 줄 요약

요약은 추출형(원문 문장 그대로 선택)과 생성형(새 문장으로 표현) 두 갈래로 나뉘며, 현대 LLM 요약은 자연스럽지만 환각 위험이 있어 두 방식의 결합이 흔합니다.

더 알아볼 것

- ROUGE 점수 — 요약 품질 평가

- Pegasus — 요약 특화 모델

- 회의록 자동 작성 도구들

번호	제목	글쓴이	작성일	조회
160	Hugging Face Hub 사용법 — 첫 모델 다운로드	구름이	26/04/27	18
159	PyTorch와 TensorFlow 한눈에 비교	다람쥐	26/04/27	21
158	JAX — 함수형 사고의 차세대 프레임워크	토순이	26/04/27	17
157	TensorFlow — 구글의 산업용 프레임워크	별님이	26/04/27	18
156	PyTorch — 연구자가 가장 사랑하는 프레임워크	곰돌이	26/04/27	20
155	AI와 금융 — 알고리즘 트레이딩·신용평가	멍뭉이	26/04/27	16
154	로보틱스 — AI와 로봇의 만남	구름이	26/04/27	17
153	게임 AI — NPC와 적응형 난이도	토순이	26/04/27	16
152	비디오 생성 — Sora·Runway	야옹이	26/04/27	17
151	음악 생성 AI — Suno·Udio	햇살이	26/04/27	21
150	음성 합성(TTS) — 자연스러운 목소리 만들기	햇살이	26/04/27	19
149	음성 인식 — Whisper·STT의 원리	구름이	26/04/27	18
148	광고 타겟팅 — AI가 만드는 맞춤 광고	별님이	26/04/27	19
147	협업 필터링과 콘텐츠 기반 추천	너구리	26/04/27	18
146	추천 시스템 — 넷플릭스·유튜브의 비밀	햇살이	26/04/27	18
145	신약 개발에 쓰이는 AI	부엉이	26/04/27	21
144	의료 AI — 영상 판독에 강한 이유	야옹이	26/04/27	23
143	자율주행의 센서 — 카메라·라이다·레이더	햇살이	26/04/27	18
142	자율주행 — 레벨 0~5의 의미	너구리	26/04/27	18
141	OCR — 글자를 알아보는 AI	멍뭉이	26/04/27	16
140	얼굴 인식과 그 윤리	부엉이	26/04/27	19
139	이미지 분할(segmentation)	토순이	26/04/27	36
138	객체 검출(object detection)	너구리	26/04/27	53
137	컴퓨터 비전 — 이미지 분류	야옹이	26/04/27	31
136	챗봇과 음성 비서	햇살이	26/04/27	19
135	질의응답 시스템(Q&A)	햇살이	26/04/27	21
134	요약(summarization) — 추출형과 생성형	야옹이	26/04/27	21
133	감정 분석(sentiment analysis)	너구리	26/04/27	17
132	기계 번역 — 통계 번역에서 신경망 번역까지	너구리	26/04/27	20
131	자연어 처리(NLP)가 다루는 일곱 가지 문제	별님이	26/04/27	19

번호

제목

글쓴이

작성일

조회

160

Hugging Face Hub 사용법 — 첫 모델 다운로드

구름이

26/04/27

159

PyTorch와 TensorFlow 한눈에 비교

다람쥐

26/04/27

158

JAX — 함수형 사고의 차세대 프레임워크

토순이

26/04/27

157

TensorFlow — 구글의 산업용 프레임워크

별님이

26/04/27

156

PyTorch — 연구자가 가장 사랑하는 프레임워크

곰돌이

26/04/27

155

AI와 금융 — 알고리즘 트레이딩·신용평가

멍뭉이

26/04/27

154

로보틱스 — AI와 로봇의 만남

구름이

26/04/27

153

게임 AI — NPC와 적응형 난이도

토순이

26/04/27

152

비디오 생성 — Sora·Runway

야옹이

26/04/27

151

음악 생성 AI — Suno·Udio

햇살이

26/04/27

150

음성 합성(TTS) — 자연스러운 목소리 만들기

햇살이

26/04/27

149

음성 인식 — Whisper·STT의 원리

구름이

26/04/27

148

광고 타겟팅 — AI가 만드는 맞춤 광고

별님이

26/04/27

147

협업 필터링과 콘텐츠 기반 추천

너구리

26/04/27

146

추천 시스템 — 넷플릭스·유튜브의 비밀

햇살이

26/04/27

145

신약 개발에 쓰이는 AI

부엉이

26/04/27

144

의료 AI — 영상 판독에 강한 이유

야옹이

26/04/27

143

자율주행의 센서 — 카메라·라이다·레이더

햇살이

26/04/27

142

자율주행 — 레벨 0~5의 의미

너구리

26/04/27

141

OCR — 글자를 알아보는 AI

멍뭉이

26/04/27

140

얼굴 인식과 그 윤리

부엉이

26/04/27

139

이미지 분할(segmentation)

토순이

26/04/27

138

객체 검출(object detection)

너구리

26/04/27

137

컴퓨터 비전 — 이미지 분류

야옹이

26/04/27

136

챗봇과 음성 비서

햇살이

26/04/27

135

질의응답 시스템(Q&A)

햇살이

26/04/27

134

요약(summarization) — 추출형과 생성형

야옹이

26/04/27

133

감정 분석(sentiment analysis)

너구리

26/04/27

132

기계 번역 — 통계 번역에서 신경망 번역까지

너구리

26/04/27

131

자연어 처리(NLP)가 다루는 일곱 가지 문제

별님이

26/04/27