요약(summarization)은 「긴 글을 짧고 핵심적인 글로 줄이는」 NLP 작업입니다.
뉴스 기사 요약, 회의록 정리, 논문 초록 작성, 책의 핵심 메시지 추출 같은 산업적 활용이 풍부합니다.
정보 과잉 시대에 점점 더 중요해지는 영역입니다.
요약은 두 가지 큰 접근이 있습니다.
첫째, 「추출형(extractive)」 — 원문에서 가장 중요한 문장 몇 개를 그대로 골라 나열합니다.
결과가 원문에 충실하고 사실 왜곡 위험이 적지만, 읽었을 때 부자연스러울 수 있습니다.
둘째, 「생성형(abstractive)」 — 원문의 의미를 이해한 뒤 새로운 문장을 만들어 냅니다.
사람이 쓴 듯 자연스럽지만, 「환각(원문에 없는 내용)」이 들어갈 위험이 있습니다.
현대 LLM 기반 요약은 거의 모두 생성형입니다.
비유하자면 추출형은 「책에서 중요한 문장에 형광펜을 칠해 그대로 옮기는 일」이고, 생성형은 「책을 읽은 뒤 친구에게 입말로 풀어 들려주는 일」과 같습니다.
형광펜은 안전하지만 어색하고, 입말은 자연스럽지만 약간의 왜곡 가능성이 있습니다.
현장에서는 두 방식의 결합이 흔합니다.
「먼저 원문에서 핵심 문단을 추출 → 그 핵심을 바탕으로 자연스러운 문장으로 다듬기」 식의 2단계 파이프라인입니다.
또 LLM의 환각을 줄이기 위해 「원문에 없는 내용은 절대 추가하지 마라」는 명시적 프롬프트가 함께 쓰입니다.
한 줄 요약
요약은 추출형(원문 문장 그대로 선택)과 생성형(새 문장으로 표현) 두 갈래로 나뉘며, 현대 LLM 요약은 자연스럽지만 환각 위험이 있어 두 방식의 결합이 흔합니다.
더 알아볼 것
- ROUGE 점수 — 요약 품질 평가
- Pegasus — 요약 특화 모델
- 회의록 자동 작성 도구들