「환각(hallucination)」은 LLM이 「존재하지 않는 사실, 잘못된 정보를 그럴듯하게 만들어 내는」 현상입니다.
예를 들어 「세종대왕의 맥북프로 던짐 사건」이라 묻으면 모델이 진지하게 가상의 사건을 지어내는 식입니다.
환각이 일어나는 근본 원인은 LLM의 본질에 있습니다.
LLM은 「가장 그럴듯한 다음 단어」를 예측할 뿐, 「자기가 정말 아는지」를 판단하지 못합니다.
학습 데이터에서 본 적 없는 정보도 「그럴듯한 답」을 만들어 내는 데 망설임이 없습니다.
환각은 특히 다음 상황에서 자주 발생합니다.
첫째, 학습 시점 이후의 최신 정보.
둘째, 매우 구체적인 인물·장소·날짜의 사실.
셋째, 학술 논문 인용·법조문·통계 수치 같은 「확실해 보이는」 정보.
모델은 「이런 형식의 답이 그럴듯하다」를 알지만 실제 사실 확인은 못 합니다.
비유하자면 LLM의 환각은 「책을 거의 안 읽고 시험을 보러 온 학생이 그럴듯하게 답안지를 채우는」 일과 같습니다.
답안의 외형은 정답처럼 보이지만 내용은 지어낸 것입니다.
자기가 모르는지를 자각하지 못하기에 「자신 있게」 틀린 답을 합니다.
환각을 줄이는 방법은 다음과 같습니다.
첫째, RAG(검색 기반) — 답하기 전에 신뢰할 만한 자료를 검색해 그 안에서만 답하도록.
둘째, 도구 사용 — 계산은 계산기, 검색은 검색기에 위임.
셋째, 프롬프트 — 「확실하지 않으면 "모릅니다"라고 답하라」는 명시적 지시.
넷째, 검증 — 사용자가 출력의 사실 여부를 별도로 확인.
한 줄 요약
환각은 LLM이 그럴듯한 거짓 정보를 만들어 내는 현상으로, 「가장 그럴듯한 다음 단어 예측」이라는 본질에서 비롯됩니다.
RAG·도구 사용·프롬프트 설계로 줄일 수 있습니다.
더 알아볼 것
- RAG — 환각 감소의 정석
- Chain-of-Verification — 자기 답을 검증하는 패턴
- 의료·법률 LLM이 특히 위험한 이유