챗봇(chatbot)과 음성 비서(voice assistant)는 「사용자와 자연어로 대화하며 작업을 돕는 AI 시스템」입니다.
텍스트 기반은 챗봇, 음성 기반은 비서로 부르지만 본질은 같습니다.
카카오톡 챗봇, 시리, 알렉사, 빅스비, 구글 어시스턴트가 모두 여기에 속합니다.
챗봇의 진화는 크게 세 단계입니다.
1세대는 「규칙 기반」 — 「"안녕"이라는 단어가 들어오면 "안녕하세요"로 답하라」 같은 규칙을 사람이 일일이 적었습니다.
좁은 시나리오는 잘 처리하지만 범위를 벗어나면 무너졌습니다.
2세대는 「머신러닝 기반(intent classification)」 — 사용자 발화를 「의도(intent)」로 분류한 뒤 정해진 답을 내는 방식.
카카오 i Open builder, Dialogflow, Rasa 같은 도구들이 이 패러다임에 속합니다.
더 유연하지만 여전히 사전에 정의된 의도만 처리할 수 있습니다.
3세대는 「LLM 기반」 — ChatGPT 등장 이후의 흐름.
사전 정의 없이 거의 모든 주제에 대해 자연스럽게 대화하고, 도구 호출·코드 실행·검색까지 결합해 진짜 「업무 보조」 수준에 도달했습니다.
한 번에 다단계 작업을 자율적으로 처리하는 「에이전트」 형태로 진화 중입니다.
음성 비서는 챗봇 위에 「음성 인식(STT)」과 「음성 합성(TTS)」이 더해진 형태입니다.
「Hey Siri」 같은 호출어 인식, 시끄러운 환경의 음성 분리, 자연스러운 합성 음성, 짧은 응답 지연 등 음성 특유의 어려움이 있습니다.
최근의 GPT-4o, Gemini Live는 음성 대화의 자연스러움을 사람 수준으로 끌어올렸습니다.
한 줄 요약
챗봇·음성 비서는 1세대 규칙 → 2세대 의도 분류 → 3세대 LLM으로 진화했고, 현재는 「자연어 + 도구 사용」의 에이전트 단계로 발전 중입니다.
음성은 STT·TTS가 더해진 형태입니다.
더 알아볼 것
- Wake word detection — 「Hey Siri」 인식
- Multi-turn dialogue — 대화 맥락 유지
- 엔터프라이즈 챗봇 도입 패턴