자연어 처리(NLP, Natural Language Processing)는 「컴퓨터가 사람의 언어를 이해하고 생성하도록 하는」 AI의 한 분야입니다.
다루는 문제가 매우 다양한데, 큰 줄기로 나누면 일곱 가지로 정리할 수 있습니다.
1) 분류(Classification) — 「이 글이 스팸인가/아닌가」, 「감정이 긍정인가/부정인가」처럼 텍스트를 정해진 범주로 나누는 일입니다.
가장 기본적이고 산업에서 가장 많이 쓰입니다.
2) 명명된 개체 인식(NER) — 「오늘 김철수가 강남에서 삼성전자를 방문했다」에서 「김철수=인물, 강남=장소, 삼성전자=조직」을 자동으로 뽑아내는 일입니다.
3) 기계 번역(Machine Translation) — 한 언어를 다른 언어로 자동 번역.
4) 요약(Summarization) — 긴 글을 짧게 줄이기.
5) 질의응답(Q&A) — 주어진 자료를 바탕으로 사용자 질문에 답하기.
6) 텍스트 생성(Text Generation) — 짧은 시작에서 긴 글을 만들어 내기(ChatGPT가 이 분야의 대표).
7) 대화 시스템(Dialogue System) — 사용자와 자연스럽게 대화하는 챗봇·음성 비서.
이 일곱 가지는 서로 겹치는 부분이 있고, 현대 LLM은 이 모든 일을 한 모델로 처리할 수 있게 됐습니다.
그 전에는 각 작업마다 별도의 모델이 필요했지만, GPT 같은 LLM 등장 이후 「프롬프트 한 줄」로 모든 작업을 옮겨 다닐 수 있게 됐습니다.
한 줄 요약
NLP는 분류·NER·번역·요약·Q&A·생성·대화의 일곱 가지 큰 문제로 나뉘며, 현대 LLM은 이 모든 일을 한 모델로 처리할 수 있는 단계까지 왔습니다.
더 알아볼 것
- NER — 명명된 개체 인식의 응용
- SQuAD — 질의응답 표준 벤치마크
- GLUE·SuperGLUE — NLP 종합 벤치마크