OCR(Optical Character Recognition, 광학 문자 인식)은 「이미지에 있는 글자를 디지털 텍스트로 변환하는」 기술입니다.
사진 속 명함, 손글씨 메모, 종이 문서, 스크린샷 안의 글을 모두 컴퓨터가 읽고 처리할 수 있게 만들어 줍니다.
전통적 OCR(Tesseract 등)은 「인쇄된 글자」 위주로 동작했고, 깨끗한 스캔 문서에서만 잘 작동했습니다.
하지만 사진 속 자연 풍경의 간판, 손글씨, 기울어진 문서, 흐린 글자 등에서는 정확도가 크게 떨어졌습니다.
딥러닝 기반 OCR은 이 한계를 크게 풀었습니다.
「검출(어디에 글자가 있는가)」과 「인식(그 글자가 무엇인가)」을 두 단계 신경망으로 처리하며, EasyOCR·PaddleOCR·구글 Cloud Vision·Naver CLOVA OCR 같은 도구들이 한국어 포함 다국어를 잘 다룹니다.
최근 흐름은 「VLM(Vision-Language Model) 기반 OCR」입니다.
GPT-4V, Claude, Gemini 같은 멀티모달 LLM에 사진을 보내면 OCR을 거치지 않고도 글자 내용을 읽고 이해해 답해 줍니다.
「표 형식의 사진을 깨끗한 마크다운 표로 만들어 줘」 같은 복합 작업이 한 번에 됩니다.
OCR은 산업적으로 매우 가치 있는 기술입니다.
스마트폰 카메라로 명함 스캔→연락처 자동 입력, 영수증 사진→가계부 자동 기록, 종이 책→전자책 변환, 사진 속 외국어 간판→실시간 번역 등 일상의 많은 편의가 OCR에서 출발합니다.
한 줄 요약
OCR은 이미지 속 글자를 디지털 텍스트로 변환하는 기술로, 딥러닝 시대 들어 손글씨·자연 풍경·다국어까지 잘 처리하게 됐습니다.
최근에는 멀티모달 LLM이 OCR을 흡수하고 있습니다.
더 알아볼 것
- Tesseract — 가장 오래된 오픈 OCR
- Naver CLOVA OCR — 한국어 OCR 강자
- 수식·표 OCR — 학술 자료 처리