OCR(Optical Character Recognition)은 「이미지·스캔·스크린샷에서 텍스트를 인식」하는 기술입니다.
영수증 자동 입력, 스캔 PDF 변환, 화면 캡처 자동 분석 등에 사용.
tesseract — 사실상 표준.
Google 후원의 오픈소스 OCR 엔진.
brew install tesseract / apt install tesseract-ocr.
한국어는 별도 언어 데이터(tesseract-ocr-kor) 설치.
파이썬 사용.
pip install pytesseract pillow.
from PIL import Image; import pytesseract.
text = pytesseract.image_to_string(Image.open("img.png"), lang="kor+eng").
한국어와 영어 동시 인식 가능.
정확도 향상.
1) 흑백 + 이진화로 대비 강화(PIL의 .convert("L")).
2) 노이즈 제거(블러).
3) 회전 보정.
4) 해상도 충분히(300dpi 이상).
깨끗한 인쇄물은 95%+, 손글씨는 50% 이하인 경우도.
클라우드 OCR — 더 강력.
Google Cloud Vision, AWS Textract, Azure OCR이 손글씨·복잡한 레이아웃에 훨씬 강함.
tesseract는 무료·로컬, 클라우드는 유료지만 정확도 차이 큽니다.
영수증·신분증은 클라우드 권장.
한 줄 요약
OCR은 tesseract + pytesseract가 표준 무료 옵션, 한국어는 별도 데이터 필요.
전처리(이진화·노이즈 제거)로 정확도 향상, 손글씨는 클라우드 OCR 우위.
더 알아볼 것
- EasyOCR — 딥러닝 기반 더 쉬운 OCR
- PaddleOCR — 중국·한국어 강함
- Google Vision API