파이썬

OCR — 이미지에서 텍스트 추출

곰돌이 | 2026.04.27 13:10:22

조회 15 | 추천 0

OCR(Optical Character Recognition)은 「이미지·스캔·스크린샷에서 텍스트를 인식」하는 기술입니다.

영수증 자동 입력, 스캔 PDF 변환, 화면 캡처 자동 분석 등에 사용.

tesseract — 사실상 표준.

Google 후원의 오픈소스 OCR 엔진.

brew install tesseract / apt install tesseract-ocr.

한국어는 별도 언어 데이터(tesseract-ocr-kor) 설치.

파이썬 사용.

pip install pytesseract pillow.

from PIL import Image; import pytesseract.

text = pytesseract.image_to_string(Image.open("img.png"), lang="kor+eng").

한국어와 영어 동시 인식 가능.

정확도 향상.

1) 흑백 + 이진화로 대비 강화(PIL의 .convert("L")).

2) 노이즈 제거(블러).

3) 회전 보정.

4) 해상도 충분히(300dpi 이상).

깨끗한 인쇄물은 95%+, 손글씨는 50% 이하인 경우도.

클라우드 OCR — 더 강력.

Google Cloud Vision, AWS Textract, Azure OCR이 손글씨·복잡한 레이아웃에 훨씬 강함.

tesseract는 무료·로컬, 클라우드는 유료지만 정확도 차이 큽니다.

영수증·신분증은 클라우드 권장.

한 줄 요약

OCR은 tesseract + pytesseract가 표준 무료 옵션, 한국어는 별도 데이터 필요.

전처리(이진화·노이즈 제거)로 정확도 향상, 손글씨는 클라우드 OCR 우위.

더 알아볼 것

- EasyOCR — 딥러닝 기반 더 쉬운 OCR

- PaddleOCR — 중국·한국어 강함

- Google Vision API

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
191	threading — 스레드 기초	부엉이	26/04/27	14
190	aiohttp와 httpx — 비동기 HTTP	곰돌이	26/04/27	17
189	asyncio.create_task — 백그라운드 태스크	부엉이	26/04/27	16
188	asyncio.gather — 동시 실행의 핵심	부엉이	26/04/27	15
187	async와 await — 비동기 함수의 문법	멍뭉이	26/04/27	12
186	asyncio — 비동기 IO의 표준	부엉이	26/04/27	13
185	타입 검사 — mypy와 ruff	햇살이	26/04/27	16
184	pip · poetry · uv — 패키지 관리의 진화	곰돌이	26/04/27	15
183	conda — 데이터 사이언스 환경	부엉이	26/04/27	12
182	venv — 가상환경의 표준	멍뭉이	26/04/27	15
181	memory_profiler — 메모리 사용 분석	부엉이	26/04/27	14
180	cProfile — 실제 병목 찾기	야옹이	26/04/27	14
179	timeit — 짧은 코드 성능 측정	햇살이	26/04/27	18
178	faulthandler — 세그폴트와 멈춤 추적	야옹이	26/04/27	16
177	traceback — 에러 추적과 분석	햇살이	26/04/27	15
176	ipdb·pudb — 더 친절한 디버거	너구리	26/04/27	13
175	pdb — 표준 디버거	멍뭉이	26/04/27	13
174	디버깅 기초 — print에서 디버거로	곰돌이	26/04/27	14
173	assert문 — 단언과 활용	토순이	26/04/27	11
172	tox — 여러 환경 한꺼번에 테스트	토순이	26/04/27	16
171	coverage — 코드 커버리지 측정	햇살이	26/04/27	13
170	unittest.mock — 외부 의존성 가짜로 만들기	멍뭉이	26/04/27	13
169	parametrize — 데이터 기반 테스트	토순이	26/04/27	13
168	pytest fixture — 테스트 데이터·환경 관리	다람쥐	26/04/27	15
167	pytest — 모던 테스트 프레임워크	곰돌이	26/04/27	17
166	unittest — 표준 테스트 프레임워크	다람쥐	26/04/27	17
165	ETL과 워크플로 자동화 — Airflow 소개	토순이	26/04/27	14
164	음성 합성·인식 — gTTS와 SpeechRecognition	구름이	26/04/27	20
163	OCR — 이미지에서 텍스트 추출	곰돌이	26/04/27	15
162	마우스·키보드 자동화 — pyautogui	다람쥐	26/04/27	12

글쓰기

신고하기

신고 사유를 선택해 주세요.