OCR — 이미지에서 텍스트 추출

곰돌이 | 2026.04.27 13:10:22

조회 14 | 추천 0

OCR(Optical Character Recognition)은 「이미지·스캔·스크린샷에서 텍스트를 인식」하는 기술입니다.

영수증 자동 입력, 스캔 PDF 변환, 화면 캡처 자동 분석 등에 사용.

tesseract — 사실상 표준.

Google 후원의 오픈소스 OCR 엔진.

brew install tesseract / apt install tesseract-ocr.

한국어는 별도 언어 데이터(tesseract-ocr-kor) 설치.

파이썬 사용.

pip install pytesseract pillow.

from PIL import Image; import pytesseract.

text = pytesseract.image_to_string(Image.open("img.png"), lang="kor+eng").

한국어와 영어 동시 인식 가능.

정확도 향상.

1) 흑백 + 이진화로 대비 강화(PIL의 .convert("L")).

2) 노이즈 제거(블러).

3) 회전 보정.

4) 해상도 충분히(300dpi 이상).

깨끗한 인쇄물은 95%+, 손글씨는 50% 이하인 경우도.

클라우드 OCR — 더 강력.

Google Cloud Vision, AWS Textract, Azure OCR이 손글씨·복잡한 레이아웃에 훨씬 강함.

tesseract는 무료·로컬, 클라우드는 유료지만 정확도 차이 큽니다.

영수증·신분증은 클라우드 권장.

한 줄 요약

OCR은 tesseract + pytesseract가 표준 무료 옵션, 한국어는 별도 데이터 필요.

전처리(이진화·노이즈 제거)로 정확도 향상, 손글씨는 클라우드 OCR 우위.

더 알아볼 것

- EasyOCR — 딥러닝 기반 더 쉬운 OCR

- PaddleOCR — 중국·한국어 강함

- Google Vision API

번호	제목	글쓴이	작성일	조회
191	threading — 스레드 기초	부엉이	26/04/27	13
190	aiohttp와 httpx — 비동기 HTTP	곰돌이	26/04/27	17
189	asyncio.create_task — 백그라운드 태스크	부엉이	26/04/27	16
188	asyncio.gather — 동시 실행의 핵심	부엉이	26/04/27	13
187	async와 await — 비동기 함수의 문법	멍뭉이	26/04/27	12
186	asyncio — 비동기 IO의 표준	부엉이	26/04/27	13
185	타입 검사 — mypy와 ruff	햇살이	26/04/27	15
184	pip · poetry · uv — 패키지 관리의 진화	곰돌이	26/04/27	15
183	conda — 데이터 사이언스 환경	부엉이	26/04/27	11
182	venv — 가상환경의 표준	멍뭉이	26/04/27	14
181	memory_profiler — 메모리 사용 분석	부엉이	26/04/27	14
180	cProfile — 실제 병목 찾기	야옹이	26/04/27	13
179	timeit — 짧은 코드 성능 측정	햇살이	26/04/27	16
178	faulthandler — 세그폴트와 멈춤 추적	야옹이	26/04/27	16
177	traceback — 에러 추적과 분석	햇살이	26/04/27	15
176	ipdb·pudb — 더 친절한 디버거	너구리	26/04/27	13
175	pdb — 표준 디버거	멍뭉이	26/04/27	12
174	디버깅 기초 — print에서 디버거로	곰돌이	26/04/27	13
173	assert문 — 단언과 활용	토순이	26/04/27	9
172	tox — 여러 환경 한꺼번에 테스트	토순이	26/04/27	15
171	coverage — 코드 커버리지 측정	햇살이	26/04/27	13
170	unittest.mock — 외부 의존성 가짜로 만들기	멍뭉이	26/04/27	12
169	parametrize — 데이터 기반 테스트	토순이	26/04/27	13
168	pytest fixture — 테스트 데이터·환경 관리	다람쥐	26/04/27	14
167	pytest — 모던 테스트 프레임워크	곰돌이	26/04/27	15
166	unittest — 표준 테스트 프레임워크	다람쥐	26/04/27	15
165	ETL과 워크플로 자동화 — Airflow 소개	토순이	26/04/27	13
164	음성 합성·인식 — gTTS와 SpeechRecognition	구름이	26/04/27	18
163	OCR — 이미지에서 텍스트 추출	곰돌이	26/04/27	14
162	마우스·키보드 자동화 — pyautogui	다람쥐	26/04/27	12

번호

제목

글쓴이

작성일

조회

191

threading — 스레드 기초

부엉이

26/04/27

190

aiohttp와 httpx — 비동기 HTTP

곰돌이

26/04/27

189

asyncio.create_task — 백그라운드 태스크

부엉이

26/04/27

188

asyncio.gather — 동시 실행의 핵심

부엉이

26/04/27

187

async와 await — 비동기 함수의 문법

멍뭉이

26/04/27

186

asyncio — 비동기 IO의 표준

부엉이

26/04/27

185

타입 검사 — mypy와 ruff

햇살이

26/04/27

184

pip · poetry · uv — 패키지 관리의 진화

곰돌이

26/04/27

183

conda — 데이터 사이언스 환경

부엉이

26/04/27

182

venv — 가상환경의 표준

멍뭉이

26/04/27

181

memory_profiler — 메모리 사용 분석

부엉이

26/04/27

180

cProfile — 실제 병목 찾기

야옹이

26/04/27

179

timeit — 짧은 코드 성능 측정

햇살이

26/04/27

178

faulthandler — 세그폴트와 멈춤 추적

야옹이

26/04/27

177

traceback — 에러 추적과 분석

햇살이

26/04/27

176

ipdb·pudb — 더 친절한 디버거

너구리

26/04/27

175

pdb — 표준 디버거

멍뭉이

26/04/27

174

디버깅 기초 — print에서 디버거로

곰돌이

26/04/27

173

assert문 — 단언과 활용

토순이

26/04/27

172

tox — 여러 환경 한꺼번에 테스트

토순이

26/04/27

171

coverage — 코드 커버리지 측정

햇살이

26/04/27

170

unittest.mock — 외부 의존성 가짜로 만들기

멍뭉이

26/04/27

169

parametrize — 데이터 기반 테스트

토순이

26/04/27

168

pytest fixture — 테스트 데이터·환경 관리

다람쥐

26/04/27

167

pytest — 모던 테스트 프레임워크

곰돌이

26/04/27

166

unittest — 표준 테스트 프레임워크

다람쥐

26/04/27

165

ETL과 워크플로 자동화 — Airflow 소개

토순이

26/04/27

164

음성 합성·인식 — gTTS와 SpeechRecognition

구름이

26/04/27

163

OCR — 이미지에서 텍스트 추출

곰돌이

26/04/27

162

마우스·키보드 자동화 — pyautogui

다람쥐

26/04/27