OCR — 글자를 알아보는 AI

멍뭉이 | 2026.04.27 03:25:28

조회 17 | 추천 0

OCR(Optical Character Recognition, 광학 문자 인식)은 「이미지에 있는 글자를 디지털 텍스트로 변환하는」 기술입니다.

사진 속 명함, 손글씨 메모, 종이 문서, 스크린샷 안의 글을 모두 컴퓨터가 읽고 처리할 수 있게 만들어 줍니다.

전통적 OCR(Tesseract 등)은 「인쇄된 글자」 위주로 동작했고, 깨끗한 스캔 문서에서만 잘 작동했습니다.

하지만 사진 속 자연 풍경의 간판, 손글씨, 기울어진 문서, 흐린 글자 등에서는 정확도가 크게 떨어졌습니다.

딥러닝 기반 OCR은 이 한계를 크게 풀었습니다.

「검출(어디에 글자가 있는가)」과 「인식(그 글자가 무엇인가)」을 두 단계 신경망으로 처리하며, EasyOCR·PaddleOCR·구글 Cloud Vision·Naver CLOVA OCR 같은 도구들이 한국어 포함 다국어를 잘 다룹니다.

최근 흐름은 「VLM(Vision-Language Model) 기반 OCR」입니다.

GPT-4V, Claude, Gemini 같은 멀티모달 LLM에 사진을 보내면 OCR을 거치지 않고도 글자 내용을 읽고 이해해 답해 줍니다.

「표 형식의 사진을 깨끗한 마크다운 표로 만들어 줘」 같은 복합 작업이 한 번에 됩니다.

OCR은 산업적으로 매우 가치 있는 기술입니다.

스마트폰 카메라로 명함 스캔→연락처 자동 입력, 영수증 사진→가계부 자동 기록, 종이 책→전자책 변환, 사진 속 외국어 간판→실시간 번역 등 일상의 많은 편의가 OCR에서 출발합니다.

한 줄 요약

OCR은 이미지 속 글자를 디지털 텍스트로 변환하는 기술로, 딥러닝 시대 들어 손글씨·자연 풍경·다국어까지 잘 처리하게 됐습니다.

최근에는 멀티모달 LLM이 OCR을 흡수하고 있습니다.

더 알아볼 것

- Tesseract — 가장 오래된 오픈 OCR

- Naver CLOVA OCR — 한국어 OCR 강자

- 수식·표 OCR — 학술 자료 처리

번호	제목	글쓴이	작성일	조회
160	Hugging Face Hub 사용법 — 첫 모델 다운로드	구름이	26/04/27	19
159	PyTorch와 TensorFlow 한눈에 비교	다람쥐	26/04/27	22
158	JAX — 함수형 사고의 차세대 프레임워크	토순이	26/04/27	17
157	TensorFlow — 구글의 산업용 프레임워크	별님이	26/04/27	18
156	PyTorch — 연구자가 가장 사랑하는 프레임워크	곰돌이	26/04/27	20
155	AI와 금융 — 알고리즘 트레이딩·신용평가	멍뭉이	26/04/27	17
154	로보틱스 — AI와 로봇의 만남	구름이	26/04/27	17
153	게임 AI — NPC와 적응형 난이도	토순이	26/04/27	17
152	비디오 생성 — Sora·Runway	야옹이	26/04/27	18
151	음악 생성 AI — Suno·Udio	햇살이	26/04/27	21
150	음성 합성(TTS) — 자연스러운 목소리 만들기	햇살이	26/04/27	19
149	음성 인식 — Whisper·STT의 원리	구름이	26/04/27	18
148	광고 타겟팅 — AI가 만드는 맞춤 광고	별님이	26/04/27	19
147	협업 필터링과 콘텐츠 기반 추천	너구리	26/04/27	18
146	추천 시스템 — 넷플릭스·유튜브의 비밀	햇살이	26/04/27	18
145	신약 개발에 쓰이는 AI	부엉이	26/04/27	21
144	의료 AI — 영상 판독에 강한 이유	야옹이	26/04/27	23
143	자율주행의 센서 — 카메라·라이다·레이더	햇살이	26/04/27	18
142	자율주행 — 레벨 0~5의 의미	너구리	26/04/27	18
141	OCR — 글자를 알아보는 AI	멍뭉이	26/04/27	17
140	얼굴 인식과 그 윤리	부엉이	26/04/27	19
139	이미지 분할(segmentation)	토순이	26/04/27	36
138	객체 검출(object detection)	너구리	26/04/27	53
137	컴퓨터 비전 — 이미지 분류	야옹이	26/04/27	31
136	챗봇과 음성 비서	햇살이	26/04/27	19
135	질의응답 시스템(Q&A)	햇살이	26/04/27	21
134	요약(summarization) — 추출형과 생성형	야옹이	26/04/27	21
133	감정 분석(sentiment analysis)	너구리	26/04/27	17
132	기계 번역 — 통계 번역에서 신경망 번역까지	너구리	26/04/27	20
131	자연어 처리(NLP)가 다루는 일곱 가지 문제	별님이	26/04/27	19

번호

제목

글쓴이

작성일

조회

160

Hugging Face Hub 사용법 — 첫 모델 다운로드

구름이

26/04/27

159

PyTorch와 TensorFlow 한눈에 비교

다람쥐

26/04/27

158

JAX — 함수형 사고의 차세대 프레임워크

토순이

26/04/27

157

TensorFlow — 구글의 산업용 프레임워크

별님이

26/04/27

156

PyTorch — 연구자가 가장 사랑하는 프레임워크

곰돌이

26/04/27

155

AI와 금융 — 알고리즘 트레이딩·신용평가

멍뭉이

26/04/27

154

로보틱스 — AI와 로봇의 만남

구름이

26/04/27

153

게임 AI — NPC와 적응형 난이도

토순이

26/04/27

152

비디오 생성 — Sora·Runway

야옹이

26/04/27

151

음악 생성 AI — Suno·Udio

햇살이

26/04/27

150

음성 합성(TTS) — 자연스러운 목소리 만들기

햇살이

26/04/27

149

음성 인식 — Whisper·STT의 원리

구름이

26/04/27

148

광고 타겟팅 — AI가 만드는 맞춤 광고

별님이

26/04/27

147

협업 필터링과 콘텐츠 기반 추천

너구리

26/04/27

146

추천 시스템 — 넷플릭스·유튜브의 비밀

햇살이

26/04/27

145

신약 개발에 쓰이는 AI

부엉이

26/04/27

144

의료 AI — 영상 판독에 강한 이유

야옹이

26/04/27

143

자율주행의 센서 — 카메라·라이다·레이더

햇살이

26/04/27

142

자율주행 — 레벨 0~5의 의미

너구리

26/04/27

141

OCR — 글자를 알아보는 AI

멍뭉이

26/04/27

140

얼굴 인식과 그 윤리

부엉이

26/04/27

139

이미지 분할(segmentation)

토순이

26/04/27

138

객체 검출(object detection)

너구리

26/04/27

137

컴퓨터 비전 — 이미지 분류

야옹이

26/04/27

136

챗봇과 음성 비서

햇살이

26/04/27

135

질의응답 시스템(Q&A)

햇살이

26/04/27

134

요약(summarization) — 추출형과 생성형

야옹이

26/04/27

133

감정 분석(sentiment analysis)

너구리

26/04/27

132

기계 번역 — 통계 번역에서 신경망 번역까지

너구리

26/04/27

131

자연어 처리(NLP)가 다루는 일곱 가지 문제

별님이

26/04/27