PDF 처리 — 추출과 생성

곰돌이 | 2026.04.27 13:10:13

조회 18 | 추천 0

PDF는 인쇄·공유에 특화된 형식이라 데이터 추출이 까다롭습니다.

하지만 파이썬에는 좋은 도구가 여러 개 있어 텍스트·표 추출·페이지 병합·분할까지 가능합니다.

텍스트 추출 — pdfplumber.

import pdfplumber.

with pdfplumber.open("doc.pdf") as pdf: for page in pdf.pages: print(page.extract_text()).

표는 page.extract_tables()로.

영문 PDF는 거의 완벽, 한국어는 폰트 따라 결과 다름.

페이지 조작 — pypdf.

from pypdf import PdfReader, PdfWriter.

reader = PdfReader("in.pdf").

writer = PdfWriter().

writer.add_page(reader.pages[0]) — 페이지 골라 합치기.

writer.write("out.pdf").

분할·병합·암호 설정.

PDF 생성 — reportlab.

가장 강력하지만 학습 곡선 있음.

텍스트·이미지·도형·표를 코드로 그려 PDF 생성.

자동 보고서·청구서·인증서 생성에 자주 사용.

이미지 추출 — fitz(PyMuPDF).

가장 빠르고 강력한 PDF 라이브러리.

텍스트·이미지·메타데이터 모두 가능.

단, 라이선스가 AGPL이라 상용에서는 주의.

학습·내부 도구는 자유롭게 사용 가능.

한 줄 요약

PDF 처리는 pdfplumber(텍스트·표 추출), pypdf(페이지 조작), reportlab(생성), PyMuPDF(빠른 종합)로 영역 분담.

한국어는 폰트 따라 결과 차이.

더 알아볼 것

- pdfminer.six — 저수준 PDF 파서

- OCR이 필요한 스캔 PDF — pytesseract

- PDF 폼 채우기 — pdfrw

번호	제목	글쓴이	작성일	조회
161	스크린샷 — 자동 화면 캡처	햇살이	26/04/27	12
160	클립보드 자동화 — pyperclip	다람쥐	26/04/27	19
159	데스크톱 알림 — 일이 끝났음을 알리기	구름이	26/04/27	18
158	로깅 자동화 — 운영 가시성	햇살이	26/04/27	15
157	환경변수와 .env — 비밀 관리	멍뭉이	26/04/27	15
156	cron과 systemd timer — 시스템 통합	토순이	26/04/27	14
155	일정 자동화 — schedule와 APScheduler	야옹이	26/04/27	15
154	카카오·텔레그램 봇 — 한국 메신저 자동화	별님이	26/04/27	14
153	슬랙·디스코드 봇으로 알림 자동화	다람쥐	26/04/27	18
152	이메일 읽기·자동 분류 — imaplib	구름이	26/04/27	20
151	이메일 보내기 — smtplib	구름이	26/04/27	16
150	PDF 처리 — 추출과 생성	곰돌이	26/04/27	18
149	엑셀 자동화 — openpyxl 실무	야옹이	26/04/27	21
148	CSV 처리 자동화 — 표준 csv 모듈	다람쥐	26/04/27	17
147	일괄 파일 이름 변경	구름이	26/04/27	16
146	파일·디렉토리 정리 자동화	다람쥐	26/04/27	40
145	캐싱 전략 — Redis와 메모이제이션	구름이	26/04/27	17
144	정적 파일과 CDN — 빠른 자원 전송	별님이	26/04/27	15
143	세션과 쿠키 — 전통적 인증의 기본	곰돌이	26/04/27	14
142	JWT — 토큰 기반 인증	너구리	26/04/27	16
141	CORS — 다른 출처 요청 처리	야옹이	26/04/27	15
140	WSGI와 ASGI — 파이썬 웹의 두 표준	너구리	26/04/27	19
139	Jinja2 템플릿 엔진 — HTML과 데이터 결합	멍뭉이	26/04/27	15
138	WebSocket — 실시간 양방향 통신	야옹이	26/04/27	16
137	REST API 설계 원칙	별님이	26/04/27	12
136	Pydantic — 데이터 검증과 타입 안전	야옹이	26/04/27	17
135	FastAPI 의존성 주입 — Depends	멍뭉이	26/04/27	15
134	FastAPI — 모던 비동기 API 프레임워크	햇살이	26/04/27	15
133	Django Admin — 관리자 페이지 자동 생성	햇살이	26/04/27	13
132	Django ORM — 모델로 DB 다루기	토순이	26/04/27	16

번호

제목

글쓴이

작성일

조회

161

스크린샷 — 자동 화면 캡처

햇살이

26/04/27

160

클립보드 자동화 — pyperclip

다람쥐

26/04/27

159

데스크톱 알림 — 일이 끝났음을 알리기

구름이

26/04/27

158

로깅 자동화 — 운영 가시성

햇살이

26/04/27

157

환경변수와 .env — 비밀 관리

멍뭉이

26/04/27

156

cron과 systemd timer — 시스템 통합

토순이

26/04/27

155

일정 자동화 — schedule와 APScheduler

야옹이

26/04/27

154

카카오·텔레그램 봇 — 한국 메신저 자동화

별님이

26/04/27

153

슬랙·디스코드 봇으로 알림 자동화

다람쥐

26/04/27

152

이메일 읽기·자동 분류 — imaplib

구름이

26/04/27

151

이메일 보내기 — smtplib

구름이

26/04/27

150

PDF 처리 — 추출과 생성

곰돌이

26/04/27

149

엑셀 자동화 — openpyxl 실무

야옹이

26/04/27

148

CSV 처리 자동화 — 표준 csv 모듈

다람쥐

26/04/27

147

일괄 파일 이름 변경

구름이

26/04/27

146

파일·디렉토리 정리 자동화

다람쥐

26/04/27

145

캐싱 전략 — Redis와 메모이제이션

구름이

26/04/27

144

정적 파일과 CDN — 빠른 자원 전송

별님이

26/04/27

143

세션과 쿠키 — 전통적 인증의 기본

곰돌이

26/04/27

142

JWT — 토큰 기반 인증

너구리

26/04/27

141

CORS — 다른 출처 요청 처리

야옹이

26/04/27

140

WSGI와 ASGI — 파이썬 웹의 두 표준

너구리

26/04/27

139

Jinja2 템플릿 엔진 — HTML과 데이터 결합

멍뭉이

26/04/27

138

WebSocket — 실시간 양방향 통신

야옹이

26/04/27

137

REST API 설계 원칙

별님이

26/04/27

136

Pydantic — 데이터 검증과 타입 안전

야옹이

26/04/27

135

FastAPI 의존성 주입 — Depends

멍뭉이

26/04/27

134

FastAPI — 모던 비동기 API 프레임워크

햇살이

26/04/27

133

Django Admin — 관리자 페이지 자동 생성

햇살이

26/04/27

132

Django ORM — 모델로 DB 다루기

토순이

26/04/27