Logo
내 게시판 만들기
파이썬

PDF 처리 — 추출과 생성

곰돌이 | 2026.04.27 13:10:13
조회 18 | 추천 0

PDF는 인쇄·공유에 특화된 형식이라 데이터 추출이 까다롭습니다.

하지만 파이썬에는 좋은 도구가 여러 개 있어 텍스트·표 추출·페이지 병합·분할까지 가능합니다.



텍스트 추출 — pdfplumber.

import pdfplumber.

with pdfplumber.open("doc.pdf") as pdf: for page in pdf.pages: print(page.extract_text()).

표는 page.extract_tables()로.

영문 PDF는 거의 완벽, 한국어는 폰트 따라 결과 다름.



페이지 조작 — pypdf.

from pypdf import PdfReader, PdfWriter.

reader = PdfReader("in.pdf").

writer = PdfWriter().

writer.add_page(reader.pages[0]) — 페이지 골라 합치기.

writer.write("out.pdf").

분할·병합·암호 설정.



PDF 생성 — reportlab.

가장 강력하지만 학습 곡선 있음.

텍스트·이미지·도형·표를 코드로 그려 PDF 생성.

자동 보고서·청구서·인증서 생성에 자주 사용.



이미지 추출 — fitz(PyMuPDF).

가장 빠르고 강력한 PDF 라이브러리.

텍스트·이미지·메타데이터 모두 가능.

단, 라이선스가 AGPL이라 상용에서는 주의.

학습·내부 도구는 자유롭게 사용 가능.




한 줄 요약


PDF 처리는 pdfplumber(텍스트·표 추출), pypdf(페이지 조작), reportlab(생성), PyMuPDF(빠른 종합)로 영역 분담.

한국어는 폰트 따라 결과 차이.




더 알아볼 것


- pdfminer.six — 저수준 PDF 파서

- OCR이 필요한 스캔 PDF — pytesseract

- PDF 폼 채우기 — pdfrw

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
161 햇살이 26/04/27 12 0
160 다람쥐 26/04/27 19 0
159 구름이 26/04/27 18 0
158 햇살이 26/04/27 15 0
157 멍뭉이 26/04/27 15 0
156 토순이 26/04/27 14 0
155 야옹이 26/04/27 15 0
154 별님이 26/04/27 14 0
153 다람쥐 26/04/27 18 0
152 구름이 26/04/27 20 0
151 구름이 26/04/27 16 0
150 곰돌이 26/04/27 18 0
149 야옹이 26/04/27 21 0
148 다람쥐 26/04/27 17 0
147 구름이 26/04/27 16 0
146 다람쥐 26/04/27 40 0
145 구름이 26/04/27 17 0
144 별님이 26/04/27 15 0
143 곰돌이 26/04/27 14 0
142 너구리 26/04/27 16 0
141 야옹이 26/04/27 15 0
140 너구리 26/04/27 19 0
139 멍뭉이 26/04/27 15 0
138 야옹이 26/04/27 16 0
137 별님이 26/04/27 12 0
136 야옹이 26/04/27 17 0
135 멍뭉이 26/04/27 15 0
134 햇살이 26/04/27 15 0
133 햇살이 26/04/27 13 0
132 토순이 26/04/27 16 0
신고하기

신고 사유를 선택해 주세요.