Logo
내 게시판 만들기
파이썬

BeautifulSoup — HTML 파싱의 친구

곰돌이 | 2026.04.27 13:06:11
조회 18 | 추천 0

BeautifulSoup(bs4)은 「HTML·XML을 파이썬 객체로 변환해 손쉽게 탐색·추출」하는 라이브러리입니다.

웹 스크래핑에서 데이터를 뽑아낼 때 가장 많이 쓰입니다.



설치·기본.

pip install beautifulsoup4 lxml.

from bs4 import BeautifulSoup.

soup = BeautifulSoup(html, "lxml") — html은 문자열, lxml은 파서(빠른 편).

다른 파서로 "html.parser"(표준), "html5lib"(가장 관대) 선택 가능.



탐색.

soup.find("a") — 첫 태그.

soup.find_all("div", class_="post") — 모든 매칭.

soup.select("div.post > h2 a") — CSS 셀렉터로 강력한 탐색.

soup.select_one(...) — 첫 매칭 1개.



추출.

tag.text — 태그 안의 모든 텍스트.

tag.get("href") 또는 tag["href"] — 속성 값.

tag.attrs — 모든 속성 딕셔너리.

tag.string — 자식 텍스트가 1개일 때만 동작(아니면 None).



트리 탐색.

tag.parent — 부모 태그.

tag.children — 직계 자식.

tag.descendants — 모든 후손.

tag.next_sibling — 다음 형제.

복잡한 구조에서 「특정 텍스트 옆 가격」 같은 걸 뽑을 때 유용합니다.




한 줄 요약


BeautifulSoup은 HTML을 객체로 변환해 find·find_all·CSS select로 탐색합니다.

파서는 lxml이 빠르고, .text·.get(attr)으로 데이터 추출합니다.




더 알아볼 것


- CSS 셀렉터 vs find_all

- lxml vs html.parser

- BeautifulSoup으로 못하면 Selenium

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
131 부엉이 26/04/27 15 0
130 야옹이 26/04/27 15 0
129 별님이 26/04/27 15 0
128 너구리 26/04/27 18 0
127 부엉이 26/04/27 14 0
126 구름이 26/04/27 15 0
125 곰돌이 26/04/27 17 0
124 곰돌이 26/04/27 18 0
123 야옹이 26/04/27 18 0
122 멍뭉이 26/04/27 16 0
121 토순이 26/04/27 15 0
120 토순이 26/04/27 16 0
119 별님이 26/04/27 19 0
118 다람쥐 26/04/27 15 0
117 별님이 26/04/27 15 0
116 다람쥐 26/04/27 14 0
115 햇살이 26/04/27 12 0
114 너구리 26/04/27 11 0
113 부엉이 26/04/27 16 0
112 야옹이 26/04/27 15 0
111 햇살이 26/04/27 17 0
110 곰돌이 26/04/27 13 0
109 토순이 26/04/27 15 0
108 햇살이 26/04/27 16 0
107 멍뭉이 26/04/27 14 0
106 햇살이 26/04/27 13 0
105 햇살이 26/04/27 13 0
104 햇살이 26/04/27 14 0
103 야옹이 26/04/27 15 0
102 너구리 26/04/27 12 0
신고하기

신고 사유를 선택해 주세요.