파이썬

웹 스크래핑 윤리 — robots.txt와 매너

곰돌이 | 2026.04.27 13:06:12

조회 22 | 추천 0

기술적으로 가능하다고 다 해도 되는 건 아닙니다.

웹 스크래핑은 법적·윤리적 이슈가 따라옵니다.

잘못 운영하면 사이트를 부담스럽게 만들고 IP 차단·법적 분쟁까지 갑니다.

robots.txt를 읽으세요.

거의 모든 사이트는 https://example.com/robots.txt에 「봇이 접근해도 되는 영역」을 명시합니다.

User-agent와 Disallow 규칙이 있고, 이를 무시하는 건 법적 분쟁의 단초가 될 수 있습니다.

요청 간격을 두세요(rate limiting).

time.sleep(1)이라도 넣어서 1초에 1요청, 무거운 페이지는 5초 이상 권장.

동시 연결 수도 제한.

짧은 시간에 수천 요청 보내면 사실상 DoS 공격이 되어 차단·법적 문제가 따릅니다.

User-Agent 헤더.

본인을 식별할 수 있게 적으세요.

"my-research-bot/1.0 (contact: email@example.com)" 식.

사이트 운영자가 문의할 채널을 줍니다.

가짜 브라우저 UA 위장은 의도적 회피로 간주될 수 있습니다.

공식 API가 있으면 그것부터.

트위터·인스타·유튜브·국세청 모두 공식 API가 있습니다.

스크래핑은 「API가 없거나 부족할 때」의 최후 수단이고, ToS(이용약관)와 저작권을 반드시 확인해야 합니다.

한 줄 요약

스크래핑은 robots.txt 존중, 충분한 간격, 식별 가능한 User-Agent, 공식 API 우선이 기본 매너입니다.

무리하면 차단·법적 문제로 이어집니다.

더 알아볼 것

- 국가별 스크래핑 관련 법률

- API가 우선

- 상업적 이용 시 ToS 검토

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
131	Django — 풀스택 웹 프레임워크	부엉이	26/04/27	15
130	Flask 라우팅과 Jinja2 템플릿	야옹이	26/04/27	15
129	Flask — 마이크로 웹 프레임워크	별님이	26/04/27	15
128	Playwright — 모던한 브라우저 자동화	너구리	26/04/27	18
127	Selenium — 브라우저 자동화의 고전	부엉이	26/04/27	14
126	lxml과 CSS 셀렉터 — 더 빠른 파싱	구름이	26/04/27	16
125	웹 스크래핑 윤리 — robots.txt와 매너	곰돌이	26/04/27	22
124	BeautifulSoup — HTML 파싱의 친구	곰돌이	26/04/27	18
123	urllib과 http.client — 표준 라이브러리 저수준	야옹이	26/04/27	19
122	JSON API 다루기 — 송수신의 기본	멍뭉이	26/04/27	16
121	requests 세션 — 쿠키와 헤더 자동 유지	토순이	26/04/27	16
120	requests — 파이썬 HTTP 클라이언트의 표준	토순이	26/04/27	16
119	데이터 분석 워크플로 — EDA부터 보고까지	별님이	26/04/27	19
118	scikit-learn — 머신러닝의 표준	다람쥐	26/04/27	15
117	Polars — 더 빠른 새 DataFrame	별님이	26/04/27	15
116	melt와 pivot — long ↔ wide 변환	다람쥐	26/04/27	14
115	SQLAlchemy — DB와 파이썬 연결	햇살이	26/04/27	13
114	엑셀 파일 다루기 — openpyxl과 pandas	너구리	26/04/27	11
113	Plotly — 인터랙티브 시각화	부엉이	26/04/27	17
112	Seaborn — 통계 시각화에 강한	야옹이	26/04/27	15
111	한국어 폰트 설정 — 깨진 한글 해결	햇살이	26/04/27	18
110	Matplotlib — 시각화의 기초	곰돌이	26/04/27	13
109	apply — 임의 함수 적용	토순이	26/04/27	15
108	시계열 데이터 — DatetimeIndex와 리샘플링	햇살이	26/04/27	16
107	결측치 처리 — dropna와 fillna	멍뭉이	26/04/27	15
106	pivot_table — 피벗 테이블 만들기	햇살이	26/04/27	13
105	merge와 join — 데이터 결합	햇살이	26/04/27	13
104	groupby — 그룹별 집계	햇살이	26/04/27	15
103	DataFrame 필터링과 조건 선택	야옹이	26/04/27	15
102	DataFrame 인덱싱 — loc과 iloc	너구리	26/04/27	12

글쓰기

신고하기

신고 사유를 선택해 주세요.