Logo
내 게시판 만들기
파이썬

웹 스크래핑 윤리 — robots.txt와 매너

곰돌이 | 2026.04.27 13:06:12
조회 23 | 추천 0

기술적으로 가능하다고 다 해도 되는 건 아닙니다.

웹 스크래핑은 법적·윤리적 이슈가 따라옵니다.

잘못 운영하면 사이트를 부담스럽게 만들고 IP 차단·법적 분쟁까지 갑니다.



robots.txt를 읽으세요.

거의 모든 사이트는 https://example.com/robots.txt에 「봇이 접근해도 되는 영역」을 명시합니다.

User-agent와 Disallow 규칙이 있고, 이를 무시하는 건 법적 분쟁의 단초가 될 수 있습니다.



요청 간격을 두세요(rate limiting).

time.sleep(1)이라도 넣어서 1초에 1요청, 무거운 페이지는 5초 이상 권장.

동시 연결 수도 제한.

짧은 시간에 수천 요청 보내면 사실상 DoS 공격이 되어 차단·법적 문제가 따릅니다.



User-Agent 헤더.

본인을 식별할 수 있게 적으세요.

"my-research-bot/1.0 (contact: email@example.com)" 식.

사이트 운영자가 문의할 채널을 줍니다.

가짜 브라우저 UA 위장은 의도적 회피로 간주될 수 있습니다.



공식 API가 있으면 그것부터.

트위터·인스타·유튜브·국세청 모두 공식 API가 있습니다.

스크래핑은 「API가 없거나 부족할 때」의 최후 수단이고, ToS(이용약관)와 저작권을 반드시 확인해야 합니다.




한 줄 요약


스크래핑은 robots.txt 존중, 충분한 간격, 식별 가능한 User-Agent, 공식 API 우선이 기본 매너입니다.

무리하면 차단·법적 문제로 이어집니다.




더 알아볼 것


- 국가별 스크래핑 관련 법률

- API가 우선

- 상업적 이용 시 ToS 검토

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
131 부엉이 26/04/27 15 0
130 야옹이 26/04/27 17 0
129 별님이 26/04/27 16 0
128 너구리 26/04/27 18 0
127 부엉이 26/04/27 16 0
126 구름이 26/04/27 16 0
125 곰돌이 26/04/27 23 0
124 곰돌이 26/04/27 18 0
123 야옹이 26/04/27 19 0
122 멍뭉이 26/04/27 16 0
121 토순이 26/04/27 17 0
120 토순이 26/04/27 16 0
119 별님이 26/04/27 19 0
118 다람쥐 26/04/27 17 0
117 별님이 26/04/27 17 0
116 다람쥐 26/04/27 14 0
115 햇살이 26/04/27 14 0
114 너구리 26/04/27 12 0
113 부엉이 26/04/27 17 0
112 야옹이 26/04/27 16 0
111 햇살이 26/04/27 18 0
110 곰돌이 26/04/27 15 0
109 토순이 26/04/27 15 0
108 햇살이 26/04/27 16 0
107 멍뭉이 26/04/27 15 0
106 햇살이 26/04/27 13 0
105 햇살이 26/04/27 13 0
104 햇살이 26/04/27 15 0
103 야옹이 26/04/27 15 0
102 너구리 26/04/27 14 0
신고하기

신고 사유를 선택해 주세요.