기술적으로 가능하다고 다 해도 되는 건 아닙니다.
웹 스크래핑은 법적·윤리적 이슈가 따라옵니다.
잘못 운영하면 사이트를 부담스럽게 만들고 IP 차단·법적 분쟁까지 갑니다.
robots.txt를 읽으세요.
거의 모든 사이트는 https://example.com/robots.txt에 「봇이 접근해도 되는 영역」을 명시합니다.
User-agent와 Disallow 규칙이 있고, 이를 무시하는 건 법적 분쟁의 단초가 될 수 있습니다.
요청 간격을 두세요(rate limiting).
time.sleep(1)이라도 넣어서 1초에 1요청, 무거운 페이지는 5초 이상 권장.
동시 연결 수도 제한.
짧은 시간에 수천 요청 보내면 사실상 DoS 공격이 되어 차단·법적 문제가 따릅니다.
User-Agent 헤더.
본인을 식별할 수 있게 적으세요.
"my-research-bot/1.0 (contact: email@example.com)" 식.
사이트 운영자가 문의할 채널을 줍니다.
가짜 브라우저 UA 위장은 의도적 회피로 간주될 수 있습니다.
공식 API가 있으면 그것부터.
트위터·인스타·유튜브·국세청 모두 공식 API가 있습니다.
스크래핑은 「API가 없거나 부족할 때」의 최후 수단이고, ToS(이용약관)와 저작권을 반드시 확인해야 합니다.
한 줄 요약
스크래핑은 robots.txt 존중, 충분한 간격, 식별 가능한 User-Agent, 공식 API 우선이 기본 매너입니다.
무리하면 차단·법적 문제로 이어집니다.
더 알아볼 것
- 국가별 스크래핑 관련 법률
- API가 우선
- 상업적 이용 시 ToS 검토