코샵
끄적끄적 코딩 공방
코샵

인기 글

  • 분류 전체보기 (478) N
    • MongoDB (4)
    • 일기장 (4)
    • Unity (138)
      • Tip (41)
      • Project (1)
      • Design Pattern (8)
      • Firebase (6)
      • Asset (2)
    • 파이썬 (127)
      • Basic (40)
      • OpenCV (8)
      • Pandas (15)
      • PyQT (3)
      • SBC(Single Board Computer) (1)
      • 크롤링 (14)
      • Fast API (29)
      • Package (6)
    • Linux (4)
    • C# (97)
      • Algorithm (11)
      • Window (7)
    • TypeScript (47) N
      • CSS (9) N
    • Git (11)
    • SQL (5)
    • Flutter (10)
      • Tip (1)
    • System (1)
    • BaekJoon (6)
    • Portfolio (2)
    • MacOS (1)
    • 유틸리티 (1)
    • 서비스 (6)
    • 자동화 (3)
    • Hobby (10)
      • 물생활 (10)
      • 식집사 (0)
전체 방문자
오늘
어제

최근 댓글

최근 글

반응형
hELLO · Designed By 정상우.
코샵

끄적끄적 코딩 공방

크롤링이 가능한 사이트인지 확인하는 방법
파이썬/크롤링

크롤링이 가능한 사이트인지 확인하는 방법

2024. 2. 4. 10:18
반응형

웹 사이트를 크롤링하기 전에 해당 사이트에서 크롤링을 허용하는지 확인하는 것이 중요합니다. 웹 사이트에서 크롤링을 허용하지 않는 경우, 크롤링을 시도하면 차단되거나 페이지가 제대로 표시되지 않을 수 있습니다.

웹 사이트에서 크롤링을 허용하는지 확인하는 방법은 다음과 같습니다.

 

robots.txt 파일 확인

웹 사이트의 robots.txt 파일을 확인하면 크롤러가 어떤 페이지를 크롤링할 수 있는지 확인할 수 있습니다. robots.txt 파일은 웹 사이트의 최상위 디렉터리에 위치하며, 다음과 같은 형식으로 작성됩니다.

User-agent: *
Disallow: /
Allow: /index.html

위의 예시에서 User-agent: *는 모든 크롤러에 해당하는 것을 의미합니다. Disallow: /는 모든 페이지를 크롤링하지 못하도록 설정합니다. Allow: /index.html은 /index.html 페이지만 크롤링할 수 있도록 설정합니다.

 

네이버 블로그(https://m.blog.naver.com/robots.txt)의 내용입니다

  • 사이트맵 확인

웹 사이트의 사이트맵을 확인하면 크롤링해야 할 페이지를 확인할 수 있습니다. 사이트맵은 웹 사이트의 모든 페이지에 대한 링크를 포함하는 파일입니다. 사이트맵은 일반적으로 sitemap.xml 또는 sitemap.txt 파일로 저장됩니다.

  • 웹마스터와 연락

웹 사이트의 웹마스터와 직접 연락하여 크롤링에 대한 허가를 받을 수 있습니다. 웹마스터는 웹 사이트의 크롤링 정책을 알고 있으므로, 크롤링이 가능한지 여부를 정확하게 확인할 수 있습니다.

 

robots.txt 파일의 내용 해석

robots.txt 파일의 내용을 해석하려면 다음과 같은 사항을 확인해야 합니다.

  • User-agent

User-agent는 크롤러의 종류를 나타냅니다. *는 모든 크롤러에 해당합니다.

  • Disallow

Disallow는 크롤링을 금지하는 페이지의 경로를 지정합니다.

  • Allow

Allow는 크롤링을 허용하는 페이지의 경로를 지정합니다.

 

예를 들어, 다음과 같은 robots.txt 파일이 있다고 가정합니다.

User-agent: *
Disallow: /
Allow: /index.html

이 경우, 모든 크롤러는 / 경로를 제외한 모든 페이지를 크롤링할 수 있습니다. 즉, /index.html 페이지만 크롤링할 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'파이썬 > 크롤링' 카테고리의 다른 글

VPN과 프록시 서버  (0) 2024.11.30
Requests : HTTP 요청 최적화  (0) 2024.02.06
크롤링을 할 때 셀레니움이 필요한지 확인하는 방법  (0) 2024.02.03
Selenium 4.1.0에서 headless 설정 변경  (0) 2024.02.01
셀레니움 최적화를 위한 chrome_options  (0) 2024.01.30
    '파이썬/크롤링' 카테고리의 다른 글
    • VPN과 프록시 서버
    • Requests : HTTP 요청 최적화
    • 크롤링을 할 때 셀레니움이 필요한지 확인하는 방법
    • Selenium 4.1.0에서 headless 설정 변경
    코샵
    코샵
    나의 코딩 일기장

    티스토리툴바