Portfolio

네이버 블로그 리뷰 크롤링

코샵 2024. 2. 1. 03:04
반응형

 

터미널에 작성된 로그는 데이터프레임의 인덱스, 블로그 타이틀

 

로직

  1. 크롤링으로 획득한 음식점의 Place_Id로 블로그 리뷰 주소(url)을 찾고
  2. 블로그에 requests 요청을 해 획득한 text를 BeautifulSoup로 html 변환
  3. 데이터 파싱

수집한 데이터 

  • 블로그 글 제목
  • 블로그 글 내용
  • 글쓴이
  • 작성 날짜
  • 태그
  • url
  • 좋아요도 수집하려 하였으나, js를 실행하지 않으면 빈칸이다.

셀레니움을 사용하지 않아 속도가 매우 빠르지만, 블로그 url을 찾는 과정에서 매우 애를 먹었다. 

현재 속도도 마음에 들지 않아 더욱 빠르게 할 수 있는 방법을 고민 해 봐야겠다