Portfolio

    네이버 블로그 리뷰 크롤링

    터미널에 작성된 로그는 데이터프레임의 인덱스, 블로그 타이틀 로직 크롤링으로 획득한 음식점의 Place_Id로 블로그 리뷰 주소(url)을 찾고 블로그에 requests 요청을 해 획득한 text를 BeautifulSoup로 html 변환 데이터 파싱 수집한 데이터 블로그 글 제목 블로그 글 내용 글쓴이 작성 날짜 태그 url 좋아요도 수집하려 하였으나, js를 실행하지 않으면 빈칸이다. 셀레니움을 사용하지 않아 속도가 매우 빠르지만, 블로그 url을 찾는 과정에서 매우 애를 먹었다. 현재 속도도 마음에 들지 않아 더욱 빠르게 할 수 있는 방법을 고민 해 봐야겠다

    네이버 지도를 통한 맛집 크롤링 : Portfolio

    셀레니움을 사용하게 된 이유 requests로 url 접속 시 껍데기 html만 가져와 selenium 사용 (js로 데이터 전송 받아 페이지 구성하는것으로 확인) 크롭 옵션중 headless를 추가해 보았으나 실제 페이지가 열리지 않으면 js 전송이 안되는것으로 추측 크롤링 로직 이름으로 맛집 검색 (이전 단계에서 생활의 달인, 백종원의3대천왕, 풍자 등 방송 매체에 소개된 음식점들을 크롤링 해 가게명과 주소를 엑셀로 저장함) 같은 상호명의 가게들이 많이 있어 주소로 찾으려는 맛집을 필터링 찾은 맛집을 클릭해 데이터 크롤링 수집 데이터 목록 : 가게명, 주소, 카테고리, 연락처, 네이버평점, 방송정보, 영업시간, place_id, 위경도 수집된 데이터 : 11035개 Issue 구글 구글 지도의 리뷰 ..