파이썬
크롤링을 할 때 셀레니움이 필요한지 확인하는 방법
크롤링을 할 때 셀레니움이 필요한지 확인하는 방법은 크게 두 가지가 있습니다. 자바스크립트 사용 중지 웹 브라우저의 개발자 도구에서 자바스크립트를 사용 중지하고 페이지를 확인하는 방법입니다. 자바스크립트가 사용 중지되면 웹 페이지의 동적인 요소가 모두 숨겨지고, 정적 요소만 표시됩니다. 따라서, 페이지의 내용을 정적 요소만으로 추출할 수 있다면 셀레니움이 필요하지 않습니다. 개발자 도구에서 자바스크립트 사용 중지 방법 크롬 브라우저의 경우 다음과 같은 방법으로 개발자 도구에서 자바스크립트 사용을 중지할 수 있습니다. 크롬 브라우저에서 페이지를 열고, F12 키를 누릅니다. 개발자 도구가 열리면, 환경설정을 선택합니다. 디버거 항목의 자바스크립트 사용 중지(Disable JavaScript) 체크박스를..
크롤링 요소 검색 비교 : Selenium vs BeautifulSoup
Selenium과 BeautifulSoup은 모두 웹 페이지를 자동화하는 데 사용되는 프레임워크입니다. 두 프레임워크 모두 웹 페이지에서 요소를 찾을 수 있는 find 함수를 제공합니다. 이 글에서는 Selenium과 BeautifulSoup에서 find 함수의 성능을 비교해 보겠습니다. 테스트 코드 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.get('https://www.naver.com/') html = BeautifulSoup(driver.page_source, 'html.parser') sta..
파이썬 리스트 컴프리헨션
파이썬 리스트 컴프리헨션은 리스트를 생성하는 간단하고 효율적인 방법입니다. 리스트 컴프리헨션은 for 루프를 사용하여 리스트를 생성하는 것과 유사하지만, 더 간결하고 읽기 쉽습니다. 기본 구조 리스트 컴프리헨션의 기본 구조는 다음과 같습니다. [표현식 for 요소 in 시퀀스] 표현식은 각 요소의 값을 지정합니다. 요소는 시퀀스의 각 요소를 나타냅니다. 시퀀스는 리스트를 생성할 요소를 포함하는 시퀀스입니다. 예제 다음은 리스트 컴프리헨션을 사용하여 1에서 10까지의 정수 리스트를 생성하는 코드입니다. numbers = [i for i in range(1, 11)] 이 코드는 다음과 같이 작동합니다. range(1, 11) 함수를 사용하여 1에서 10까지의 정수 시퀀스를 생성합니다. for 루프를 사용하여..
Selenium 4.1.0에서 headless 설정 변경
headless 모드 처리 방식이 변경될 예정입니다. 다가오는 Selenium 4.8.0 릴리스에서는 headless 모드를 설정하는 편의 메서드가 폐지됩니다. 대신 사용자는 브라우저 옵션을 구성할 때 인수를 통해 이를 정의해야 합니다. 변경 이유Chrome과 같은 크로미움 기반 브라우저에서 이제 두 가지 다른 headless 모드를 제공합니다. Selenium의 기존 편의 메서드는 크로미움에서 제공하는 초기 headless 모드를 사용합니다. 이 메서드의 폐지로 시작하여 Selenium 4.8.0에서 이를 사용하지 않게 되며 4.10.0 버전에서는 완전히 제거됩니다. 이로써 사용자는 두 headless 모드 중에서 선택할 수 있게 됩니다. 두 가지 headless 모드 전통적인 headless 모드 ..
하나의 리스트를 여러개로 나누기
리스트를 나누는 방법에는 여러 가지가 있습니다. 가장 일반적인 방법은 for 루프를 사용하는 것입니다. 다음은 for 루프를 사용하여 리스트를 1000개씩 나누는 코드입니다. for문 사용 index = [row.index[i * 1000:(i + 1) * 1000].tolist() for i in range(0, int(len(row.index) / 1000))] 이 코드는 다음과 같이 작동합니다. range() 함수를 사용하여 0부터 len(row.index) / 1000 미만의 값을 생성합니다. for 루프를 사용하여 생성된 값을 순회합니다. i * 1000부터 (i + 1) * 1000까지의 인덱스 값을 가져옵니다. 가져온 인덱스 값을 리스트로 변환합니다. 변환된 리스트를 index 리스트에 추가..
셀레니움 최적화를 위한 chrome_options
셀레니움은 웹 페이지를 자동화하는 데 사용되는 프레임워크입니다. 셀레니움을 사용하여 웹 페이지를 크롤링하거나 테스트할 때는 성능 최적화가 중요합니다. 성능을 최적화하면 셀레니움 작업을 더 빠르게 수행할 수 있습니다. 셀레니움의 성능을 최적화하는 방법 중 하나는 chrome_options를 사용하는 것입니다. chrome_options는 Chrome 브라우저를 특정 방식으로 구성하는 데 사용할 수 있는 옵션입니다. 셀레니움에서 자주 사용되는 chrome_options는 다음과 같습니다. --headless: 브라우저를 GUI 없이 실행합니다. 이를 통해 브라우저 창이 표시되지 않아 리소스를 절약할 수 있습니다. --disable-gpu: GPU 가속을 비활성화합니다. 일부 시스템에서 GPU 가속이 문제를 ..
셀레니움에서 이미지 비활성화 : 최적화
셀레니움을 사용하여 웹 페이지를 크롤링하거나 테스트할 때, 이미지는 페이지 로딩에 큰 영향을 미칠 수 있습니다. 이미지를 비활성화하면 페이지 로딩 시간을 크게 단축할 수 있습니다. 셀레니움에서 이미지를 비활성화하는 방법 중 하나는 Chrome 브라우저 옵션을 사용하는 것입니다. 다음과 같이 사용할 수 있습니다. from selenium import webdriver from selenium.webdriver.chrome.options import Options # Chrome 브라우저의 옵션을 설정 chrome_options = Options() prefs = {"profile.managed_default_content_settings.images": 2} # 이미지를 비활성화하는 옵션 chrome_op..
셀레니움에서 페이지가 로딩이 될 때까지 기다리는 방법
셀레니움은 웹 브라우저를 제어하여 자동화된 테스트를 수행하는 데 사용되는 라이브러리입니다. 셀레니움을 사용하여 웹 페이지를 탐색하려면 먼저 해당 페이지가 완전히 로딩되어야 합니다. 셀레니움에서 페이지가 로딩이 될 때까지 기다리는 방법에는 여러 가지가 있습니다. 1. time.sleep() 함수 사용 가장 간단한 방법은 time.sleep() 함수를 사용하는 것입니다. 이 함수는 지정된 시간 동안 코드의 실행을 일시 중지합니다. from selenium import webdriver driver = webdriver.Chrome() driver.get("https://google.com") # 10초 동안 기다립니다. time.sleep(10) # 페이지의 제목을 출력합니다. print(driver.tit..