반응형
Selenium: webdriver.page_source로 웹 페이지 소스 얻기
웹 자동화의 세계에서는 Selenium을 빼놓을 수 없습니다. 특히 웹 페이지의 HTML 소스를 가져오는 건 프로젝트의 시작 단계에서 필요한 필수 작업 중 하나입니다. 오늘 포스팅에서는 webdriver.page_source 속성을 사용하여 웹 페이지 소스를 어떻게 쉽게 얻을 수 있는지 알아보겠습니다.
webdriver.page_source 소개
Selenium의 webdriver.page_source 속성은 현재 로드된 웹 페이지의 HTML 소스를 문자열 형태로 반환합니다. 이를 통해 웹 페이지의 구조를 분석하거나, 특정 데이터 추출 작업을 수행할 수 있습니다.
특징
- 현재 페이지의 HTML을 실시간으로 확인할 수 있습니다.
- 단일 호출로 모든 페이지 요소에 접근할 수 있습니다.
- 웹 크롤링과 스크래핑 활동에 유용하게 활용됩니다.
사용 예제
기본 예제
아래 코드는 Selenium을 사용하여 웹 페이지 소스를 얻는 기본 예제를 보여줍니다.
from selenium import webdriver
# Chrome 드라이버 설정
driver = webdriver.Chrome()
# 웹 페이지 열기
driver.get('https://example.com')
# 페이지 소스 얻기
page_source = driver.page_source
print(page_source) # 페이지 소스를 출력합니다.
# 드라이버 종료
driver.quit()
다양한 페이지 소스 예제
아래 예제는 webdriver.page_source를 활용하여 다양한 웹 페이지의 소스를 가져오는 방법입니다. 각 페이지에 따라 다른 정보가 포함되어 있습니다.
from selenium import webdriver
# Chrome 드라이버 설정
driver = webdriver.Chrome()
# 여러 웹 페이지에 접근하고 페이지 소스 얻기
urls = ['https://example1.com', 'https://example2.com', 'https://example3.com']
for url in urls:
driver.get(url)
page_source = driver.page_source
print(f"Page source of {url}:\n{page_source}\n")
# 드라이버 종료
driver.quit()
결론
webdriver.page_source를 통해 손쉽게 웹 페이지의 HTML 소스를 얻을 수 있습니다. 이는 웹 스크래핑이나 크롤링 작업에서 매우 유용한 기능으로, 적절한 정보와 데이터를 수집하는 데 큰 도움이 될 것입니다.
- Selenium을 활용하여 원하는 정보를 빠르게 수집해 보세요!
- 지금 바로 webdriver.page_source를 사용하여 웹 페이지 소스를 얻어보세요!
반응형
'Python > Selenium' 카테고리의 다른 글
selenium NoRubyException 오류 해결하기 (0) | 2025.01.25 |
---|---|
selenium.webdriver.quit으로 브라우저 종료하기 (0) | 2025.01.25 |
selenium.webdriver.implicitly_wait로 대기시간 설정하기 (0) | 2025.01.25 |
selenium MethodNotAllowedException 오류 해결하기 (0) | 2025.01.24 |
selenium LocationNotVisibleException 오류 해결하기 (0) | 2025.01.24 |