본문 바로가기
Python/Selenium

selenium.webdriver.page_source로 페이지 소스 얻기

by PySun 2025. 1. 25.
반응형

Selenium: webdriver.page_source로 웹 페이지 소스 얻기

웹 자동화의 세계에서는 Selenium을 빼놓을 수 없습니다. 특히 웹 페이지의 HTML 소스를 가져오는 건 프로젝트의 시작 단계에서 필요한 필수 작업 중 하나입니다. 오늘 포스팅에서는 webdriver.page_source 속성을 사용하여 웹 페이지 소스를 어떻게 쉽게 얻을 수 있는지 알아보겠습니다.

webdriver.page_source 소개

Selenium의 webdriver.page_source 속성은 현재 로드된 웹 페이지의 HTML 소스를 문자열 형태로 반환합니다. 이를 통해 웹 페이지의 구조를 분석하거나, 특정 데이터 추출 작업을 수행할 수 있습니다.

특징

  • 현재 페이지의 HTML을 실시간으로 확인할 수 있습니다.
  • 단일 호출로 모든 페이지 요소에 접근할 수 있습니다.
  • 웹 크롤링과 스크래핑 활동에 유용하게 활용됩니다.

사용 예제

기본 예제

아래 코드는 Selenium을 사용하여 웹 페이지 소스를 얻는 기본 예제를 보여줍니다.

from selenium import webdriver

# Chrome 드라이버 설정
driver = webdriver.Chrome()

# 웹 페이지 열기
driver.get('https://example.com')

# 페이지 소스 얻기
page_source = driver.page_source

print(page_source)  # 페이지 소스를 출력합니다.

# 드라이버 종료
driver.quit()

다양한 페이지 소스 예제

아래 예제는 webdriver.page_source를 활용하여 다양한 웹 페이지의 소스를 가져오는 방법입니다. 각 페이지에 따라 다른 정보가 포함되어 있습니다.

from selenium import webdriver

# Chrome 드라이버 설정
driver = webdriver.Chrome()

# 여러 웹 페이지에 접근하고 페이지 소스 얻기
urls = ['https://example1.com', 'https://example2.com', 'https://example3.com']
for url in urls:
    driver.get(url)
    page_source = driver.page_source
    print(f"Page source of {url}:\n{page_source}\n")

# 드라이버 종료
driver.quit()

결론

webdriver.page_source를 통해 손쉽게 웹 페이지의 HTML 소스를 얻을 수 있습니다. 이는 웹 스크래핑이나 크롤링 작업에서 매우 유용한 기능으로, 적절한 정보와 데이터를 수집하는 데 큰 도움이 될 것입니다.

  • Selenium을 활용하여 원하는 정보를 빠르게 수집해 보세요!
  • 지금 바로 webdriver.page_source를 사용하여 웹 페이지 소스를 얻어보세요!
반응형