본문 바로가기
Python/Selenium

Selenium.page_source로 페이지 소스 가져오기

by PySun 2025. 1. 4.
반응형

Selenium의 page_source: 웹 페이지 소스 코드를 쉽게 가져오기

웹 스크래핑을 하거나 자동화를 구현할 때, 웹 페이지의 소스 코드를 가져오는 방법은 필수적입니다. Selenium 라이브러리는 이러한 작업을 매우 쉽게 해주는 강력한 도구입니다. 이번 포스팅에서는 page_source 속성을 사용하여 웹 페이지의 소스 코드를 어떻게 가져올 수 있는지에 대해 알아보겠습니다.

page_source 속성 소개

Selenium의 page_source 속성은 현재 세션에서 열려 있는 웹 페이지의 HTML 소스 코드를 문자열 형태로 반환합니다. 이 기능은 웹 페이지의 요소를 조작하거나 데이터를 수집할 때 유용하게 사용됩니다.

기본 사용법

웹 페이지의 소스 코드를 가져오기 위해서는 Selenium의 웹 드라이버를 설정하고, 특정 URL로 접속한 후 page_source를 통해 소스 코드를 쉽게 가져올 수 있습니다.

구현 예제

다음은 Selenium을 사용하여 특정 웹 페이지의 HTML 소스를 가져오는 기본적인 예제입니다.

from selenium import webdriver

# 웹 드라이버 설정 (크롬 드라이버 경로)
driver = webdriver.Chrome(executable_path='chromedriver_path')

# 특정 웹 페이지 접속
driver.get('https://www.example.com')

# 페이지 소스 가져오기
page_source = driver.page_source
print(page_source)

# 드라이버 종료
driver.quit()

특정 요소의 HTML 코드 가져오기

때때로 전체 페이지 소스가 아닌 특정 요소의 소스 코드를 가져올 필요가 있습니다. 이 경우, find_element 메소드를 활용하면 됩니다.

from selenium import webdriver
from selenium.webdriver.common.by import By

# 웹 드라이버 설정
driver = webdriver.Chrome(executable_path='chromedriver_path')

# 특정 웹 페이지 접속
driver.get('https://www.example.com')

# 특정 요소를 찾고 HTML 코드 가져오기
element = driver.find_element(By.CSS_SELECTOR, 'h1')  # h1 태그 선택
element_source = element.get_attribute('outerHTML')
print(element_source)

# 드라이버 종료
driver.quit()

결론

Selenium의 page_source 속성을 활용하면 웹 페이지의 HTML 소스를 손쉽게 가져올 수 있습니다. 이를 통해 다양한 웹 자동화 작업 및 데이터 수집을 효율적으로 진행할 수 있습니다. 이제 최고의 도구를 이용해 웹 페이지의 모든 정보를 수집해 보세요!

  • 자동화 작업이 필요한 모든 웹 페이지에서 page_source를 활용해보세요!
  • 효율적인 데이터 수집을 통해 AI와 데이터 분석의 미래를 열어보세요!
반응형