본문 바로가기
Python/Selenium

Selenium Google 기사 스크래핑

by PySun 2023. 8. 9.
반응형

 

웹 스크래핑과 업무 자동화의 필요성

웹 스크래핑은 업무 자동화에 필수적인 기술로, 파이썬 Selenium을 활용하여 Google에서 나스닥 관련 기사를 스크래핑하는 방법을 소개합니다.

파이썬 Selenium과 웹 드라이버 설치

파이썬 Selenium을 사용하기 위해 웹 드라이버를 설치하는 방법과 Chrome 또는 Firefox 웹 드라이버를 활용하여 웹 브라우저를 제어하는 방법을 설명합니다.

Google에서 나스닥 관련 기사 검색하기

파이썬 Selenium을 이용하여 Google에서 나스닥 관련 기사를 검색하는 방법을 예시 코드와 함께 설명합니다.

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')

# Google 검색 페이지 접속
driver.get('https://www.google.com')

# 검색어 입력
search_box = driver.find_element_by_name('q')
search_box.send_keys('나스닥 기사')
search_box.send_keys(Keys.RETURN)

# 검색 결과 확인
search_results = driver.find_elements_by_css_selector('.tF2Cxc')
for result in search_results:
    print(result.text)

# 브라우저 종료
driver.quit()

검색 결과에서 기사 링크 추출하기

Google 검색 결과에서 나스닥 관련 기사 링크를 추출하는 방법을 예시 코드와 함께 설명합니다.

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')

# Google 검색 페이지 접속
driver.get('https://www.google.com')

# 검색어 입력
search_box = driver.find_element_by_name('q')
search_box.send_keys('나스닥 기사')
search_box.send_keys(Keys.RETURN)

# 기사 링크 추출
article_links = driver.find_elements_by_css_selector('.tF2Cxc a')
for link in article_links:
    print(link.get_attribute('href'))

# 브라우저 종료
driver.quit()

기사 내용 스크래핑하기

추출한 기사 링크를 통해 기사 내용을 스크래핑하는 방법을 예시 코드와 함께 설명합니다.

from selenium import webdriver

# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')

# 기사 링크 접속
driver.get('https://example-article-link.com')

# 기사 내용 스크래핑
article_content = driver.find_element_by_css_selector('.article-content')
print(article_content.text)

# 브라우저 종료
driver.quit()

스크래핑 결과 저장하기

스크래핑한 기사 내용을 파일로 저장하는 방법을 예시 코드와 함께 설명합니다.

from selenium import webdriver

# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')

# 기사 링크 접속
driver.get('https://example-article-link.com')

# 기사 내용 스크래핑
article_content = driver.find_element_by_css_selector('.article-content')
content_text = article_content.text

# 결과 파일에 저장
with open('nasdaq_article.txt', 'w', encoding='utf-8') as file:
    file.write(content_text)

# 브라우저 종료
driver.quit()

마무리

파이썬 Selenium으로 Google에서 나스닥 관련 기사 스크래핑 완료 위의 소제목들을 통해 파이썬 Selenium을 활용하여 Google에서 나스닥 관련 기사를 스크래핑하는 방법에 대해 자세히 알아보았습니다. 웹 스크래핑은 업무 자동화와 데이터 수집에 매우 유용한 기술로, 파이썬 Selenium을 이용하면 웹 페이지의 정보를 손쉽게 추출할 수 있습니다. 예시 코드를 따라해보면서 스크래핑의 기본 개념을 익히고, 검색 결과와 기사 내용을 스크래핑하여 파일로 저장하는 방법을 익힐 수 있습니다. 이를 통해 업무 자동화를 보다 효율적으로 수행하고, 웹 데이터를 손쉽게 활용할 수 있을 것입니다.

반응형

'Python > Selenium' 카테고리의 다른 글

파이썬 Selenium TimeoutException  (0) 2023.08.11
파이썬 Selenium NoSuchElementException  (0) 2023.08.10
Selenium 브라우저 윈도우 조작  (0) 2023.08.08
Selenium 웹 페이지 스크린샷  (0) 2023.08.07
Selenium 웹 페이지 대기  (0) 2023.08.06