반응형
웹 스크래핑과 업무 자동화의 필요성
웹 스크래핑은 업무 자동화에 필수적인 기술로, 파이썬 Selenium을 활용하여 Google에서 나스닥 관련 기사를 스크래핑하는 방법을 소개합니다.
파이썬 Selenium과 웹 드라이버 설치
파이썬 Selenium을 사용하기 위해 웹 드라이버를 설치하는 방법과 Chrome 또는 Firefox 웹 드라이버를 활용하여 웹 브라우저를 제어하는 방법을 설명합니다.
Google에서 나스닥 관련 기사 검색하기
파이썬 Selenium을 이용하여 Google에서 나스닥 관련 기사를 검색하는 방법을 예시 코드와 함께 설명합니다.
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')
# Google 검색 페이지 접속
driver.get('https://www.google.com')
# 검색어 입력
search_box = driver.find_element_by_name('q')
search_box.send_keys('나스닥 기사')
search_box.send_keys(Keys.RETURN)
# 검색 결과 확인
search_results = driver.find_elements_by_css_selector('.tF2Cxc')
for result in search_results:
print(result.text)
# 브라우저 종료
driver.quit()
검색 결과에서 기사 링크 추출하기
Google 검색 결과에서 나스닥 관련 기사 링크를 추출하는 방법을 예시 코드와 함께 설명합니다.
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')
# Google 검색 페이지 접속
driver.get('https://www.google.com')
# 검색어 입력
search_box = driver.find_element_by_name('q')
search_box.send_keys('나스닥 기사')
search_box.send_keys(Keys.RETURN)
# 기사 링크 추출
article_links = driver.find_elements_by_css_selector('.tF2Cxc a')
for link in article_links:
print(link.get_attribute('href'))
# 브라우저 종료
driver.quit()
기사 내용 스크래핑하기
추출한 기사 링크를 통해 기사 내용을 스크래핑하는 방법을 예시 코드와 함께 설명합니다.
from selenium import webdriver
# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')
# 기사 링크 접속
driver.get('https://example-article-link.com')
# 기사 내용 스크래핑
article_content = driver.find_element_by_css_selector('.article-content')
print(article_content.text)
# 브라우저 종료
driver.quit()
스크래핑 결과 저장하기
스크래핑한 기사 내용을 파일로 저장하는 방법을 예시 코드와 함께 설명합니다.
from selenium import webdriver
# 웹 드라이버 경로 설정
driver = webdriver.Chrome('path/to/chromedriver')
# 기사 링크 접속
driver.get('https://example-article-link.com')
# 기사 내용 스크래핑
article_content = driver.find_element_by_css_selector('.article-content')
content_text = article_content.text
# 결과 파일에 저장
with open('nasdaq_article.txt', 'w', encoding='utf-8') as file:
file.write(content_text)
# 브라우저 종료
driver.quit()
마무리
파이썬 Selenium으로 Google에서 나스닥 관련 기사 스크래핑 완료 위의 소제목들을 통해 파이썬 Selenium을 활용하여 Google에서 나스닥 관련 기사를 스크래핑하는 방법에 대해 자세히 알아보았습니다. 웹 스크래핑은 업무 자동화와 데이터 수집에 매우 유용한 기술로, 파이썬 Selenium을 이용하면 웹 페이지의 정보를 손쉽게 추출할 수 있습니다. 예시 코드를 따라해보면서 스크래핑의 기본 개념을 익히고, 검색 결과와 기사 내용을 스크래핑하여 파일로 저장하는 방법을 익힐 수 있습니다. 이를 통해 업무 자동화를 보다 효율적으로 수행하고, 웹 데이터를 손쉽게 활용할 수 있을 것입니다.
반응형
'Python > Selenium' 카테고리의 다른 글
파이썬 Selenium TimeoutException (0) | 2023.08.11 |
---|---|
파이썬 Selenium NoSuchElementException (0) | 2023.08.10 |
Selenium 브라우저 윈도우 조작 (0) | 2023.08.08 |
Selenium 웹 페이지 스크린샷 (0) | 2023.08.07 |
Selenium 웹 페이지 대기 (0) | 2023.08.06 |