Python

[파이썬] 웹 스크래핑

예찬예찬 2023. 8. 6. 01:25
728x90
반응형

파이썬을 이용한 웹 스크래핑 시작하기

웹 스크래핑은 웹 페이지에서 정보를 추출하거나 데이터를 수집하는 프로세스입니다. 파이썬은 웹 스크래핑을 위한 강력한 도구들을 제공하므로, 이번 포스팅에서는 파이썬을 사용한 간단한 웹 스크래핑 예제를 살펴보겠습니다.

1. 필요한 라이브러리 설치

웹 스크래핑을 위해 requestsBeautifulSoup 라이브러리를 사용하겠습니다. 아래 명령을 사용하여 두 라이브러리를 설치하세요.

pip install requests beautifulsoup4

2. 웹 페이지 접속 및 데이터 추출

다음은 예제 코드입니다. 이 코드는 "http://quotes.toscrape.com" 웹 페이지에서 명언(Quotes)을 추출하는 간단한 스크래핑을 수행합니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지에 접속하여 HTML 데이터 가져오기
url = "http://quotes.toscrape.com"
response = requests.get(url)
html = response.text

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html, "html.parser")

# 명언 추출
quotes = soup.find_all("span", class_="text")
for quote in quotes:
    print(quote.get_text())

3. 실행 결과

위의 코드를 실행하면 해당 웹 페이지에서 명언들이 출력될 것입니다.

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
...

이와 같이 파이썬을 사용하여 웹 스크래핑을 할 수 있습니다. 물론, 실제 웹 스크래핑 프로젝트는 더 복잡하고 다양한 요소들을 고려해야 할 수 있습니다.
이 예제는 시작점을 제공하며, 웹 스크래핑을 더욱 깊게 공부하고 싶다면 다양한 자료와 레퍼런스를 찾아보시기 바랍니다.
 

728x90
반응형