728x90
반응형
파이썬을 이용한 웹 스크래핑 시작하기
웹 스크래핑은 웹 페이지에서 정보를 추출하거나 데이터를 수집하는 프로세스입니다. 파이썬은 웹 스크래핑을 위한 강력한 도구들을 제공하므로, 이번 포스팅에서는 파이썬을 사용한 간단한 웹 스크래핑 예제를 살펴보겠습니다.
1. 필요한 라이브러리 설치
웹 스크래핑을 위해 requests
와 BeautifulSoup
라이브러리를 사용하겠습니다. 아래 명령을 사용하여 두 라이브러리를 설치하세요.
pip install requests beautifulsoup4
2. 웹 페이지 접속 및 데이터 추출
다음은 예제 코드입니다. 이 코드는 "http://quotes.toscrape.com" 웹 페이지에서 명언(Quotes)을 추출하는 간단한 스크래핑을 수행합니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지에 접속하여 HTML 데이터 가져오기
url = "http://quotes.toscrape.com"
response = requests.get(url)
html = response.text
# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html, "html.parser")
# 명언 추출
quotes = soup.find_all("span", class_="text")
for quote in quotes:
print(quote.get_text())
3. 실행 결과
위의 코드를 실행하면 해당 웹 페이지에서 명언들이 출력될 것입니다.
“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
...
이와 같이 파이썬을 사용하여 웹 스크래핑을 할 수 있습니다. 물론, 실제 웹 스크래핑 프로젝트는 더 복잡하고 다양한 요소들을 고려해야 할 수 있습니다.
이 예제는 시작점을 제공하며, 웹 스크래핑을 더욱 깊게 공부하고 싶다면 다양한 자료와 레퍼런스를 찾아보시기 바랍니다.
728x90
반응형
'Python' 카테고리의 다른 글
Section 1_Variable scope (1) | 2024.01.05 |
---|---|
Section 0 (0) | 2024.01.03 |
YOLO-NAS 예제 (0) | 2023.11.08 |
[파이썬] 티스토리 API 사용법 (0) | 2023.08.06 |