반응형
티스토리 블로그의 글을 크롤링하는 방법을 살펴보겠습니다.
1. 필요한 라이브러리 설치
아래의 라이브러리를 설치해야 합니다:
requests
: HTTP 요청을 보내기 위해 사용됩니다.BeautifulSoup
: HTML 파싱을 위해 사용됩니다.
터미널에서 다음 명령어를 실행하여 설치할 수 있습니다:
pip install requests beautifulsoup4
2. 티스토리 블로그 크롤링 코드 예시
아래는 티스토리 블로그의 글 제목과 링크를 크롤링하는 예제 코드입니다:
import requests
from bs4 import BeautifulSoup
# 크롤링할 티스토리 블로그의 URL
blog_url = 'https://example.tistory.com/' # 대상 블로그의 URL로 변경하세요.
# HTTP GET 요청을 보내고 응답을 받습니다.
response = requests.get(blog_url)
# 응답이 성공적인지 확인합니다.
if response.status_code == 200:
# HTML 콘텐츠를 파싱합니다.
soup = BeautifulSoup(response.text, 'html.parser')
# 글 목록을 찾아서 제목과 링크를 추출합니다.
for post in soup.find_all('a', class_='link_post'): # 'link_post' 클래스는 블로그마다 다를 수 있습니다.
title = post.get_text(strip=True)
link = post['href']
print(f'제목: {title}, 링크: {link}')
else:
print(f'HTTP 요청 실패: 상태 코드 {response.status_code}')
주의사항:
- 위 코드에서
'link_post'
클래스는 해당 블로그의 HTML 구조에 따라 다를 수 있습니다. 크롤링하려는 블로그의 HTML 구조를 확인하여 적절한 클래스를 사용해야 합니다. - 크롤링 대상 블로그의
robots.txt
파일을 확인하여 크롤링이 허용되는지 확인하시기 바랍니다. - 크롤링한 데이터를 사용할 때는 저작권 및 이용 약관을 준수해야 합니다.
반응형
'코딩' 카테고리의 다른 글
GitHub Desktop에서 대용량 파일 관리하는 방법-Git LFS로 크기 제한 해결하기 (0) | 2025.01.14 |
---|---|
GitHub Desktop 설치 및 사용법 가이드(GUI로 더 쉽게 Git 관리하기) (0) | 2025.01.08 |
GitHub로 시작하는 스마트한 파일 관리법- 개인 저장소 활용 가이드 (0) | 2025.01.06 |
Pixo나 Pixelixe와 같은 서비스를 Make.com에서 사용할 수 있는 방법 (0) | 2024.12.21 |
블로그 썸네일용 이미지에 텍스트를 추가할 수 있는 자동화 API (0) | 2024.12.21 |