파이썬을 사용하여 티스토리 블로그의 글을 크롤링하는 방법

반응형

티스토리 블로그의 글을 크롤링하는 방법을 살펴보겠습니다.

 

1. 필요한 라이브러리 설치

아래의 라이브러리를 설치해야 합니다:

  • requests: HTTP 요청을 보내기 위해 사용됩니다.
  • BeautifulSoup: HTML 파싱을 위해 사용됩니다.

터미널에서 다음 명령어를 실행하여 설치할 수 있습니다:

pip install requests beautifulsoup4

 

2. 티스토리 블로그 크롤링 코드 예시

아래는 티스토리 블로그의 글 제목과 링크를 크롤링하는 예제 코드입니다:

import requests
from bs4 import BeautifulSoup

# 크롤링할 티스토리 블로그의 URL
blog_url = 'https://example.tistory.com/'  # 대상 블로그의 URL로 변경하세요.

# HTTP GET 요청을 보내고 응답을 받습니다.
response = requests.get(blog_url)

# 응답이 성공적인지 확인합니다.
if response.status_code == 200:
    # HTML 콘텐츠를 파싱합니다.
    soup = BeautifulSoup(response.text, 'html.parser')

    # 글 목록을 찾아서 제목과 링크를 추출합니다.
    for post in soup.find_all('a', class_='link_post'):  # 'link_post' 클래스는 블로그마다 다를 수 있습니다.
        title = post.get_text(strip=True)
        link = post['href']
        print(f'제목: {title}, 링크: {link}')
else:
    print(f'HTTP 요청 실패: 상태 코드 {response.status_code}')

 

 

주의사항:

  • 위 코드에서 'link_post' 클래스는 해당 블로그의 HTML 구조에 따라 다를 수 있습니다. 크롤링하려는 블로그의 HTML 구조를 확인하여 적절한 클래스를 사용해야 합니다.
  • 크롤링 대상 블로그의 robots.txt 파일을 확인하여 크롤링이 허용되는지 확인하시기 바랍니다.
  • 크롤링한 데이터를 사용할 때는 저작권 및 이용 약관을 준수해야 합니다.

 

반응형