YoonWould!!

[크롤링]크롤링 애플리케이션 만들기 본문

<인턴생활>/[python 예제]

[크롤링]크롤링 애플리케이션 만들기

Hading 2019. 4. 24. 13:23
728x90

파이썬을 이용해 간단한 크롤링 애플리케이션을 구현해보겠습니다.

 

참고한 책은 python 개발자를 위한 파이썬이라는 책을 참고하여 구현하였습니다.

 

먼저 스크래피(scrapy)를 사용합니다.

 

  • 스크래피

 파이썬으로 만들어진 대표적인 크롤러입니다. 크롤링의 프레임워크라고도 할 수 있습니다. 

 

  • 스크래피의 장점

- 스크랩할 항목 유형을 정의하는 클래스를 만들 수 있습니다.

- 수집한 데이터를 원하는 대로 편집하는 기능을 제공합니다. 

- 서버에 연동하기 위해 기능을 확장할 수 있습니다.

- 크롤링 결과를 JSON, XML ,CSV 등의 형식으로 내보낼 수 있습니다.

- 손상된 HTML 파일을 분석할 수 있습니다.

 

  • 스크래피를 이용해서 크롤러를 만드는 대략적인 과정

1. 크롤링할 아이템을 선정

2. 실제 크롤링할 스파이더(spider, 스크래피의 크롤러) 생성

3. 크롤링할 사이트와 크롤링 규칙 설정

4. HTML 문서를 파싱한 후 크롤러가 실행할 작업을 정의

6. 크롤러 실행

728x90