250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 유럽
- 유럽여행
- 리눅스
- 여행 #
- 파이썬
- 추억
- 1달살기
- 여행
- 계획
- 일정
- 서버
- 이탈리아
- 인프라
- ip
- JAVA #언어 #프로그래밍 #코딩 #static #정적함수 #정적변수 #클래스
- JAVA #객체지향 #프로그래밍 #언어 #IT #기초
- RabbitMQ
- 실비용
- IT
- 메시지 큐
- 배낭여행
- 샐러리
- 예약
- 영국
- JAVA #언어 #프로그래밍 #IT #개발 #코딩
- 준비
- 겨울
- 경험
- #DB#SQLD#자격증
- 내심정
Archives
- Today
- Total
YoonWould!!
[크롤링]크롤링 애플리케이션 만들기 본문
728x90
파이썬을 이용해 간단한 크롤링 애플리케이션을 구현해보겠습니다.
참고한 책은 python 개발자를 위한 파이썬이라는 책을 참고하여 구현하였습니다.
먼저 스크래피(scrapy)를 사용합니다.
- 스크래피
파이썬으로 만들어진 대표적인 크롤러입니다. 크롤링의 프레임워크라고도 할 수 있습니다.
- 스크래피의 장점
- 스크랩할 항목 유형을 정의하는 클래스를 만들 수 있습니다.
- 수집한 데이터를 원하는 대로 편집하는 기능을 제공합니다.
- 서버에 연동하기 위해 기능을 확장할 수 있습니다.
- 크롤링 결과를 JSON, XML ,CSV 등의 형식으로 내보낼 수 있습니다.
- 손상된 HTML 파일을 분석할 수 있습니다.
- 스크래피를 이용해서 크롤러를 만드는 대략적인 과정
1. 크롤링할 아이템을 선정
2. 실제 크롤링할 스파이더(spider, 스크래피의 크롤러) 생성
3. 크롤링할 사이트와 크롤링 규칙 설정
4. HTML 문서를 파싱한 후 크롤러가 실행할 작업을 정의
6. 크롤러 실행
728x90
'<인턴생활> > [python 예제]' 카테고리의 다른 글
[데이터분석] 팬더스 활용하기 (0) | 2019.04.30 |
---|---|
[메시지 큐 만들기]RabbitMQ를 이용한 메시지 큐 2탄 (0) | 2019.04.29 |
[메시지 큐 만들기]RabbitMQ를 이용한 메시지 큐 (0) | 2019.04.29 |
[크롤링] 스크래피 프로젝트 생성 (0) | 2019.04.24 |