일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- JAVA #언어 #프로그래밍 #코딩 #static #정적함수 #정적변수 #클래스
- 겨울
- 배낭여행
- 실비용
- 파이썬
- 내심정
- #DB#SQLD#자격증
- 여행
- 일정
- 여행 #
- 서버
- 1달살기
- 경험
- 이탈리아
- JAVA #객체지향 #프로그래밍 #언어 #IT #기초
- 유럽
- 리눅스
- 계획
- 샐러리
- 영국
- IT
- 인프라
- RabbitMQ
- 메시지 큐
- ip
- 추억
- JAVA #언어 #프로그래밍 #IT #개발 #코딩
- 준비
- 유럽여행
- 예약
- Today
- Total
목록<인턴생활>/[python 예제] (5)
YoonWould!!
1. 팬더스(pandas) 팬더스는 파이썬을 이용한 오픈 소스 데이터 분석 도구입니다. 계산 과학 분야에서 사용하는 기본 패키지인 Numpy를 기반으로 만들어서 매우 빠르고, 복잡한 데이터 처리 작업을 SQL등의 쿼리를 다루는 것보다 간편하게 할 수 있습니다. 팬더스의 특징 부동 소수점 데이터 뿐만 아니라 빠진 데이터(NaN으로 표시)를 손쉽게 처리 DataFrame 및 상위 차원 개체에서 열을 삽입하고 삭제할 수 있습니다. 개체를 레이블 세트에 명시적으로 정렬하거나 사용자가 레이블을 무시하고 Series, DataFrame 등으로 데이터를 사용할 수 있습니다. 데이터를 집계하거나 변환하기 위해 데이터 세트를 분할할 수 있는 강력하고 유연한 그룹 기능 파이썬이나 Numpy 데이터 구조의 비정형 인덱스 데..
지난 시간에 이어서 진행되는 점 참고바랍니다. 1. 작업 분배 : 큐에 넣고, 여러 개의 워커가 가져가고, 작업 종료 확인하기 퍼블리셔 => 큐 => 컨슈머 1,2 퍼블리셔가 생성한 메시지를 메시지 큐에서 컨슈머 1과2에 나워 전달합니다. 지난 시간에 한 예제와 규모를 조절하면 비슷하나 이번 예제는 컨슈머가 작업한 후 해당 작업이 정상적으로 완료되었는지 확인하는 것과 퍼블리셔, 메시지 큐 서버, 컨슈머 중 어느 하나에 문제가 생겼을 때 해당 데이터를 어떻게 보존시킬 지입니다. #메시지 센더 구현 #new_sender.py import pika # 무작위 수를 생성하는 random 모듈을 임포트합니다. import random # 서버와 연결을 맺습니다. connection = pika.BlockingCo..

RabbitMQ를 사용해서 메시지 큐를 만들고, 큐에 메세지를 넣고, 그 메시지를 가져가는 작업을 해보겠습니다. 1.메시지 큐 메시지 큐는 서로 다른 프로그램 사이에 공유할 수 있는 무제한 크기의 버퍼입니다. 이 큐를 이용해서 데이터를 만들고, 큐에 쌓아두고, 큐에서 데이터를 빼내어 순서대로 처리하거나, 라운드 로빈 방식으로 분배해서 처리하거나, 규칙에 따라 여러 가지 작업을 할 수 있습니다. 즉, 메시지 큐는 사용자가 입력한 메시지를 보낼 때의 중간 자료구조임을 알 수 있습니다. 위키 백과 : https://ko.wikipedia.org/wiki/메시지_큐 2.RabbitMQ 소개 RabbitMQ는 사용하기 간단하고, 대부분 운영체제에서 실행되며, 메시지 큐의 표준 중 하나인 'AMQP(Adva..
이번 시간에는 스크래피를 설치하고, 프로젝트를 생성하고, 크롤링의 핵심이 되는 아이템 설정하기까지 살펴보겠습니다. 1. 스크래피 설치 set swap # swap을 첨부하는 이유는 나중에 xml을 설치했을 때 메모리 공간 확보를 위해서 입니다. sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile echo "/swapfile swap swap sw 0 0" >> /etc/fstab echo "vm.swappiness = 10" >>/etc/sysctl.conf echo "vm.vfs_cache_pressure = 50" >> /etc/sysctl.conf Install Scrapy..
파이썬을 이용해 간단한 크롤링 애플리케이션을 구현해보겠습니다. 참고한 책은 python 개발자를 위한 파이썬이라는 책을 참고하여 구현하였습니다. 먼저 스크래피(scrapy)를 사용합니다. 스크래피 파이썬으로 만들어진 대표적인 크롤러입니다. 크롤링의 프레임워크라고도 할 수 있습니다. 스크래피의 장점 - 스크랩할 항목 유형을 정의하는 클래스를 만들 수 있습니다. - 수집한 데이터를 원하는 대로 편집하는 기능을 제공합니다. - 서버에 연동하기 위해 기능을 확장할 수 있습니다. - 크롤링 결과를 JSON, XML ,CSV 등의 형식으로 내보낼 수 있습니다. - 손상된 HTML 파일을 분석할 수 있습니다. 스크래피를 이용해서 크롤러를 만드는 대략적인 과정 1. 크롤링할 아이템을 선정 2. 실제 크롤링할 스파이더(..