YoonWould!!

[데이터분석] 팬더스 활용하기 본문

<인턴생활>/[python 예제]

[데이터분석] 팬더스 활용하기

Hading 2019. 4. 30. 09:29
728x90

1. 팬더스(pandas)

팬더스는 파이썬을 이용한 오픈 소스 데이터 분석 도구입니다. 계산 과학 분야에서 사용하는 기본 패키지인 Numpy를 기반으로 만들어서 매우 빠르고, 복잡한 데이터 처리 작업을 SQL등의 쿼리를 다루는 것보다 간편하게 할 수 있습니다.

 

팬더스의 특징

  • 부동 소수점 데이터 뿐만 아니라 빠진 데이터(NaN으로 표시)를 손쉽게 처리
  • DataFrame 및 상위 차원 개체에서 열을 삽입하고 삭제할 수 있습니다.
  • 개체를 레이블 세트에 명시적으로 정렬하거나 사용자가 레이블을 무시하고 Series, DataFrame 등으로 데이터를 사용할 수 있습니다.
  • 데이터를 집계하거나 변환하기 위해 데이터 세트를 분할할 수 있는 강력하고 유연한 그룹 기능
  • 파이썬이나 Numpy 데이터 구조의 비정형 인덱스 데이터를 DataFrame 객체로 쉽게 변환해서 사용
  • 날짜 범위 생성, 날짜 데이터 빈도 변환, 날짜 이동과 지연 등 시계열 관련 기능 포함

팬더스의 장점

  • Numpy을 사용하기 때문에 빠름
  • 다양한 방법으로 데이터 처리가 가능 (CSV뿐만 아니라 엑셀 파일을 읽어서 데이터 다룰수도 있고 데이터베이스에 접근해서 작업 가능)
  • 시각화 도구가 잘 갖춰져 있음

진행 과정

  1. 팬더스 설치
  2. 데이터 종류 살펴보기
  3. 데이터를 불러오고 저장하기
  4. 조건에 따라 데이터 선택하기
  5. 데이터를 그룹으로 나누고 계산하고, 합해서 결과 만들기
  6. 그래프 만들기

2. 팬더스 데이터 타입 만들기

팬더스는 파이썬의 데이터 타입을 그대로 사용하지 않습니다. series와 DataFrame을 가지고 있습니다.

#series는 1차원 배열과 같습니다. 또한, 파이썬의 딕셔너리에서 깊이가 1인 것과 같이 사용할 수 있습니다.
import pandas as pd
import numpy as np
# s에 Series 데이터 타입을 정의합니다.
s = pd.Series([\"m\", \"i\",\"k\", \"u\", 3, 9, 39, 3.939])
s

# index 파라미터를 이용해 영어로 인덱스를 설정합니다.
s = pd.Series([\"m\", \"i\",\"k\", \"u\", 3, 9, 39, 3.939], index=[\"A\",\"B\",\"Z\",\"X\",\"y\",\"h\",\"i\",\"D\"])
s

# 깊이가 1인 딕셔너리를 생성합니다.\n",
heroes_dict = {,
    'ana':200, 'bastion':300, 'dva':500,
    'genji':200, 'hanjo':200, 'junkrat':200,
    'lucio':200, 'macree':200, 'mei':250,
    'mercy':200, 'pharah':200, 'reaper':250,
    'reinhardt':500, 'roadhog':600, 'soldier76':200,
    'symmetra':200, 'torbjorn':200, 'tracer':150,
    'widowmaker':200, 'winston':500, 'zarya':400,
    'zenyatta':200
}

# 해당 딕셔너리를 Series 타입으로 변환합니다.
heroes_series = pd.Series(heroes_dict)
heroes_series
728x90