728x90

• 데이터 분석 과정

데이터 확인 → 결측값 확인 → 데이터 가공 → 데이터 분석 

(데이터 확인 / 결측값 확인 / 데이터 가공 까지의 과정을 전처리라고 함)

 

• 데이터 전처리의 중요성

- 모든 데이터 분석 프로젝트에서 전처리는 반드시 필요.

- 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치므로 가장 중요.

- 데이터 분석가들이 80% 이상의 시간을 데이터 수집 및 전처리에 사용.

 

• 데이터 전처리 및 시각화 활용 패키지

- Python의 패키지란 기능을 모아놓은 큰 상자

- 타인이 만들언 놓은 기능을 다운로드하여 사용함.

- 패키지를 불러와서 패키지 안에 있는 함수 사용

import random    #import 패키지명

random.random    #패키지명.함수

 

-  데이터 처리 : 판다스 (Pandas) / 넘파이 (Numpy)

-  데이터 시각화 : 맷플로립 (Matplotlib) / 씨본 (Seaborn)

 

 

+ Recent posts