728x90
• 데이터 분석 과정
데이터 확인 → 결측값 확인 → 데이터 가공 → 데이터 분석
(데이터 확인 / 결측값 확인 / 데이터 가공 까지의 과정을 전처리라고 함)
• 데이터 전처리의 중요성
- 모든 데이터 분석 프로젝트에서 전처리는 반드시 필요.
- 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치므로 가장 중요.
- 데이터 분석가들이 80% 이상의 시간을 데이터 수집 및 전처리에 사용.
• 데이터 전처리 및 시각화 활용 패키지
- Python의 패키지란 기능을 모아놓은 큰 상자
- 타인이 만들언 놓은 기능을 다운로드하여 사용함.
- 패키지를 불러와서 패키지 안에 있는 함수 사용
import random #import 패키지명
random.random #패키지명.함수
- 데이터 처리 : 판다스 (Pandas) / 넘파이 (Numpy)
- 데이터 시각화 : 맷플로립 (Matplotlib) / 씨본 (Seaborn)
'Studying > Data Analysis' 카테고리의 다른 글
Numpy 패키지 / Array 구조 / Array 연산 / random 모듈 예제 (0) | 2022.12.12 |
---|