결측치 2

데이터 전처리 실습

이상 처리에 적합한 가상 데이터를 활용한 데이터 클리닝 문제 풀이 준비더보기데이터는 Pandas DataFrame 형식으로 제공하며, 각 열은 다음과 같은 속성을 가집니다:TransactionID: 거래 고유 IDCustomerID: 고객 고유 IDPurchaseAmount: 구매 금액 (USD)PurchaseDate: 구매 날짜ProductCategory: 제품 카테고리 (범주형 데이터)CustomerAge: 고객 나이CustomerGender: 고객 성별 (범주형 데이터)ReviewScore: 제품 리뷰 점수 (1~5 사이의 값, 결측값 포함import pandas as pdimport numpy as np# 가상 데이터 생성data = { 'TransactionID': range(1, 21),..

카테고리 없음 2024.12.10

데이터 전처리_결측치, 이상치

결측치(Missing Values)와 이상치(Outlier Values) 탐지 및 처리결측치: 데이터에 값이 없는 경우이상치: 데이터의 일반적인 패턴에서 벗어난 값, 문제의 정의에 따라 값을 새롭게 정의할 수 있습니다. ※ 적절한 처리 방법은 데이터의 특성과 도메인 지식, 분석 목적에 따라 달라지므로 경우에 맞게 적절한 처리방법을 선택해야 합니다.일관된 결측치 처리와 목적을 고려하지 않은 이상치 판단은 잘못된 데이터 분석을 만들며 성능을 낮출 수 있습니다.NaN은 수치적인 데이터 측면으로, 정의되지 않은 값이고 None은 값이 없는 /할당되지 않은 값파이썬에서는 None도 결측치로 처리하기 때문에 상관 없지만 둘은 개념적으로는 다르다 결측치 탐지isna(), isnull(): 결측치 탐지import pa..

카테고리 없음 2024.11.28