보험료 예측하기 - 전처리

https://www.kaggle.com/datasets/mirichoi0218/insurance

# 필요한 파이썬 라이브러리 
import pandas as pd
import numpy as np
import seaborn as sns
import missingno

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.impute import SimpleImputer
import matplotlib.pyplot as plt 

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

[EDA 체크리스트]

어떤 질문을 풀거나 틀렸다고 증명하려고 하는가?
중복된 항목은 있는가?
어떤 종류의 데이터가 있으며 다른 데이터 타입들을 어떻게 다루려고 하는가?
데이터에서 누락된 것이 있는지, 있다면 그것들을 어떻게 처리하려는가?
이상치는 어디에 있는가? 관심을 가져야 할 데이터인가?
변수 간 상관성이 있는가?

데이터 불러오기

data = pd.read_csv("./insurance.csv")

1. 어떤 질문을 풀거나 틀렸다고 증명하려고 하는가?

-> 보험사 고객 정보를 통해 보험료 예측 모델 생성

# 데이터의 모양 알아보기
print(data.shape)

# 데이터의 15개 행 데이터만 확인하기
print(data.head(15))

2. 중복된 항목은 있는가?

df.duplicated() : 중복된 데이터가 있는지 확인

# 중복된 항목 수 알아보기
print("중복된 항목 수 :", len(data[data.duplicated()]))

중복이 있으면 처음과 끝 중 무슨 값을 남길 것인가? : keep = 'first', 'last', False

# 중복된 항목 확인
print(data[data.duplicated(keep = False)])

# 중복된 항목 제거
data.drop_duplicates(inplace = True, keep = 'first',ignore_index = True)

3. 어떤 종류의 데이터가 있으며 다른 데이터 타입들을 어떻게 다루려고 하는가?

# 데이터 컬럼 이름/타입 정보 확인하기
print(data.info())

# 데이터 타입별 컬럼 수 확인하기
dtype_data = data.dtypes.reset_index()
dtype_data.columns = ["Count","Column Type"]
dtype_data = dtype_data.groupby("Column Type").aggregate('count').reset_index() # aggregate = agg

print(dtype_data)

nunique() : 고유한 값들의 수

# 범주형 데이터 컬럼별 유일한 값 개수 확인하기 
print(data.select_dtypes(include=['object','category']).nunique())

항목이 2개인 성별(sex)과 흡연 여부(smoker)는 LabelEncoder, 지역(region)은 OneHotEncoder를 사용

sklearn 의 LabelEncoder, OneHotEncoder 사용

## LabelEncoder : 각각의 범주를 서로 다른 정수로 맵핑
## 성별, 흡연 여부 컬럼은 Label Encoding 을 위해 ndarray 로 변환하여 준다
sex = data.iloc[:,1:2].values
smoker = data.iloc[:,4:5].values

### 성별 ###
# 1. LabelEncoder() 를 선언해주고
le = LabelEncoder()

# 2. 성별을 LabelEncoder 의 fit_transform 에 넣어준다
sex[:,0] = le.fit_transform(sex[:,0])
sex = pd.DataFrame(sex)
sex.columns = ['sex']
print(sex)

# 3. dict 형으로 변환해주기
le_sex_mapping = dict(zip(le.classes_, le.transform(le.classes_)))
print("성별에 대한 Label Encoder 결과 :")
print(le_sex_mapping)
print(sex[:10])

성별(sex)와 같은 방법으로

### 흡연 여부 ###
# 1. LabelEncoder() 를 선언해주고
le = LabelEncoder()

# 2. 흡연 여부를 LabelEncoder 의 fit_transform 에 넣어준다
smoker[:,0] = le.fit_transform(smoker[:,0])
smoker = pd.DataFrame(smoker)
smoker.columns = ['smoker']
print(smoker)

# 3. dict 형으로 변환해주기
le_smoker_mapping = dict(zip(le.classes_, le.transform(le.classes_)))
print("흡연 여부에 대한 Label Encoder 결과 :")
print(le_smoker_mapping)
print(smoker[:10])

## OneHot Encoder : 각각의 범주를 0과 1로 맵핑
## 지역 컬럼은 Label Encoding 을 위해 ndarray 로 변환하여 준다
region = data.iloc[:,5:6].values

### 지역 ###
# 1. OneHotEncoder() 를 선언해주고
ohe = OneHotEncoder()


# 2. 지역을 OneHotEncoder 의 fit_transform 에 넣어준다

region = ohe.fit_transform(region).toarray()
region = pd.DataFrame(region)
region.columns = ['northeast', 'northwest', 'southeast', 'southwest']
print("지역에 대한 OneHot Encoder 결과 : ")  
print(region[:10])

4. 데이터에서 누락된 것이 있는지, 있다면 그것들을 어떻게 처리하려는가?

# 각 컬럼들에 몇 개의 NULL 값이 포함되어 있는지 확인
count_nan = data.isnull().sum()
print(count_nan[count_nan > 0])

# missingno 패키지를 통해 시각화 확인
missingno.matrix(data, figsize=(30,10))

# seaborn 패키지 heatmap 을 통해 시각화 확인
sns.heatmap(data.isnull(), cbar=False, yticklabels=False, cmap='viridis')

이 데이터에 경우에는 NULL값이 포함되어 있지 않기 때문에 NULL 값을 대체할 필요가 없다
만약 NULL값이 포함되어 있을 경우에는 보통은 각 칼럼의 평균값으로 채운다

저작자표시 비영리 변경금지 (새창열림)

enjoy

[파이썬/머신러닝] 보험료 예측하기 - 전처리

보험료 예측하기 - 전처리

1. 어떤 질문을 풀거나 틀렸다고 증명하려고 하는가?

2. 중복된 항목은 있는가?

3. 어떤 종류의 데이터가 있으며 다른 데이터 타입들을 어떻게 다루려고 하는가?

4. 데이터에서 누락된 것이 있는지, 있다면 그것들을 어떻게 처리하려는가?

댓글

티스토리툴바