데이터_전처리(데이터 인코딩, 피처스케일링과 정규화)

데이터 전처리(Data Preprocessing)

데이터 클린징
결손값 처리(Null/NaN 처리)
데이터 인코딩(레이블, 원-핫 인코딩)
데이터 스케일링
이상치 제거
Feature 선택, 추출 및 가공

데이터 전처리는 ML 알고리즘만큼 중요하다
먼저, 결손 값, 즉 Null,NaN 값은 허용되지 않는다. 이러한 Null값은 고정된 다른 값으로 변환해 주어야 한다.
처리 방법은 다양한데, 피처 값 중 Null값이 얼마 되지 않을 경우에는 피처의 평균값으로 대체할 수 있고, Null 값이 대부분이라면 오히려 해당 피처는 드롭하는 것이 좋다. 하지만 Null값이 일정 수준 이상일 경우 가장 결정이 힘든데, 해당 피처가 중요도가 높은 피처이고 Null을 단순히 피처의 평균값으로 대체할 경우 예측 왜곡이 심할 수 있다면 업무 로직등을 상세히 검토해 더 정밀한 대체 값을 선정해야 한다.

사이킷런의 머신러닝 알고리즘은 문자열 값을 입력 값으로 허용하지 않는다. 그래서 모든 문자열 값은 인코딩 돼서 숫자형으로 변화해야 한다. 문자열 피처는 일반적으로 카테고리형 피터와 텍스트형 피처를 의미하는데, 텍스트형 피처는 피처 벡터화(feature vectorization)등의 기법으로 벡터화하거나 불필요한 피처라고 판단되면 삭제하는 것이 좋다.

데이터 인코딩

머신러닝 알고리즘은 문자열 데이터 속성을 입력 받지 않으며 모든 데이터는 숫자형으로 표현되어야 한다.
문자형 카테고리형 속성은 모두 숫자값으로 변환/인코딩 되어야 한다.

레이블(Label) 인코딩
원-핫(One-Hot) 인코딩

1. 레이블(Label) 인코딩

카테고리 피처를 코드형 숫자 값으로 변환하는 것.

[TV, 냉장고, 전자레인지, 컴퓨터, 선풍기, 믹서] -> [0, 1, 4, 5, 3, 2]

from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder 클래스를 encoder 객체로 생성한 후
encoder = LabelEncoder()

# fit은 transform 수행 전 틀을 맞춰주는 역할
encoder.fit(items)

# encoder.transform( ) 으로 label 인코딩 수행. 
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

print('인코딩 클래스:', encoder.classes_)

print('디코딩 원본 값:', encoder.inverse_transform([0, 1, 4, 5, 3, 3, 2, 2]))

데이터가 커 문자열 값이 어떤 숫자 값으로 인코딩되었는지 확인할 수 없는 경우, LabelEncoder 객체의 calsses_속성값을 확인하면 된다. classes_ 속성은 0번부터 순서대로 변환된 인코딩 값에 대한 원본 값을 가지고 있다.

레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환하지만, 몇몇 ML 알고리즘에서는 이를 적용할 경우 예측 성능이 떨어지는 경우가 있다. 이는 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문이다. 그래서 선형 회귀와 같은 ML 알고리즘에서는 레이블 인코딩을 적용해서는 안 된다. 트리 계열의 ML 알고리즘은 숫자의 이러한 특성을 반영하지 않는다.

2. 원-핫(One-Hot) 인코딩

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식. 앞서 설명한 레이블 인코딩의 문제점을 해결하기 위한 인코딩 방식

1) sklearn에서의 원핫 인코딩

첫번째, 숫자값으로 변환을 위해 LabelEncoder로 변환
두번째, 2차원 데이터로 변환(reshape 활용)
세번째, 원-핫 인코딩을 적용

from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 첫번째, 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환합니다. 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels

# 두번째, 2차원 데이터로 변환합니다. 
labels = labels.reshape(-1, 1)
labels

# 마지막으로 원-핫 인코딩을 적용합니다.
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.shape)
oh_labels.toarray()

2) 판다스의 원핫 인코딩

판다스의 get_dummies 함수를 이용하면 쉽게 원핫 인코딩이 가능하다.
사이킷런의 One-Hot 인코딩과 다르게 묹열 카테고리 값을 숫자형으로 변환할 필요가 없이 바로 변환할 수 있다.

import pandas as pd

df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'] })
df

pd.get_dummies(df) # pd.get_dummies 처리 : 결측값을 제외하고 0과 1로 구성된 더미값이 만들어진다

피처 스케일링(feature scailing)

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업. 대표적인 방법으로는 표준화(Standardization)와 정규화(Normalization)이 있다.

표준화는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미. 표준화의 값은 원래 값에서 피처 x의 평균을 뺀 값을 x의 표준편차로 나눈 값으로 계산할 수 있다.

정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념. 이는 변수들을 모두 최소 0~ 최대 1의 값으로 변환하는 것인데, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것. 이 값은 원래 값에서 피처 x의 최솟값을 뺀 값을 피처 x의 최댓값과 최솟값의 차이로 나눈 값으로 변환할 수 있다.

사이킷런의 전처리에서 제공되는 Normalizer 모듈과 일반적인 정규화는 약간의 차이가 있다. 사이킷런의 Normalizer 모듈은 선형대수에서의 정규화 개념이 적용되었으며, 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미. 즉, 개별 벡터를 모든 피처 벡터의 크기로 나눠준다.

사이킷런 피처 스케일링 지원

1) StandardScaler

표준화를 쉽게 지원하기 위한 클래스 즉, 개별 피처를 평균이 0이고, 분산이 1인 정규 분포 형태로 변환
사이켓런에서 구현한 RBF 커널을 이용하는 서포트 벡터 머신(Support Vector Machine)이나 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression)는 데이터가 가우시안 분포를 가지고 있다고 구현되었기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다.

from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다. 
iris = load_iris()
iris_data = iris.data

iris.feature_names

iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean(), '\n')

print('feature 들의 분산 값')
print(iris_df.var())

from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()

# StandardScaler 로 데이터 셋 변환. fit( ) 과 transform( ) 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_scaled

# transform( )시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df_scaled.mean(), '\n')

print('feature 들의 분산 값')
print(iris_df_scaled.var())

-> 모든 컬럼 값의 평균은 0에 아주 가까운 값으로, 분산은 1에 가까운 값으로 변환되었다.

2) MinMaxScaler

데이터 값을 0과 1 사이의 범위 값으로 변환(음수 값이 있으면 -1에서 1 값으로 변환)

from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()

# MinMaxScaler 로 데이터 셋 변환. fit() 과 transform() 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print('feature들의 최소 값')
print(iris_df_scaled.min(), '\n')

print('feature들의 최대 값')
print(iris_df_scaled.max())

-> 모든 피처의 값이 0~1 사이로 변환되었다.

저작자표시 (새창열림)

'study📚 > 머신러닝' 카테고리의 다른 글

[머신러닝] 사이킷런(scikit-learn) - train_test_split, 교차검증, GridSearchCV (0)	2022.08.29
[머신러닝] 사이킷런(scikit-learn) - 사이킷런의 내장 예제 데이터 (0)	2022.08.27
[머신러닝] 사이킷런(scikit-learn) - Iris 품종 예측 (0)	2022.08.26

enjoy

[머신러닝] 사이킷런(scikit-learn) - 데이터_전처리(데이터 인코딩, 피처스케일링과 정규화)

데이터_전처리(데이터 인코딩, 피처스케일링과 정규화)

데이터 전처리(Data Preprocessing)

데이터 인코딩

1. 레이블(Label) 인코딩

2. 원-핫(One-Hot) 인코딩

피처 스케일링(feature scailing)

사이킷런 피처 스케일링 지원

1) StandardScaler

2) MinMaxScaler

'study📚 > 머신러닝' 카테고리의 다른 글

댓글

티스토리툴바

[머신러닝] 사이킷런(scikit-learn) - 데이터_전처리(데이터 인코딩, 피처스케일링과 정규화)

데이터_전처리(데이터 인코딩, 피처스케일링과 정규화)

데이터 전처리(Data Preprocessing)

데이터 인코딩

1. 레이블(Label) 인코딩

2. 원-핫(One-Hot) 인코딩

피처 스케일링(feature scailing)

사이킷런 피처 스케일링 지원

1) StandardScaler

2) MinMaxScaler

'study📚 > 머신러닝' 카테고리의 다른 글

관련글

댓글

티스토리툴바