사이킷런(scikit-learn)

파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공
머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공
오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리
주로 numpy, scipy 기반 위에서 구축된 라이브러리

지도학습 - 분류

분류(Classification)는 대표적인 지도 학습(Supervised Learning) 방법의 하나.
지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label)데이터로 모델을 학습한 뒤, 별도의 데이터 데이터 세트에서 미지의 레이블을 예측.

즉 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식. 이때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트로 지칭

1. 사이킷런을 이용한 붓꽃 데이터 분류

붓꽃 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(Feature)를 기반으로 꽃의 품종을 예측하기 위한 것.

피처(Feature), 속성
피처는 데이터 세트의 일반 속성. 머신러닝은 2차원 이상의 다차원 데이터에서도 많이 사용되므로 타겟값을 제외한 나머지 속성을 모두 피처로 지칭.
레이블, 클래스, 타겟(값), 결정(값)
타겟값 또는 결정값은 지도 학습 시 데이터의 학습을 위해 주어지는 정답 데이터. 지도 학습 중 분류의 경우에는 이 결정값을 레이블 또는 클래스로 지칭.

2. 붓꽃 데이터 분류 예측 프로세스

데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리
모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습
예측 수행 : 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측
평가 : 이렇게 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML모델 성능을 평가

3. 실습

사이킷런을 이용하여 붓꽃(Iris)데이터 품종 예측하기

# 사이킷런 버전 확인
import sklearn
print(sklearn.__version__)

** 붓꽃 예측을 위한 사이킷런 필요 모듈 로딩 **

from sklearn.datasets import load_iris  # 내장데이터로 들어가있는 iris 데이터 로드
from sklearn.tree import DecisionTreeClassifier  # 의사결정나무 분류기
from sklearn.model_selection import train_test_split  # 학습,테스트 데이터 분리(train, test 데이터 분할)

1) 데이터 세트를 로딩

import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다. 
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다. 
iris_data = iris.data
iris_data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다. 
iris_label = iris.target
iris_label

print('iris target명:', iris.target_names)

iris target명: ['setosa' 'versicolor' 'virginica']

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다. 
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target

print(iris_df.shape)
iris_df.head()

2) 학습 데이터와 테스트 데이터 세트로 분리

iris_df 150의 행으로 이루어져 있다.
train: 0.8_150=120 -> (X_train,y_train) 학습 -> 모델
test:0.2_150=30 -> (X_test,y_test)예측 -> 평가지표

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, 
                                                    test_size=0.2, random_state=11)

test_size: 테스트 셋 구성의 비율을 나타냅니다. train_size의 옵션과 반대 관계에 있는 옵션 값이며,
주로 test_size를 지정해 줍니다. 0.2는 전체 데이터 셋의 20%를 test (validation) 셋으로 지정하겠다는 의미입니다.
default 값은 0.25 입니다.
random_state: 세트를 섞을 때 해당 int 값을 보고 섞으며,
하이퍼 파라미터를 튜닝시 이 값을 고정해두고 튜닝해야 매번 데이터셋이 변경되는 것을 방지할 수 있습니다.

# 학습 데이터 세트
print(X_train.shape)
print(y_train.shape)

# 테스트 데이터 세트
print(X_test.shape)
print(y_test.shape)

(120, 4)
(120,)
(30, 4)
(30,)

3) "학습 데이터" 세트로 학습(Train) 수행

# DecisionTreeClassifier 객체 생성 
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행 (해당 학습 데이터로 학습)
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

4) "테스트 데이터" 세트로 예측(Predict) 수행

# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행. 
pred = dt_clf.predict(X_test) #y_test(실제값)
pred

print(len(pred))
pred

iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

5) 예측 정확도 평가

from sklearn.metrics import accuracy_score #accuracy_score에 정답배열과 예측값의 배열을 넣으면 정확도가 평가된다.
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred))) #4f:실수형 4째자리까지!

-> 93%의 정확도로 iris 데이터의 품종을 예측함.

저작자표시 (새창열림)

'study📚 > 머신러닝' 카테고리의 다른 글

[머신러닝] 사이킷런(scikit-learn) - 데이터_전처리(데이터 인코딩, 피처스케일링과 정규화) (0)	2022.09.04
[머신러닝] 사이킷런(scikit-learn) - train_test_split, 교차검증, GridSearchCV (0)	2022.08.29
[머신러닝] 사이킷런(scikit-learn) - 사이킷런의 내장 예제 데이터 (0)	2022.08.27

enjoy

[머신러닝] 사이킷런(scikit-learn) - Iris 품종 예측

사이킷런(scikit-learn)

지도학습 - 분류

1. 사이킷런을 이용한 붓꽃 데이터 분류

2. 붓꽃 데이터 분류 예측 프로세스

3. 실습

1) 데이터 세트를 로딩

2) 학습 데이터와 테스트 데이터 세트로 분리

3) "학습 데이터" 세트로 학습(Train) 수행

4) "테스트 데이터" 세트로 예측(Predict) 수행

5) 예측 정확도 평가

'study📚 > 머신러닝' 카테고리의 다른 글

댓글

티스토리툴바

[머신러닝] 사이킷런(scikit-learn) - Iris 품종 예측

사이킷런(scikit-learn)

지도학습 - 분류

1. 사이킷런을 이용한 붓꽃 데이터 분류

2. 붓꽃 데이터 분류 예측 프로세스

3. 실습

1) 데이터 세트를 로딩

2) 학습 데이터와 테스트 데이터 세트로 분리

3) "학습 데이터" 세트로 학습(Train) 수행

4) "테스트 데이터" 세트로 예측(Predict) 수행

5) 예측 정확도 평가

'study📚 > 머신러닝' 카테고리의 다른 글

관련글

댓글

티스토리툴바