๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

study๐Ÿ“š/๋จธ์‹ ๋Ÿฌ๋‹4

[๋จธ์‹ ๋Ÿฌ๋‹] ์‚ฌ์ดํ‚ท๋Ÿฐ(scikit-learn) - ๋ฐ์ดํ„ฐ_์ „์ฒ˜๋ฆฌ(๋ฐ์ดํ„ฐ ์ธ์ฝ”๋”ฉ, ํ”ผ์ฒ˜์Šค์ผ€์ผ๋ง๊ณผ ์ •๊ทœํ™”) ๋ฐ์ดํ„ฐ_์ „์ฒ˜๋ฆฌ(๋ฐ์ดํ„ฐ ์ธ์ฝ”๋”ฉ, ํ”ผ์ฒ˜์Šค์ผ€์ผ๋ง๊ณผ ์ •๊ทœํ™”) ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(Data Preprocessing) ๋ฐ์ดํ„ฐ ํด๋ฆฐ์ง• ๊ฒฐ์†๊ฐ’ ์ฒ˜๋ฆฌ(Null/NaN ์ฒ˜๋ฆฌ) ๋ฐ์ดํ„ฐ ์ธ์ฝ”๋”ฉ(๋ ˆ์ด๋ธ”, ์›-ํ•ซ ์ธ์ฝ”๋”ฉ) ๋ฐ์ดํ„ฐ ์Šค์ผ€์ผ๋ง ์ด์ƒ์น˜ ์ œ๊ฑฐ Feature ์„ ํƒ, ์ถ”์ถœ ๋ฐ ๊ฐ€๊ณต ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋Š” ML ์•Œ๊ณ ๋ฆฌ์ฆ˜๋งŒํผ ์ค‘์š”ํ•˜๋‹ค ๋จผ์ €, ๊ฒฐ์† ๊ฐ’, ์ฆ‰ Null,NaN ๊ฐ’์€ ํ—ˆ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค. ์ด๋Ÿฌํ•œ Null๊ฐ’์€ ๊ณ ์ •๋œ ๋‹ค๋ฅธ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•ด ์ฃผ์–ด์•ผ ํ•œ๋‹ค. ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์€ ๋‹ค์–‘ํ•œ๋ฐ, ํ”ผ์ฒ˜ ๊ฐ’ ์ค‘ Null๊ฐ’์ด ์–ผ๋งˆ ๋˜์ง€ ์•Š์„ ๊ฒฝ์šฐ์—๋Š” ํ”ผ์ฒ˜์˜ ํ‰๊ท ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๊ณ , Null ๊ฐ’์ด ๋Œ€๋ถ€๋ถ„์ด๋ผ๋ฉด ์˜คํžˆ๋ ค ํ•ด๋‹น ํ”ผ์ฒ˜๋Š” ๋“œ๋กญํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. ํ•˜์ง€๋งŒ Null๊ฐ’์ด ์ผ์ • ์ˆ˜์ค€ ์ด์ƒ์ผ ๊ฒฝ์šฐ ๊ฐ€์žฅ ๊ฒฐ์ •์ด ํž˜๋“ ๋ฐ, ํ•ด๋‹น ํ”ผ์ฒ˜๊ฐ€ ์ค‘์š”๋„๊ฐ€ ๋†’์€ ํ”ผ์ฒ˜์ด๊ณ  Null์„ ๋‹จ.. 2022. 9. 4.
[๋จธ์‹ ๋Ÿฌ๋‹] ์‚ฌ์ดํ‚ท๋Ÿฐ(scikit-learn) - train_test_split, ๊ต์ฐจ๊ฒ€์ฆ, GridSearchCV Model Selection - ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ 1. ํ•™์Šต ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•™์Šต์„ ์œ„ํ•ด ์‚ฌ์šฉ. ๋ฐ์ดํ„ฐ์˜ ์†์„ฑ๋“ค๊ณผ ๊ฒฐ์ •๊ฐ’(๋ ˆ์ด๋ธ”๊ฐ’) ๋ชจ๋‘๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ. ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ฐ์ดํ„ฐ ์†์„ฑ๊ณผ ๊ฒฐ์ •๊ฐ’์˜ ํŒจํ„ด์„ ์ธ์ง€ํ•˜๊ณ  ํ•™์Šต 2. ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ์„ธํŠธ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ํ•™์Šต๋œ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ…Œ์ŠคํŠธ. ์†์„ฑ ๋ฐ์ดํ„ฐ๋งŒ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ œ๊ณตํ•˜๋ฉฐ, ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ œ๊ณต๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฒฐ์ •๊ฐ’์„ ์˜ˆ์ธก. ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ ์ œ๊ณต๋˜์–ด์•ผ ํ•จ. 3. ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌ - train_test_split() sklearn.model_selection์˜ train_test_split()ํ•จ์ˆ˜ X_train, X_test.. 2022. 8. 29.
[๋จธ์‹ ๋Ÿฌ๋‹] ์‚ฌ์ดํ‚ท๋Ÿฐ(scikit-learn) - ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ ๋‚ด์žฅ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ ์‚ฌ์ดํ‚ท๋Ÿฐ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ ๋‚ด์žฅ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ 1. ์‚ฌ์ดํ‚ท๋Ÿฐ ๋‚ด์žฅ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ ์…‹ - ๋ถ„๋ฅ˜ ๋ฐ ํšŒ๊ท€์šฉ datasets.load_boston() : ํšŒ๊ท€ ์šฉ๋„์ด๋ฉฐ, ๋ฏธ๊ตญ ๋ณด์Šคํ„ด์˜ ์ง‘ ํ”ผ์ฒ˜๋“ค๊ณผ ๊ฐ€๊ฒฉ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ datasets.load_breast_cancer() : ๋ถ„๋ฅ˜ ์šฉ๋„์ด๋ฉฐ, ์œ„์Šค์ฝ˜์‹  ์œ ๋ฐฉ์•” ํ”ผ์ฒ˜๋“ค๊ณผ ์•…์„ฑ/์Œ์„ฑ ๋ ˆ์ด๋ธ” ๋ฐ์ดํ„ฐ ์„ธํŠธ datasets.load_diabetes() : ํšŒ๊ท€ ์šฉ๋„์ด๋ฉฐ, ๋‹น๋‡จ ๋ฐ์ดํ„ฐ ์„ธํŠธ datasets.load_digits() : ๋ถ„๋ฅ˜ ์šฉ๋„์ด๋ฉฐ, 0์—์„œ 9๊นŒ์ง€ ์ˆซ์ž์˜ ์ด๋ฏธ์ง€ ํ”ฝ์…€ ๋ฐ์ดํ„ฐ ์„ธํŠธ datasets.load_iris() : ๋ถ„๋ฅ˜ ์šฉ๋„์ด๋ฉฐ, ๋ถ“๊ฝƒ์— ๋Œ€ํ•œ ํ”ผ์ฒ˜๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ ์„ธํŠธ 2. ๋‚ด์žฅ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ ์…‹ ๊ตฌ์„ฑ 3. ์‹ค์Šต ์‚ฌ์ดํ‚ท๋Ÿฐ ๋‚ด์žฅ ๋ฐ์ดํ„ฐ์ธ iris_d.. 2022. 8. 27.
[๋จธ์‹ ๋Ÿฌ๋‹] ์‚ฌ์ดํ‚ท๋Ÿฐ(scikit-learn) - Iris ํ’ˆ์ข… ์˜ˆ์ธก ์‚ฌ์ดํ‚ท๋Ÿฐ(scikit-learn) ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜์˜ ๋‹ค๋ฅธ ๋จธ์‹ ๋Ÿฌ๋‹ ํŒจํ‚ค์ง€๋„ ์‚ฌ์ดํ‚ท๋Ÿฐ ์Šคํƒ€์ผ์˜ API๋ฅผ ์ง€ํ–ฅํ•  ์ •๋„๋กœ ์‰ฝ๊ณ  ๊ฐ€์žฅ ํŒŒ์ด์ฌ์Šค๋Ÿฌ์šด API๋ฅผ ์ œ๊ณต ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ๋งค์šฐ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ํŽธ๋ฆฌํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์™€ API๋ฅผ ์ œ๊ณต ์˜ค๋žœ ๊ธฐ๊ฐ„ ์‹ค์ „ ํ™˜๊ฒฝ์—์„œ ๊ฒ€์ฆ๋์œผ๋ฉฐ, ๋งค์šฐ ๋งŽ์€ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์„ฑ์ˆ™ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ฃผ๋กœ numpy, scipy ๊ธฐ๋ฐ˜ ์œ„์—์„œ ๊ตฌ์ถ•๋œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ง€๋„ํ•™์Šต - ๋ถ„๋ฅ˜ ๋ถ„๋ฅ˜(Classification)๋Š” ๋Œ€ํ‘œ์ ์ธ ์ง€๋„ ํ•™์Šต(Supervised Learning) ๋ฐฉ๋ฒ•์˜ ํ•˜๋‚˜. ์ง€๋„ํ•™์Šต์€ ํ•™์Šต์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ํ”ผ์ฒ˜์™€ ๋ถ„๋ฅ˜ ๊ฒฐ์ •๊ฐ’์ธ ๋ ˆ์ด๋ธ”(Label)๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์„ ํ•™์Šตํ•œ ๋’ค, ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋ฏธ์ง€์˜ ๋ ˆ์ด๋ธ”์„ ์˜ˆ์ธก. ์ฆ‰ ์ง€๋„ํ•™์Šต์€ ๋ช…ํ™•ํ•œ ์ •๋‹ต์ด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๋จผ์ € ํ•™์Šตํ•œ.. 2022. 8. 26.