๋ฐ์ํ
์ง๋ํ์ต (Supervised Learning
- ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์
๋๋ ํ๋ จ๋ฐ์ดํฐ์ ๋ ์ด๋ธ(y๊ฐ)์ด ํฌํจ๋์ด ์๋ค.
- ์) ๊ณ ์์ด์ฌ์ง(1,0), ๊ฐ์์ง์ฌ์ง (0,1) ์ด๋ฐ์์ผ๋ก ์ ํํ ๋ผ๋ฒจ๋ง์ด ๋์ด์๋ ๋ฐ์ดํฐ๋ฅผ ํ๋ จ๋ฐ์ดํฐ๋ก ์ด์ฉํ๋ค.
- ๋ํ์ ์ธ ์ง๋ํ์ต ๋ฐฉ๋ฒ
- ๋ถ๋ฅ
- ์ข ๋ฅ๋ฅผ ์์ธกํ๋ ๊ฒ
- ๋ฐ์ดํฐ๋ฅผ ํน์ ๋ผ๋ฒจ๊ฐ(y๊ฐ)์ผ๋ก ๋ถ๋ฅ(์์ธก)ํ๋ ์์
- ์คํธ๋ถ๋ฅ ( ์คํธ์ด๋ค (1) / ์คํธ ์๋๋ค (0) ) : ๋ณดํต Yes / No ๋ฅผ 1๊ณผ 0์ผ๋ก ํํํ๋ค. - ์ด์ง๋ถ๋ฅ
- ์ด๋ค ๋ฐ์ดํฐ์ ๋ํด ์ฌ๋ฌ๊ฐ ์ค ํ๋๋ก ๋ถ๋ฅํ๊ธฐ๋ ํ๋ค. - ๋ค์ค๋ถ๋ฅ
- ๊ณ ์์ด (1,0,0) / ๊ฐ์์ง (0,1,0) / ํ ๋ผ (0,0,1)...
- ํ๊ท
- ์ฐ์๋ ๊ฐ์ ์์ธกํ๋ ๊ฒ
- ์ด๋ค ๋ฐ์ดํฐ๋ค์ ํน์ง (feature)์ ํ ๋๋ก ๊ฐ(์์น)์ ์์ธก ํ๋ ์์
- ์) features = ์ฃผํ๊ฑฐ๋ฆฌ, ์ฐ์, ๋ธ๋๋ ๋ฑ
Target (๊ตฌํ๋ ค๋ ๊ฐ) = ์ค๊ณ ์ฐจ ๊ฐ๊ฒฉ
- ์) features = ์ฃผํ๊ฑฐ๋ฆฌ, ์ฐ์, ๋ธ๋๋ ๋ฑ
- ๊ฒฐ๊ณผ ๊ฐ์ ์ค์์ด๋ฉฐ, ์ฐ์์ฑ์ ๊ฐ๋๋ค.
- ์ง๋ํ์ต ์๊ณ ๋ฆฌ์ฆ ์์
- K-Nearest Neibors (k-์ต๊ทผ์ ์ด์, KNN)
- Linear Regression (์ ํ ํ๊ท)
- Logistic Regression (๋ก์ง์คํฑ ํ๊ท)
- SVM (Support Vector Machines)
- Decision Tree (์์ฌ๊ฒฐ์ ๋๋ฌด)
- Random Forest (๋๋ค ํฌ๋ ์คํธ)
- Neural Networks (์ ๊ฒฝ๋ง)
๋น์ง๋ํ์ต (Unsupervised Learning)
- ๋ ์ด๋ธ์ด ์๋ ์ํ์ ํ๋ จ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ํ์ตํ๋ ๋ฐฉ๋ฒ
- ๋จธ์ ๋ฌ๋ ์์คํ ์ด ์์์ y๊ฐ(ํ๊ฒ)์ด ๋ฌด์์ธ์ง ํ์ตํด์ผํ๊ธฐ ๋๋ฌธ์ ๋น์ง๋ ํ์ต์ด๋ผ๊ณ ํ๋ค.
- ์์)
- ๊ณ ์์ด, ๊ฐ์์ง, ๋ญ, ์๋ฅผ ๋น์ง๋ ํ์ต ์ํค๋ฉด
๋ค๋ฆฌ๊ฐ 4๊ฐ์ธ ๊ฐ์์ง, ๊ณ ์์ด๋ฅผ ํ ๋ฌถ์์ผ๋ก
๋ค๋ฆฌ๊ฐ 2๊ฐ์ธ ๋ญ, ์๋ฅผ ํ ๋ฌถ์์ผ๋ก ๋ฌถ์ ์ ์์ ๊ฒ์ด๋ค. - ์ด์ฒ๋ผ ํ๋ จ๋ฐ์ดํฐ์ ์ ์ ํ Feature(๋ค๋ฆฌ ์)๋ฅผ ์ฐพ์๋ด์ผ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
- ๊ณ ์์ด, ๊ฐ์์ง, ๋ญ, ์๋ฅผ ๋น์ง๋ ํ์ต ์ํค๋ฉด
- ๋น์ง๋ํ์ต ์๊ณ ๋ฆฌ์ฆ ์์
- ๊ตฐ์ง (Clustering)
- k-means
- ๊ณ์ธต ๊ตฐ์ง ๋ถ์ (Hierarchical Cluster Analysis, HCA)
- ๊ธฐ๋๊ฐ ์ต์ํ (Expectation maximization)
- ์ฐจ์์ถ์
(์ ๋ณด ์์ค์ ์ต์ํ ํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ํ ํ๋ ๋ฐฉ๋ฒ)
ex. ์ค๊ณ ์ฐจ์ ๊ฐ๊ฒฉ์ ์์ธกํ ๋, ์ฃผํ๊ฑฐ๋ฆฌ์ ์ฐ์์ ๋งค์ฐ ์๊ด์๋ ๊ด๊ณ. ์ด๋ฅผ "๋ง๋ชจ ์ ๋"๋ฅผ ๋ํ๋ด๋ ํ๋์ ํน์ฑ์ผ๋ก ํฉ์นจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ ์ ์๋ค. (์ด๋ฅผ ํน์ฑ ์ถ์ถ ์ด๋ผ๊ณ ํ๋ค.)
- ์ฃผ์ฑ๋ถ ๋ถ์ (Principal Component Analysis, PCA)
- ์ปค๋ PCA
- ์ง์ญ์ ์ ํ ์๋ฐฐ๋ฉ
- t-SNE (t-distributed Stochastic Neighbor Embedding, ์๊ฐํํจ์ผ๋ก์จ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ์)
- ์ฐ๊ด ๊ท์น ํ์ต
(๋ฐ์ดํฐ์ ํน์ฑ ๊ฐ์ ํฅ๋ฏธ๋ก์ด ๊ด๊ณ๋ฅผ ์ฐพ์๋ด๋ ํ์ต)
ex. "๋งฅ์ฃผ๋ฅผ ์ฌ๋ฉด์ ํจ๊ป ๊ธฐ์ ๊ท๋ฅผ ์ฐ๋ค" ๋ผ๋ ํน์ดํ ์ฐ๊ด๊ด๊ณ๋ฅผ ๋ฐํ๋ด๋ฉด์ ๋ค๋ฐฉ๋ฉด์ผ๋ก ํ์ฉ ๊ฐ๋ฅํ๋ค.
- Apriori
- Eclat
- ๊ตฐ์ง (Clustering)
๋ฐ์ํ