[머신러닝] 지도학습 / 비지도학습 특징과 알고리즘 예시

AI study/통계 & ML & DL

[머신러닝] 지도학습 / 비지도학습 특징과 알고리즘 예시

감자 🥔 2020. 12. 20. 18:07

지도학습 (Supervised Learning

알고리즘에 주입되는 훈련데이터에 레이블(y값)이 포함되어 있다.
- 예) 고양이사진(1,0), 강아지사진 (0,1) 이런식으로 정확한 라벨링이 되어있는 데이터를 훈련데이터로 이용한다.

대표적인 지도학습 방법

https://www.slideshare.net/ssuser163469/ndc-2016-61452271

분류
- 종류를 예측하는 것
- 데이터를 특정 라벨값(y값)으로 분류(예측)하는 작업
- 스팸분류 ( 스팸이다 (1) / 스팸 아니다 (0) ) : 보통 Yes / No 를 1과 0으로 표현한다. - 이진분류
- 어떤 데이터에 대해 여러값 중 하나로 분류하기도 한다. - 다중분류
  - 고양이 (1,0,0) / 강아지 (0,1,0) / 토끼 (0,0,1)...
회귀
- 연속된 값을 예측하는 것
- 어떤 데이터들의 특징 (feature)을 토대로 값(수치)을 예측 하는 작업
  - 예) features = 주행거리, 연식, 브랜드 등
    Target (구하려는 값) = 중고차 가격
- 결과 값은 실수이며, 연속성을 갖는다.
지도학습 알고리즘 예시
- K-Nearest Neibors (k-최근접 이웃, KNN)
- Linear Regression (선형 회귀)
- Logistic Regression (로지스틱 회귀)
- SVM (Support Vector Machines)
- Decision Tree (의사결정 나무)
- Random Forest (랜덤 포레스트)
- Neural Networks (신경망)

비지도학습 (Unsupervised Learning)

레이블이 없는 상태의 훈련데이터를 이용하여 학습하는 방법
머신러닝 시스템이 알아서 y값(타겟)이 무엇인지 학습해야하기 때문에 비지도 학습이라고 한다.
예시)
- 고양이, 강아지, 닭, 새를 비지도 학습 시키면
  다리가 4개인 강아지, 고양이를 한 묶음으로
  다리가 2개인 닭, 새를 한 묶음으로 묶을 수 있을 것이다.
- 이처럼 훈련데이터의 적절한 Feature(다리 수)를 찾아내야 좋은 결과를 얻을 수 있다.
비지도학습 알고리즘 예시
- 군집 (Clustering)
  - k-means
  - 계층 군집 분석 (Hierarchical Cluster Analysis, HCA)
  - 기댓값 최소화 (Expectation maximization)
- 차원축소
  (정보 손실을 최소화 하면서 데이터를 간소화 하는 방법)
  ex. 중고차의 가격을 예측할때, 주행거리와 연식은 매우 상관있는 관계. 이를 "마모 정도"를 나타내는 하나의 특성으로 합침으로써 데이터의 차원을 축소할 수 있다. (이를 특성 추출 이라고 한다.)
  - 주성분 분석 (Principal Component Analysis, PCA)
  - 커널 PCA
  - 지역적 선형 임배딩
  - t-SNE (t-distributed Stochastic Neighbor Embedding, 시각화함으로써 차원을 축소하는 방식)
- 연관 규칙 학습
  (데이터의 특성 간의 흥미로운 관계를 찾아내는 학습)
  ex. "맥주를 사면서 함께 기저귀를 산다" 라는 특이한 연관관계를 밝혀내면서 다방면으로 활용 가능하다.
  - Apriori
  - Eclat