AI study/톡계 & ML & DL

[λ¨Έμ‹ λŸ¬λ‹] μ§€λ„ν•™μŠ΅ / λΉ„μ§€λ„ν•™μŠ΅ νŠΉμ§•κ³Ό μ•Œκ³ λ¦¬μ¦˜ μ˜ˆμ‹œ

감자 πŸ₯” 2020. 12. 20. 18:07
λ°˜μ‘ν˜•

 

μ§€λ„ν•™μŠ΅ (Supervised Learning
  • μ•Œκ³ λ¦¬μ¦˜μ— μ£Όμž…λ˜λŠ” ν›ˆλ ¨λ°μ΄ν„°μ— λ ˆμ΄λΈ”(yκ°’)이 ν¬ν•¨λ˜μ–΄ μžˆλ‹€.
    • 예) 고양이사진(1,0), 강아지사진 (0,1) μ΄λŸ°μ‹μœΌλ‘œ μ •ν™•ν•œ 라벨링이 λ˜μ–΄μžˆλŠ” 데이터λ₯Ό ν›ˆλ ¨λ°μ΄ν„°λ‘œ μ΄μš©ν•œλ‹€.
  • λŒ€ν‘œμ μΈ μ§€λ„ν•™μŠ΅ 방법

https://www.slideshare.net/ssuser163469/ndc-2016-61452271

    • λΆ„λ₯˜
      • μ’…λ₯˜λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 것  
      • 데이터λ₯Ό νŠΉμ • 라벨값(yκ°’)으둜 λΆ„λ₯˜(예츑)ν•˜λŠ” μž‘μ—…
      • μŠ€νŒΈλΆ„λ₯˜ ( μŠ€νŒΈμ΄λ‹€ (1)  / 슀팸 μ•„λ‹ˆλ‹€ (0) )  : 보톡 Yes / No λ₯Ό 1κ³Ό 0으둜 ν‘œν˜„ν•œλ‹€. - 이진뢄λ₯˜
      • μ–΄λ–€ 데이터에 λŒ€ν•΄ μ—¬λŸ¬κ°’ 쀑 ν•˜λ‚˜λ‘œ λΆ„λ₯˜ν•˜κΈ°λ„ ν•œλ‹€. - 닀쀑뢄λ₯˜
        • 고양이 (1,0,0) / 강아지 (0,1,0) / 토끼 (0,0,1)...
    • νšŒκ·€
      • μ—°μ†λœ 값을 μ˜ˆμΈ‘ν•˜λŠ” 것 
      • μ–΄λ–€ λ°μ΄ν„°λ“€μ˜ νŠΉμ§• (feature)을 ν† λŒ€λ‘œ κ°’(수치)을 예츑 ν•˜λŠ” μž‘μ—…
        • 예) features = 주행거리, 연식, λΈŒλžœλ“œ λ“± 
               Target (κ΅¬ν•˜λ €λŠ” κ°’) = 쀑고차 가격
      • κ²°κ³Ό 값은 μ‹€μˆ˜μ΄λ©°, 연속성을 κ°–λŠ”λ‹€.
    • μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ μ˜ˆμ‹œ
      • K-Nearest Neibors (k-μ΅œκ·Όμ ‘ 이웃, KNN)
      • Linear Regression (μ„ ν˜• νšŒκ·€)
      • Logistic Regression (λ‘œμ§€μŠ€ν‹± νšŒκ·€)
      • SVM (Support Vector Machines)
      • Decision Tree (μ˜μ‚¬κ²°μ • λ‚˜λ¬΄)
      • Random Forest (랜덀 포레슀트)
      • Neural Networks (신경망)
λΉ„μ§€λ„ν•™μŠ΅ (Unsupervised Learning) 
  • λ ˆμ΄λΈ”μ΄ μ—†λŠ” μƒνƒœμ˜ ν›ˆλ ¨λ°μ΄ν„°λ₯Ό μ΄μš©ν•˜μ—¬ ν•™μŠ΅ν•˜λŠ” 방법
  • λ¨Έμ‹ λŸ¬λ‹ μ‹œμŠ€ν…œμ΄ μ•Œμ•„μ„œ yκ°’(νƒ€κ²Ÿ)이 무엇인지 ν•™μŠ΅ν•΄μ•Όν•˜κΈ° λ•Œλ¬Έμ— 비지도 ν•™μŠ΅μ΄λΌκ³  ν•œλ‹€.
  • μ˜ˆμ‹œ)
    • 고양이, 강아지, λ‹­, μƒˆλ₯Ό 비지도 ν•™μŠ΅ μ‹œν‚€λ©΄
      닀리가 4개인 강아지, 고양이λ₯Ό ν•œ 묢음으둜
      닀리가 2개인 λ‹­, μƒˆλ₯Ό ν•œ 묢음으둜 묢을 수 μžˆμ„ 것이닀.
    • 이처럼 ν›ˆλ ¨λ°μ΄ν„°μ˜ μ μ ˆν•œ Feature(닀리 수)λ₯Ό μ°Ύμ•„λ‚΄μ•Ό 쒋은 κ²°κ³Όλ₯Ό 얻을 수 μžˆλ‹€.
  • λΉ„μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ μ˜ˆμ‹œ
    • ꡰ집 (Clustering)
      • k-means
      • 계측 ꡰ집 뢄석 (Hierarchical Cluster Analysis, HCA)
      • κΈ°λŒ“κ°’ μ΅œμ†Œν™” (Expectation maximization)
    • μ°¨μ›μΆ•μ†Œ
      (정보 손싀을 μ΅œμ†Œν™” ν•˜λ©΄μ„œ 데이터λ₯Ό κ°„μ†Œν™” ν•˜λŠ” 방법)
      ex. μ€‘κ³ μ°¨μ˜ 가격을 μ˜ˆμΈ‘ν• λ•Œ, 주행거리와 연식은 맀우 μƒκ΄€μžˆλŠ” 관계. 이λ₯Ό "마λͺ¨ 정도"λ₯Ό λ‚˜νƒ€λ‚΄λŠ” ν•˜λ‚˜μ˜ νŠΉμ„±μœΌλ‘œ ν•©μΉ¨μœΌλ‘œμ¨ λ°μ΄ν„°μ˜ 차원을 μΆ•μ†Œν•  수 μžˆλ‹€. (이λ₯Ό νŠΉμ„± μΆ”μΆœ 이라고 ν•œλ‹€.)
      • μ£Όμ„±λΆ„ 뢄석 (Principal Component Analysis, PCA)
      • 컀널 PCA
      • 지역적 μ„ ν˜• μž„λ°°λ”©
      • t-SNE (t-distributed Stochastic Neighbor Embedding, μ‹œκ°ν™”ν•¨μœΌλ‘œμ¨ 차원을 μΆ•μ†Œν•˜λŠ” 방식)
    • μ—°κ΄€ κ·œμΉ™ ν•™μŠ΅
      (λ°μ΄ν„°μ˜ νŠΉμ„± κ°„μ˜ ν₯미둜운 관계λ₯Ό μ°Ύμ•„λ‚΄λŠ” ν•™μŠ΅)
      ex. "λ§₯μ£Όλ₯Ό μ‚¬λ©΄μ„œ ν•¨κ»˜ κΈ°μ €κ·€λ₯Ό μ‚°λ‹€" λΌλŠ” νŠΉμ΄ν•œ 연관관계λ₯Ό λ°ν˜€λ‚΄λ©΄μ„œ λ‹€λ°©λ©΄μœΌλ‘œ ν™œμš© κ°€λŠ₯ν•˜λ‹€.
      • Apriori
      • Eclat
λ°˜μ‘ν˜•