250x250
Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Archives
Today
Total
관리 메뉴

데이터 놀이터

Section 2 Review - Machine Learning 본문

코드스테이츠 AIB 17

Section 2 Review - Machine Learning

jjjk84 2023. 2. 14. 00:00
728x90

1. 머신러닝 의의

  • 인공지능의 하위 개념으로 지도학습 방법이다.
  • 지도학습은 컴퓨터에게 데이터와 답을 주고 인간이 발견하기 힘든 규칙과 패턴을 찾아내도록 학습하는 방법이다.
  • 용어 정리
    • 데이터 : 데이터셋은 데이터의 특성(feature)과 답(target)으로 이루어져 있음
    • 모델 : feature과 target 간의 수학적 관계를 정의한 것
    • 훈련(Training) : feature와 target 간 유의미한 패턴과 규칙을 찾아 더 나은 모델을 만들고자 하는 과정
    • 평가(Evaluation) : 예측 모델이 새로운 데이터를 투입했을 때 얼마나 유의미한 예측을 할 수 있을지 판단하는 과정, 평가 시 만족스러운 결과가 나오지 않는다면 훈련 단계로 돌아감
    • 추론(Inference) : 평가를 통과한 예측 모델에 새로운 데이터를 투입시켜 예측하는 과정

2. 머신러닝 워크 플로우

1. 문제 정의

  • 도메인, 세부주제 선정
  • 타겟 설정
  • 머신러닝 문제 만들기
  • 머신러닝 모델 종류 선정 (분류 / 회귀)
    • 분류 : Logistic Regression(회귀 기반 모델), 결정 트리, 랜덤 포레스트, Adaboost, Gradient Boost(xgboost, lightgbm, catboost)
    • 회귀 : 단순, 다중, 다항선형회귀모델, 릿지, 라쏘, Elasticnet, 결정 트리, 랜덤 포레스트, Gradient Boost
  • 가설 설정

2. 데이터 선정

3. 데이터 전처리

  • 회귀 기반 모델(Logistic Regression 포함)
    • 표준화, scaling 등을 통하여 분포, 범위 조정 필요
    • 결측치를 반드시 채워야 함
    • 비선형적 특성이나 특성 간 상호작용 미리 처리해주어야 함
  • 트리 기반 모델
    • 표준화, scaling이 모델 성능에 전혀 영향을 미치지 않음(대소 관계만 명확하면 됨)
    • 결측치는 반드시 채울 필요는 없음
  • 타겟 분포 확인
  • EDA를 통한 가설의 타당성 설명

4. Model Building

  • 기준 모델 필수
  • 회귀 / 분류 모델들 각각의 필요성에 맞게 선택 후 적용
  • pipeline 활용

5. Model Evaluation

  • 데이터 분리
    • Hold-out
    • Croos validation(K-fold cv)
  • 평가지표 활용
    • 회귀 : MAE, MSE, RMSE, R2
    • 분류 : Accuracy, Precision, recall, f1_score, roc_auc
  • 과적합, 과소적합 판단
  • 하이퍼 파라미터 튜닝
    • Gridsearchcv
    • Randomizedsearchcv
    • Bayesian search

6. 인사이트 도출 및 소통

  • 특성 중요도 판단(상관관계를 나타내지는 않음) -> 얼마나 영향을 주는가
    • 회귀 : 회귀계수, Drop-Column Importace, Permutation Importance, 트리기반 회귀모델이라면 MDI도 가능
    • 분류 : MDI, MDI, Drop-Column Importace, Permutation Importance
  • 모델 해석 -> 특성들이 어떻게 영향을 주는가
    • ICE Plot : 특정 관측치에서의 특정 특성 변화에 따른 모델의 예측 양상 변화
    • PDP Plot : ICE Plot의 평균값, 특정 특성에 대한 전반적인 해석 가능

7. 문제(가설) 해결 인사이트 도출

728x90