데이터 놀이터
Section 2 Review - Machine Learning 본문
728x90
1. 머신러닝 의의
- 인공지능의 하위 개념으로 지도학습 방법이다.
- 지도학습은 컴퓨터에게 데이터와 답을 주고 인간이 발견하기 힘든 규칙과 패턴을 찾아내도록 학습하는 방법이다.
- 용어 정리
- 데이터 : 데이터셋은 데이터의 특성(feature)과 답(target)으로 이루어져 있음
- 모델 : feature과 target 간의 수학적 관계를 정의한 것
- 훈련(Training) : feature와 target 간 유의미한 패턴과 규칙을 찾아 더 나은 모델을 만들고자 하는 과정
- 평가(Evaluation) : 예측 모델이 새로운 데이터를 투입했을 때 얼마나 유의미한 예측을 할 수 있을지 판단하는 과정, 평가 시 만족스러운 결과가 나오지 않는다면 훈련 단계로 돌아감
- 추론(Inference) : 평가를 통과한 예측 모델에 새로운 데이터를 투입시켜 예측하는 과정
2. 머신러닝 워크 플로우
1. 문제 정의
- 도메인, 세부주제 선정
- 타겟 설정
- 머신러닝 문제 만들기
- 머신러닝 모델 종류 선정 (분류 / 회귀)
- 분류 : Logistic Regression(회귀 기반 모델), 결정 트리, 랜덤 포레스트, Adaboost, Gradient Boost(xgboost, lightgbm, catboost)
- 회귀 : 단순, 다중, 다항선형회귀모델, 릿지, 라쏘, Elasticnet, 결정 트리, 랜덤 포레스트, Gradient Boost
- 가설 설정
2. 데이터 선정
3. 데이터 전처리
- 회귀 기반 모델(Logistic Regression 포함)
- 표준화, scaling 등을 통하여 분포, 범위 조정 필요
- 결측치를 반드시 채워야 함
- 비선형적 특성이나 특성 간 상호작용 미리 처리해주어야 함
- 트리 기반 모델
- 표준화, scaling이 모델 성능에 전혀 영향을 미치지 않음(대소 관계만 명확하면 됨)
- 결측치는 반드시 채울 필요는 없음
- 타겟 분포 확인
- EDA를 통한 가설의 타당성 설명
4. Model Building
- 기준 모델 필수
- 회귀 / 분류 모델들 각각의 필요성에 맞게 선택 후 적용
- pipeline 활용
5. Model Evaluation
- 데이터 분리
- Hold-out
- Croos validation(K-fold cv)
- 평가지표 활용
- 회귀 : MAE, MSE, RMSE, R2
- 분류 : Accuracy, Precision, recall, f1_score, roc_auc
- 과적합, 과소적합 판단
- 하이퍼 파라미터 튜닝
- Gridsearchcv
- Randomizedsearchcv
- Bayesian search
6. 인사이트 도출 및 소통
- 특성 중요도 판단(상관관계를 나타내지는 않음) -> 얼마나 영향을 주는가
- 회귀 : 회귀계수, Drop-Column Importace, Permutation Importance, 트리기반 회귀모델이라면 MDI도 가능
- 분류 : MDI, MDI, Drop-Column Importace, Permutation Importance
- 모델 해석 -> 특성들이 어떻게 영향을 주는가
- ICE Plot : 특정 관측치에서의 특정 특성 변화에 따른 모델의 예측 양상 변화
- PDP Plot : ICE Plot의 평균값, 특정 특성에 대한 전반적인 해석 가능
7. 문제(가설) 해결 인사이트 도출
728x90
'코드스테이츠 AIB 17' 카테고리의 다른 글
Section 4 - Sprint 1. 환경과 관계형 데이터 베이스 - 2. SQL, RDB (0) | 2023.03.21 |
---|---|
Section 4 - Sprint 1. 환경과 관계형 데이터 베이스 - 1. 개발 환경 (0) | 2023.03.20 |
Section 1 - Sprint 2. Statistics - 1. Bayes Theorem (0) | 2023.01.07 |
Section 1 - Sprint 1. Data Preprocessing & EDA (0) | 2023.01.06 |
코드스테이츠 AIB(AI 부트캠프) 17기 합격후기 (0) | 2022.12.29 |