[머신러닝] 머신러닝모델-회귀(Regression) (김용담 강사님)

2022-06-02 1 분 소요

머신러닝 근-본

회귀를 근간으로 머신러닝이 발전하였음

회귀가 무엇인가

(오늘의 핵심)

데이터의 경향성을 파악해봅시다

회귀의 (비교적) 엄밀한 정의 (Formal Definition)

“In statistical modeling, regression analysis is a set of statistical processes for estimating the relationships between a dependent variable(y) and one or more independent variables(X).”

우리가 하려는건 estimating the relationship

이게 뭐냐 → 회귀 (확률, 가격, 일치율 등 특정 값을 예측하는 것)

이거냐 저거냐 → 분류 (올라갈 것이다/내려갈 것이다)
회귀의 직관적인 의미
- 주어진 데이터(X)와 원하는 값(y) 사이의 관계를 찾는 방법
- 주어진 데이터(X=feature value)를 통해서 원하는 값(y=target value)을 예측하는 방법

Linear Regression은 굉장히 오래되었음에도 아직도 많이 쓰임

→ 해석하기 편함(설명력이 뛰어남)

가장 직관적이고 많이 사용되는 선형 회귀 모델

$f$(model) : $x$들의 합으로 표현될 때 $x$들의 차수가 전부 1임(2차항 이상이 없다) → linear

결국 각 $x$들이 전부 직선임.

학습을 통해 찾을 수 없는 값 or

파라미터들의 파라미터 or

학습을 위해 사전에 세팅하는 값 (학습전략)

→ hyper parameter

MSE(Mean Squared Error) → Loss function

linear regression → 어떤 .. 이 얼마나 영향을 주는지 알 수 있음 (해석이 쉬움)

실제 데이터 분석 대회에서 가장 많이 사용하는 효과적인 회귀 모델

Decision Tree(CART) → Random Forest → Gradient Boosting Model (GBM) → XGBoost → LightGBM → CatBoost

머신러닝의 평가 기준은 다양합니다

대표적인 회귀 모델 평가 지표

MSE(Mean Squared Error)
RMSLE(Root Mean Squared Log Error)
1. yi, yi^의 scale 영향을 안받음
2. outlier에 robust함(영향을 덜 받음)
MAE(Mean Absolute Error)
R2 Score(Coefficient of Determination)