선형이란?
1200원 과자, 1000원 우유를 산다고 했을 때 총 비용은?
Cost = nx1200 + mx1000 (n: 과자의 수량, m:우유의 수량)
독립변수가 파라미터 (1200,1000) 값 만큼 일정한 비율로 종속변수에 영향을 미치는 관계
파라미터들이 어떠한 실수(혹은 벡터)와 가중합( 곱하기, 더하기)로 표현된 것을 선형 결합이라고 함
독립변수 x 의 각각 파라미터를 찾아내야함.
y=aX1^2 (제곱)+ bX2 +cX3
=> 선형일까 비선형일까?
관점에 따라 다름
파라미터 a가 종속 변수에 미치는 영향을 볼 때 x제곱을 x4로 치환한다면 선형 모델로 볼 수 있음
다른 관점으로, 변수 x1입장에서 본다면 비선형 모델로 볼 수 있음
모델 서칭 단게에서는 치환을 해야될지,지수 연산이 사용될지, exp이 들어갈지 알기 쉽지 않음.
일단, 파라미터가 종속 변수에 미치는 영향이 선형적이라는 '가정'으로 선형모델을 많이 사용
머신러닝 입장에서 모델을 학습시키는 것은 특정한 제약 조건이 주어진 상태에서 파라미터의 적절한 값을 찾는 것.
Loss를 줄이는 최적의 상태를 찾거나 성능이 제일 높아지는 상태를 찾아야함.
선형 모델의 가정
서로 다른 독립 변수는 서로 상관성이 없어야함
만약 두 독립 변수 사이에 높은 상관관계가 있다면 다중공선성이라는 문제를 일으키게 됨.
-> 정확도, 신뢰성에 저하가 일어남, 해석력에도 복잡성이 증가
선형회귀
독립변수들이 서로 선형의 결합으로 이루어져 있고 회귀 문제를 풀겠다는 의미.
입력 데이터들은 독립적이라고 가정함.
출력 결과는 예측값에 해당.
W0: 상수, 절편 (편향)에 해당함 y에 종속적인 변수
w1 ~wn 의 값을 찾아야 함
비용 함수
목표값과 예측값 사이의 계산을 통해 비용 함수를 정의
두 값 모두 실수의 범위를 갖으므로 두 값 사이의 잔차의 제곱 평균으로 비용함수 정의
MSE(mean squared error) 평균 제곱 오차를 최소화 하는 파라미터(w)들을 찾아야함.
선형회귀는 잔차의 제곱값이 갖을 수 있는 최고의 파라미터를 찾는 작업이므로 최소 제곱법(ordinary Least squares,OLS)라고도 함
선형 회귀를 위한 최적화 방법은 정규 방정식 풀이와 경사 하강법이 존재
정규 방정식 Normal Equation
특정 식이 최소가 되는 지점을 찾는 것은 식의 기울기 (미분값이)가 0이 되는 위치를 찾는 것
비용함수의 도함수를 구하고 그것이 0이 되는 파라미터를 구해야함. 이를 정규 방정식이라고 함
경사 하강법 (SGD)
비용 함수를 최소화하기 위해 반복해서 파라미터를 조정해가는 방법
임의로 잡은 초기 파라미터 값을 기준으로 비용 함수의 기울기를 계산하여 기울기가 줄어드는 방향으로파라미터를 수정 이동
반복 수행으로 기울기가 0에 가까워지면 Stop
적절한 학습률(learning rate, 학습 속도)에 대한 탐구 필요
파라미터 업데이트
비용함수를 통해 구한 전체 비용을 대상으로 각 파라미터의 미분값을 구하고
현재 값을 기준으로 기울기가 작아지는 방향으로 이동
너무 빠른 혹은 느린 학습을 방지하고자 적절한 학습률(learning rate, lr) 사용
정규 방정식 vs 경사 하강법
정규 방정식
튜닝 변수가 없이 명시적으로 해를 제공. 훈련 세트가 크지 않은 상황에서 빠르게 해를 구하기 좋음
경사 하강법
특성 수와 샘플 수에 민감도가 적음. 반복적인 연산이 필요하며 변수 튜닝이 결과에 영향을 줄 수 있음.
'ML' 카테고리의 다른 글
[Kaggle] 선형회귀모델학습-의료 보험료 예측하기 |EDA-매트릭스 시각화, 원핫인코딩, 범주형을 수치형으로 변환하기 (0) | 2024.02.01 |
---|---|
[ML] 다중공선성 | SVD-OLS | Over fitting | 랏쏘회귀, 릿지회귀 (1) | 2024.02.01 |
[ML] 학습,검증,평가 데이터 분할 | overfitting 과적합 | 손실함수 | 파라미터와 최적화 | 분류와 회귀 대표알고리즘 (2) | 2024.01.30 |
[ML]scikit-learn | Pipeline | 지도학습이란?| 분류와 회귀문제 | 이진분류, 다중클래스 (0) | 2024.01.30 |
[ML]머신러닝에 필요한 선형대수 | 선형 변환 | 고유벡터, 고유값, 분산 | (0) | 2024.01.29 |