메타 데이터란?
주어진 기본 데이터에 추가적으로 제공하는 정보
데이터의 출처, 형식, 위치 등 데이터 간의 관계와구조를 파악
데이터의 속성, 특성, 분류 등데이터의 내용 설명
레이블이란?
특정 문제에 해당하는 데이터의 설명 혹은 답변
분류하는 문제라면 데이터가 속할 범주(클래스)
목표 값을 찾는 회귀문제라면 데이터가 표현할 특정 숫자
대부분 사람이 직접 생성해줘야 하는 경우가 많음
혹은 타켓이라고 부르기도 함
지도학습 Supervised Learning
정답 레이블 정보를 활용해 알고리즘을 학습하는 학습 방법론
데이터와 정답인 레이블 사이의 관계를 파악하는 목적을 갖고 있음
특징 및 장점
- 정답이 존재하므로 모델이 풀어야하는 문제가 비교적 쉽고 잘 학습됨
- 또한, 명확한 평가 수치가 존재하며 학습된 모델의 성능을 쉽게 측정 가능
단점
- 정답이 필요하므로 이를 위해 추가적인 시간, 노동, 비용 필요
- 정답을 매기는 행위에 필요한 전문 인력 같은 추가 비용 발생
비지도 학습 Unsupervised Learning
정답 레이블 정보가 없이 입력 데이터만을 활용해 알고리즘을 학습하는 학습 방법론
데이터 내부에 존재하는 패턴을 스스로 파악하는 목적을 갖고 있음
특징 및 장점
- 정답을 따로 준비할 필요가 없으므로 비용적인 이점있음
- 사용자가 의도한 패턴 이외에 새로운 패턴을 찾을 가능성 있으며 창작과 같은 다양한 활용 분야 사용할 수 있음
단점
- 학습된 모델의 성능을 측정하기 위한 기준이 없어 결과 해석이 주관적일 수 있음
- 신뢰할 수 있는 결과를 얻기 위해 다수의 데이터가 필요함
준지도 학습 Semi - Supervised Learning
일부의 데이터만 정답이 존재하고, 다수의 데이터에는 레이블이 없는 상황에서 알고리즘을 학습하는 학습 방법론
일부 레이블링 된 데이터로 특성을 파악하고 레이블링 되지 않은 데이터로 전체 데이터의 패턴을 파악하는 방식으로 학습 진행
특징 및 장점
- 레이블이 부족한 데이터셋에서 유용
- 많은 데이터를 활용할 수 있으므로 일반화 성능을 향상시킬 수 있음
단점
- 품질이 낮은 레이블이나 데이터 존재에 특히 취약할 수 있음
- 알고리즘의 복잡성이 증가하며, 구현 및 활용에 어려움이 있을 수 있음
자가 지도 학습 Self-Supervised Learning
정답이 하나도 없는 데이터에서 정답을 강제로 생성 후 학습
데이터 내부를 강제로 훼손 후 복원하는 방법을 주로 사용하며 이 과정에서 특정 데이터 내부의 성질을 파악하는데 사용됨
이렇게 만들어진 알고리즘은 해당 데이터를 이용한 다른 문제에 적용
특징 및 장점
- 레이블 없이 데이터의 특징을 파악할 수 있음
- 다양한 데이터에 활용할 수 있음
단점
- 목적하는 문제를 직접적으로 해결하는 것이 아니므로 N회 이상의 추가적인 학습과정이 필요할 수 있음
- 알고리즘이 잘못된 패턴을 학습할 위험이 있음
강화 학습 Reinforcemnet Learning
어떤 환경에서 상호작용하는 에이전트가 보상을 이용해 특정 행동을 하도록 유도하는 학습
ex. 알파고
'ML' 카테고리의 다른 글
[ML] 다중공선성 | SVD-OLS | Over fitting | 랏쏘회귀, 릿지회귀 (1) | 2024.02.01 |
---|---|
[ML]선형의 의미 | 다중공선성 | 선형 회귀 | 비용 함수 - 정규방정식, 경사 하강법 (0) | 2024.02.01 |
[ML] 학습,검증,평가 데이터 분할 | overfitting 과적합 | 손실함수 | 파라미터와 최적화 | 분류와 회귀 대표알고리즘 (2) | 2024.01.30 |
[ML]scikit-learn | Pipeline | 지도학습이란?| 분류와 회귀문제 | 이진분류, 다중클래스 (0) | 2024.01.30 |
[ML]머신러닝에 필요한 선형대수 | 선형 변환 | 고유벡터, 고유값, 분산 | (0) | 2024.01.29 |