지도 학습(Supervised Learning)과 비지도학습(Unsupervised Learning)은 개인적으로 많이 헷갈렸던 개념이었다.
Supervisor? 감독자? 감독이 있고 없는 게 차이인건가?
별별 생각을 다 했는데 알고보니 이 둘의 차이는 data가 있을 때 정답 라벨이 있냐 없냐의 차이였다.
사실은 복잡하게 생각할 것 없다.
AI뿐만 아니라 모든 방법론은 How에서 시작하는 게 아니다.
"무엇"을 해결할 것인가?
여기서 시작한다.
그러면 여기서의 무엇은 Data에 따라서 달라지게 되어 있다.
내가 AI에게 데이터를 학습시켜서 얻고자 하는 방식이 딱딱 떨어지는가?
정답이 있고 AI가 맞고 틀리고가 명확한가?
이 때 쓰는 게 지도 학습(Supervised Learning)이다.
반대로 딱딱 떨어지는 게 아닌 경우 비지도 학습(Unsupervised Learning)을 사용하게 된다.
그래서 지도 학습의 경우 (x,y) 식의 input data, label data(정답 데이터) 가 주어지는 것이고
비지도 학습의 경우에는 주로 x data 들만 존재한다.
어떻게 보면 정답 데이터가 있다는 것 자체가 AI model이 정답만을 잘 학습할 수 있도록 감독자(Supervisor)가 존재한다는 뜻이기에 지도학습(Supervised Learning)이라고 이름을 지은 것 같다.
지도 학습의 예시들은 다음과 같다.
- Linear Regression
- Logistic Regression
- Decision Tree
- Random Forest
- SVM
전부 input x가 있으면 명확한 y를 얻을 수 있는 것들이다.
그리고 비지도 학습의 예시들은 다음과 같다.
- PCA
- K-means algorithm
- Anomaly detection
- Recommendation System
명확한 y를 얻기 위해 알고리즘을 사용하기 보다는 전체적인 데이터의 분포를 보거나 유의미한 값을 얻으려고 하는 task들이다.
#AI #Supervised_Learning #Unsupervised_Learning
'AI 기초지식' 카테고리의 다른 글
Anomaly Detection (0) | 2023.12.13 |
---|