# 분류(Classification)
분류(Classification)는 지도 학습의 일종으로 기존에 존재하는 데이터의 관계를 학습하여 새롭게 관측된 데이터에 대한 결과를 스스로 판별하는 과정입니다. 분류는 범주형 변수에 대해 예측할 때 사용합니다.
스팸 문자를 판별하여 스팸 보관함으로 분류하는 것을 예로 들수 있습니다. 이처럼 분류는 "스팸" 또는 "스팸 아님"과 같이 하나 이상의 관측된 데이터를 통해 하나 이상의 값을 예측합니다.
# 군집화(clustering)
군집화(clustering)는 주어진 데이터들의 특성을 고려해 같은 그룹(Cluster)을 정의하고, 그룹화하여 그룹의 대표성을 찾아내는 방법입니다.
군집화(clustering)는 구분하려고 하는 각 class에 대한 아무런 정보가 없는 상태에서 학습하는 것이므로 비지도 학습에 해당합니다. 즉 sample 들에 대한 지식없이 유사도(similarity)에 근거하여 cluster 들을 구분합니다. 패턴들이 서로 가깝게 모여서 무리를 이루고 있는 집합을 cluster (군집) 이라고 하는데요, cluster 간의 유사도를 평가하기 위해서 여러 가지의 거리 측정 함수를 사용합니다. 유클리드 거리(Euclidean distance), 맨해튼 거리(Mahalanobis distance), 해밍 거리(Hamming distance) 등이 이에 해당합니다.
# 회귀(Regression)
회귀 분석은 둘 이상의 변수 간의 관계를 보여주는 통계적 방법입니다. 이미 존재하는 과거의 데이터로 학습하므로 지도학습에 해당합니다. 특정한 입력값을 사용하여 출력 값을 계산하는 것을 예측(prediction) 문제라고 하는데요, 예측 문제 중에서 출력 변수의 값이 연속적인 값인 문제가 회귀(regression) 또는 회귀분석(regression analysis)입니다. 집값 예측, 주식 가격 예측 등과 같이 연속적인 숫자를 다루는 문제를 예로 들 수 있습니다.
'AI' 카테고리의 다른 글
Generalization, Normalization, Standardization (0) | 2022.08.12 |
---|---|
binary & multinomial (0) | 2022.08.08 |
Machine Learning 알고리즘의 분류(지도학습, 비지도학습, 강화학습) (0) | 2022.07.17 |
Train set - Validation set - Test set (0) | 2022.07.16 |
머신러닝(Machine Learning)이란? (0) | 2022.07.16 |
댓글