본문 바로가기

머신러닝4

분류(classification), 군집화(clustering), 회귀(regression) # 분류(Classification) 분류(Classification)는 지도 학습의 일종으로 기존에 존재하는 데이터의 관계를 학습하여 새롭게 관측된 데이터에 대한 결과를 스스로 판별하는 과정입니다. 분류는 범주형 변수에 대해 예측할 때 사용합니다. 스팸 문자를 판별하여 스팸 보관함으로 분류하는 것을 예로 들수 있습니다. 이처럼 분류는 "스팸" 또는 "스팸 아님"과 같이 하나 이상의 관측된 데이터를 통해 하나 이상의 값을 예측합니다. # 군집화(clustering) 군집화(clustering)는 주어진 데이터들의 특성을 고려해 같은 그룹(Cluster)을 정의하고, 그룹화하여 그룹의 대표성을 찾아내는 방법입니다. 군집화(clustering)는 구분하려고 하는 각 class에 대한 아무런 정보가 없는 상태.. 2022. 7. 17.
Machine Learning 알고리즘의 분류(지도학습, 비지도학습, 강화학습) 머신러닝 알고리즘은 지도 학습, 비지도 학습, 강화 학습 등으로 분류됩니다. 이들을 분류하는 기준은 학습 데이터의 특징과 사용방법입니다. # 지도 학습 먼저 지도 학습은 인풋과 아웃풋의 정답(label)이 모두 주어진 상태에서 학습하는 방법입니다. 컴퓨터가 입력과 출력과의 관계를 학습하여 새로운 입력에 대한 결과를 예측합니다. 지도 학습으로는 분류와 회귀분석 문제를 다룰 수 있습니다. 분류의 대표적인 예시로 개와 고양이 사진을 구분하는 문제가 있습니다. 정확하게 개, 또는 고양이 레이블이 주어진 사진 데이터셋이 훈련에 사용됩니다. 이 데이터셋으로 개와 고양이를 분류하는 알고리즘을 만드는 것이 머신러닝 학습의 목적입니다. 지도 학습을 완료한 모델은 처음 보는 사진을 입력해도 개와 고양이를 구분해낼 수 있습.. 2022. 7. 17.
Train set - Validation set - Test set 머신러닝에서는 일반적으로 전체 데이터를 training set와 test set으로 나누는 과정을 거칩니다. 전체 데이터를 학습하지 않고 데이터를 나눠 학습하는 이유는 무엇일까요? 이유는 간단합니다. 모델이 overfitting(과적합)되는 것을 막고 머신러닝 알고리즘의 성능을 평가하기 위해서입니다. train set와 달리 test set은 모델 학습에 사용하지 않습니다. 대신 새로운 데이터에 대한 결과를 예측하기 위한 용도로 사용합니다. overfitting은 쉽게 말해 모델이 train data를 과도하게 학습한 것을 의미합니다. 위 그림을 보면 epoch이 증가하면서 training data의 손실 함수(loss function)는 계속해서 떨어지지만 validation data의 손실 함수는 어.. 2022. 7. 16.
머신러닝(Machine Learning)이란? 머신러닝은 인공지능(AI)의 하위 분야로 데이터를 통해 컴퓨터가 스스로 규칙을 찾아내도록 하는 방법입니다. 이러한 규칙을 이용한 머신러닝 기술은 인공지능 관련 제품이나 서비스에 적용되고 있습니다. 인공지능의 대가 Tom Mitchell 교수는 그의 저서 「 Machine Learning 」에서 다음과 같이 정의했습니다. A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, imporves with experience E. '컴퓨터가 어떤 작업(T)을 하는 데 있어서 경험(E)으로부.. 2022. 7. 16.