Classification and Prediction

분류 및 예측은 데이터 분석의 두 가지 형태로 데이터의 클래스를 가장 잘 나타내는 모형을 구축하여 향후 데이터의 추세를 예측하는데 사용될 수 있다.

  • Classification: 범주형 레이블 예측
  • Prediction: 연속형 값의 함수모형 구축



Classification

분류는 다음의 두 단계의 절차로 수행된다.

  • Learning step(Training phase)
    Database 투플(표본)들과 그것과 관련된 클래스 레이블로 구성된 training set에 classification algorithm을 적용하여 데이터를 분석 및 학습하여 classification rules(classifiers)를 구축한다.
    투플 Xn-차원의 속성벡터(attribute vector)로서 X = (x1, x2, …, xn)로 표현되며, n개의 속성 A1, A2, …, An의 실현된 값들로 표시된다. 각각의 X는 클래스 레이블 속성(class label attribute)이라 불리는 이미 알고 있는 실현된 값들로 표시된다. 이 클래스 레이블은 이산형 값을 가지고 순서의 의미가 없는 값이며, 각 값은 범주 혹은 클래스를 나타내므로 범주형(categorical)이다. Training set을 구성하는 개별 투플들은 training tuples라고 불리며, 분석대상이 되는 database로부터 선택된다.
    (training tuple은 sample, example, instance, data point, object라고도 한다.)
  • Classification step
    Classifier의 정확도(accuracy)를 평가한다.
    Classifier의 정확도를 측정할 때, overfit을 막기 위해 전체 데이터 집합에서 무작위로 추출된 검증용 데이터(test data)가 사용된다. 정확도가 만족할 만하면, 규칙들은 새로운 데이터 표본들을 분류하는 데 적용될 수 있다.



Prediction

분류(classification)와 비슷하게 두 단계 과정이 있는데, 예측(prediction)의 경우에는 예측하고자 하는 속성은 범주형(순서가 없는 이산형)이 아니라 순서가 있는 연속형이기 때문에 클래스 레이블(class label)이라는 말을 쓰지 않는다. 또한 예측 문제는 함수 y = f(X)로 표현될 수 있다.