Pattern recognition에서 classification에 사용하는 모델은 2가지로 나눌 수 있습니다. Generative model과 Discriminative model이 그것들입니다. Generative model은 말 그대로 sample dataset을 생성할 수 있는 model이라고 보시면 크게 틀리지 않습니다. 반면 discriminative model은 샘플을 생성하지는 못합니다.


Cassification의 측면에서 간단히 설명해보면, discriminative model은 두 class가 주어진 경우 이들 class의 차이점에 주목합니다. 반면 generative model은 각 class의 분포에 주목합니다. 쉬운 예로 Gaussian으로 모델링해서 그 mean을 prototype으로 사용하는 것이 generative model입니다. Classification을 위해서는 decision boundary가 없어서는 안되는 것이니 generative model의 경우에도 likelihood나 posterior probability 등을 사용해서 decision boundary를 구축합니다. 일반적으로는 posterior probability를 더 많이 사용하는 것으로 보입니다.


이처럼 prototype을 구축하는 과정은 주로 categorization이라고 생각되는 반면 일단 decision boundary가 정해지면 classification이라고 생각될 수 있습니다. Categorization은 classification과는 약간 다른 개념으로 간주됩니다. 물론 pattern recognition field에서의 이야기입니다. Categorization은 주로 cognitive science나 psychology에서 pattern과 관련된 내용을 다룰 때 많이 사용합니다. 굳이 차이를 따지자면 categorization은 unsupervised 방법이고 classification은 supervised 방법입니다. Categorization은 1개의 class가 주어지는 경우에도 유효하지만 classification은 최소 2개의 class가 주어진 경우에 의미가 있습니다. Pattern recognition에서는 density estimation과 비슷한 의미로 사용되고 있는 듯합니다. 하지만 일차적으로 PR에서는 categorization이라는 말 자체를 흔히 볼 수는 없습니다. 최근 outlier detection 부분에서는 간혹 이 단어를 볼 수는 있습니다.


Pattern recognition은 대부분이 classification을 목적으로 하니 generative model이나 discriminative model을 써서 decision boundary를 구하는 것이 그 목적이라고 할 수 있습니다.



References