베이지안 통계학의 목표

주어진 데이터(주관적인 견해-prior probability와 이후 시행된 확률실험으로부터 얻어진 결과)를 종합하여 (관심의 대상이 되는) 파라미터의 불확실성을 확률-posterior probability로 나타내는 것


베이지안 통계학의 기본 구조
  • 파라미터의 prior distribution을 결정
  • 데이터와 prior distribution을 이용한 posterior distribution 계산
  • Posterior distribution을 이용한 파라미터 추론


베이지안 통계학에서 파라미터의 prior distribution을 구하는 방법은 여러 가지 문제점이 있는데, 그 중 하나는 분석자의 특성에 따라 prior distribution이 달라서 상당히 주관적이라는 것이다. 그래서 객관적인 prior distribution이 제안되었는데 한 예가 noninformative prior distribution으로 Laplace에 의해 제안된 uniform distribution을 이용하는 것이다. 아무런 정보가 없는 상태에서는 모든 parameter들의 값은 동일하게 취급되어야 한다는 것인데 이론적으로 문제(lack of invariance for transformation)가 있음이 밝혀졌고 그 대안 중의 하나가 Jeffrey의 prior distribution이다.


Jeffrey의 prior distribution


Expectation of Fisher information, I(θ)

$$I(\theta) = -E_X\left [ \frac{\partial^2 \log{f(X|\theta)}}{\partial \theta^2} \right ]$$


일단 prior distribution이 주어지면 posterior distribution은 Bayesian rule에 의해 쉽게 구할 수 있으나 실제 데이터를 이용한 계산은 보통 쉬운 작업이 아니다. 하지만 posterior distribution이 prior distribution과 동일한 distribution family(분포족)이면 posterior distribution의 계산이 쉬워지게 되는 경우가 있는데, 이러한 prior distribution을 conjugate prior라고 한다.


그리고 베이지안 통계학에서 parameter에 대한 추론은 전적으로 posterior distribution에 의존하여 이루어진다.


베이지안 통계학의 장점
  • 결과에 대한 해석이 전통적인 통계학보다 훨씬 쉽고 우리의 직관과 잘 부합된다.
    통계학의 목표는 미지의 parameter에 대해 추론하고 그 추론의 불확실성을 계량화하는 것이다. 그런데 불확실성을 나타내는 가장 좋은 방법이 probability이며, 베이지안 통계학은 probability를 직접 이용하는 통계적 기법이다.
  • 실제로 많은 문제들에서 parameter의 prior information을 쉽게 구할 수 있다.
    전통적인 통계학에서는 공통분산을 사용하는데 이는 prior information을 굉장히 단순하게 사용한 것이다. 베이지안 통계학은 더욱 효과적으로 prior information을 이용한 추론 결과를 제시할 수 있다.
  • 베이지안 기법이 전통적인 통계학의 관점에서도 좋은 추론 방법을 제공한다.
    전통적인 통계학에서 사용되는 많은 통계량들은 베이지안 추정량 또는 베이지안 추정량의 극한으로 구할 수 있다.
  • 복잡한 문제에서 parameter의 추론이 전통적인 통계학보다 쉽다.
    전통적인 통계학에서 많이 쓰이는 MLE(Maximum Likelihood Estimator)는 likelihood function이 복잡하거나 많은 local optima를 가지는 경우가 많아 estimation이 어려울 뿐 아니라 일반적으로 estimation 결과가 나쁠 때가 많다. 반면, 베이지안 통계학에서 개발된 MCMC기법을 사용하면 parameter의 prior distribution을 쉽게 구할 수 있을 뿐 아니라, posterior distribution을 통한 parameter 추론을 더욱 정확하게 할 수 있다.


Prior distribution & posterior distribution

미지의 parameter θ에 대한 정보를 얻기 위해 어떤 random variable X의 값을 같은 조건 하에서 반복적으로 관측하여 모아놓은 것을 sample(표본)이라 하고, 관측되는 값 각각에 첨자를 붙여 X1, X2, ..., Xn으로 나타낸다. 각각의 sample들은 동일 분포에서 얻은 독립적인 (identically independently distributed, iid) random variable이 된다. Sample X1, X2, ..., Xn의 실제 observation x1, x2, ..., xn가 취할 수 있는 모든 값을 모아놓은 집합을 sample space라고 하고 Ω로 나타내고 Euclidean space Rn의 부분집합이 된다.


Random variable X의 distribution은 당연한 소리이지만 미지의 parameter θ가 주어져야 정의된다. 따라서 X의 probability distribution은 X의 density function f(x|θ)를 이용해 나타낼 수 있다.


한편, sample들의 실제 관측치 x1, x2, ..., xn (xiΩ)가 주어졌을 때 likelihood function L(x|θ)가 다음과 같이 정의된다.



일반적인 통계학에서는 이 likelihood function을 이용해 parameter θ에 대해 추론하고 의사 결정 과정에 이용하게 된다. 예를 들어, 이 likelihood function을 최대로 하는 parameter θ를 MLE라고 부르고 θ의 추정에 사용한다. 그러나 여기에 추가적으로 sample들로부터 얻은 parameter θ에 대해 활용 가능한 prior information이 있다면 더 나은 의사 결정이 가능할 것이다. 이 prior information을 parameter space Θ위에서 정의된 probability distribution으로 나타낸 것을 prior distribution이라고 한다.


베이지안 통계학에서는 parameter에 대한 prior information과 실험에 의해 얻은 sample들의 정보(예, likelihood)를 종합한 posterior distribution을 이용해 parameter θ에 대한 추론, 더 나아가 의사 결정에 이용한다.



References