통계학의 오늘

2013. 5. 25. 17:02

I. 통계/확률 분야 소개

국가과학기술표준분류체계에 의거, 통계/확률의 분야소개를 (1)추론/계산, (2)모형/자료분석, (3)응용통계, (4)확률/확률과정의 4개 중분야별로 정리한다. 통계/확률분야는 현재에도 계속 응용영역을 확장하고 있으며 이에 따른 이론연구의 영역도 확장일로에 있다. 따라서 여기에 이 모든 분야의 소개와 연구동향을 분석하는 것이 불가능하며, 단지 현재 국내 연구자가 관심을 가지고 있는 대표적인 분야에 대해 기술함을 밝혀둔다.

1. 추론/계산

1.1. 모수/비모수추론

통계적 추론이란 우리가 관측하는 자료를 생성시키는 미지의 규칙을 근사적으로 찾고 그것을 바탕으로 미래의 관측현상을 추측하거나 예측하는 분야라고 할 수 있다. 자료생성의 규칙은 ‘통계모형’으로 설정하는데 여기에는 미지(未知)의 값, 즉 모수가 포함되고 이를 관측 자료로부터 추정하게 된다.

모수적추론(parametric inference)은 자료생성의 규칙이 유한차원의 통계모형으로 설명이 된다는 가정에서 출발한다. 유한차원의 통계모형이란 유한개의 모수로 표현될 수 있는 모형을 일컫는다. 비모수적추론(nonparametric inference)에서 모수는 일반적으로 함수이며 함수의 참값이 포함되는 영역을 무한차원의 공간으로 설정한다. 비모수적추론의 강점은 모수의 차원이 무한이기 때문에 모형이 유연하고, 따라서 매우 복잡한 자료생성의 규칙도 수용할 수 있다는 것이다.

일반적으로 통계적 추론에서 모수의 차원이 자료의 크기, 즉 관측값의 개수보다 크면 추정 방법이 일치성을 가지기가 힘들다는 사실이 알려져 있다. 여기서 일치성이란 자료의 크기가 한없이 커질 때 추정값이 참값으로 수렴하는 현상을 말한다. 비모수적추론에서 무한차원의 함수를 유한개의 관측 자료를 이용하여 일치성(consistency)을 가지도록 추정하기 위해 주로 사용되는 방법은 추정대상인 함수의 차원을 유한으로 축소시키되 차원의 크기를 자료의 크기와 함께 증가시키는 것이다.

그 대표적인 예가 국소평활법(local smoothing)과 기저함수방법론(basis function approach)인데, 전자의 경우에는 미지의 함수가 충분히 미분가능하다는 사실을 전제로 각 추정점 근방에서 유한차원의 함수로 근사시킴으로써 차원을 축소시키고, 후자의 경우에는 유한개의 기저함수만 이용하여 무한차원의 함수공간을 근사시킨다. 모형의 유연성은 비모수적추론의 큰 강점이지만 동시에 약점이기도 하다.

즉, 모형이 유연한 만큼 모수(함수)의 추정이 모형보다는 자료에 크게 의존하게 되고 따라서 추정된 함수의 형태가 복잡하여 그 해석이 모수적추론에 비해 매우 어렵다. 준모수적추론(semiparametric inference)이란 모수적추론의 강점이라 할 수 있는 해석의 용이함과 비모수적추론의 강점인 모형의 유연성을 모두 살릴 수 있는 방법으로서 모형에 모수적부분인 유한차원의 모수와 비모수적부분인 무한차원의 함수가 공존한다. 간단한 예로, 준모수회귀모형의 경우 회귀함수는 선형 또는 다항함수로 설정하는 반면에 오차항의 분포를 나타내는 밀도함수는 무한차원으로 두는 것을 들 수 있다.

준모수적추론은 비모수적추론에 비해 최적추정에 관한 일반적인 이론이 잘 정립되어 있다. 일반적으로, 준모수적추론에서는 모수적부분 또는 비모수적부분 어느 쪽이든 한쪽을 추정하기 위해서는 다른 한쪽의 값이나 추정이 필요하게 되고 이를 해결하는 방식에 따라 여러 가지 방법론이 가능하다.

1.2. 베이지안추론

Bayes(1763)로부터 시작한 베이지안통계학은 모수를 미지의 고정된 값이 아니라 확률적 규칙의 지배를 받는 변수로 취급한다. 베이지안추론의 핵심은 모수에 대한 사전분포(prior distribution)와 자료의 정보를 혼합하여 사후분포(posterior distribution)를 구하는 것이다. 베이지안추론에서 사전분포가 공액(conjugate)이 아닌 경우나 혹은 복잡한 문제의 경우 사후분포를 쉽게 구할 수 없다.

이 때 사후분포의 계산을 가능하게 하는 방법 중 하나가 MCMC(Markov chain Monte Carlo)이다. 베이지안추론의 가장 큰 단점이 사전분포의 임의성이다. 즉, 모수에 대한 사전정보가 분석자의 주관에 따라 달라질 수 있다는 것이다. 이러한 단점을 보완하기 위하여 객관적인 사전분포에 대해 연구하는 분야가 객관적베이지안(objective Bayesian)이다. 베이지안추론에서도 사전분포의 확률모형을 무한차원으로 설정할 수 있는데 이에 대한 방법론을 연구하는 분야가 비모수베이지안(Bayesian nonparametrics)이다.

1.3. 통계계산

통계계산은 통계학의 다양한 분야에서 발생하는 계산(computing)에 관련된 문제들에 대하여 연구하는 융합분야이다. 통계계산은 20세기 후반의 컴퓨터의 발달과 더불어 비약적인 발전을 하였고 통계적 방법론의 발전과 대중화에 많은 공헌을 하였다.

통계계산의 주요 관심사는 통계학의 세부 분야들과 밀접하게 연결되어 있고 (1)수치선형대수(numerical linear algebra), (2)최적화(optimization), (3)몬테칼로적분(Monte Carlo integration) 등으로 분류된다. 수치선형대수는 선형회귀분석과 다변량분석에서 등장하는 선형방정식의 해, 역행렬, 공분산행렬의 고유치와 고유벡터의 계산 등과 같은 행렬연산과 관련된 문제에 대하여 빠르고 정확한 계산방법을 제시함으로써 통계계산의 초기발전을 이끌었다.

최적화는 다양한 목적함수(objective function)의 최적화와 관련된 방법을 연구하는 분야이다. 통계학에서 발생하는 목적함수로는 (벌점)가능도함수, robust 회귀분석의 최소절대편차(least absolute deviation), 분위수회귀(quantile regression)을 위한 check 함수, 다변량 정규분포에서 공분산행렬에 관한 max-det 함수 등 매우 다양한 형태가 존재하고, 최적화는 각 목적함수를 최대화(최소화)하는 값을 계산하는 방법을 연구한다. 최적화에는 주로 선형계획(linear programming)이나 볼록최적화(convex optimization) 기법이 이용된다.

몬테칼로 적분(또는 MCMC)은 특히 베이지안추론과 관련하여 계산도구를 제공함으로써 베이지안추론의 응용을 촉진시키는 역할을 하였다. MCMC의 연구는 베이지안모형의 확장에 따라 좋은 샘플러의 개발에 많은 노력이 기울여져 왔고 현재의 연구도 같은 선상에 있다.

2. 모형/자료분석

2.1. 선형모형

넓은 의미의 선형모형은 반응변수와 설명변수 간의 통계적 연관성을 모델링함에 있어서, 반응변수의 평균(혹은 평균의 함수)이 설명변수(혹은 설명변수들의 함수)의 선형결합으로 표현되는 유한차원의 통계모형을 총칭하며 다양한 통계적 방법/모형의 기초가 되는 분야이다.

가장 간단한 모형인 선형회귀모형 혹은 분산분석(ANOVA)모형으로부터 데이터의 복잡성과 모형의 다양성을 위해 여러 방면으로 확장된 모형이 연구되고 있다. 그 첫째가 일반화선형모형(generalized linear models)인데, 표준적인 선형모형이 비정규자료(예: 도수 혹은 비율)를 다룰 수 없는데 반해, 일반화선형모형은 범주형자료, 이항자료 및 다양한 형태의 비정규반응변수를 다룰 수 있다.

둘째로 혼합효과모형(mixed effect models)인데 이것은 반복측정자료(repeated measures), 경시자료(longitudinal data), 다층자료(multi-level data) 등과 같이 동일 개체로부터 얻어진 관측값의 오차항들 사이의 상관성을 모델링하는데 적절한 것으로 알려져 있다. 이밖에 위의 모형을 혼합/확장한 일반화선형잠재변수모형(generalized linear latent variable models), 분산성분모형(variance component models), 측정오차모형(measurement error models), 함수선형모형(functional linear models) 등이 연구되고 있으며 여러 응용분야에서 다양하게 변형/확장되고 있다.

2.2. 다변량통계

다변량(multivariate)통계는 둘 이상의 서로 상관되어 있는 확률변수들의 관측값을 분석하는 방법을 총칭한다. 한 개인의 얼굴을 그림으로 묘사할 때 눈만 그려서는 안 될 것이고 코도 그려야 하고 입도 그려야 하듯이 한 관측개체가 갖는 특성을 수치적으로 묘사하려면 여러 변수가 필요하다. 다수의 변수 사이에 통계적 관계를 정확히 잡아내어 효과적으로 표현하는 것이 다변량통계 혹은 다변량자료분석이다.

최근에 데이터 마이닝(data mining)이 사회의 제 현업에서 큰 관심을 끌고 있는데 그 통계적 중심기법이 다변량통계이다. 다변량 통계기법에는 여러 가지가 있다. 그 중 주성분분석(principal component analysis)은 차원의 단순화를 통해 서로 상관되어 있는 변수들 간의 복잡한 구조를 분석하는데 목적을 둔다. 인자분석(factor analysis)은 여러 변수들 간의 구조적 연관관계를 변수의 수보다 훨씬 적은 소수의 공통인자(common factor)로 모델링하는 것이다.

정준상관분석(canonical correlation analysis)은 2개의 변수집단 간의 선형적 연관성을 분석하는 기법이고, 다차원척도법(multi-dimensional scaling)은 관측개체들 사이의 유사성 또는 비유사성 값을 기초로 개체 간의 멀고 가까운 정도를 저차원의 공간에 시각적으로 표현하는 방법이다.

군집분석(cluster analysis)은 군집의 개수나 구조에 관한 특별한 가정 없이 개체들 사이의 유사성 또는 비유사성에 근거하여 자연스러운 군집을 찾고 다음 단계의 분석을 꾀하는 탐색적인 통계분석기법이고, 판별분석(discriminant analysis/classification)은 관측개체의 소속집단이 알려진 경우 새로운 관측자료의 소속집단을 판별하는데 이를 활용하는 방법을 연구하는 분야이다. 이외에도 인과변수들간의 구조적 관계를 일련의 선형방정식들의 항목으로 정식화하는 구조방정식모형(structural equation models) 등이 있다.

2.3. 시계열자료분석

시계열(times series)이란 일별 코스피지수, 연도별 강우량 등과 같이 시간의 경과에 따라 연속적으로 관측된 값의 계열(sequence)을 뜻한다. 시계열분석은 과거의 관측자료로부터 통계모형을 찾아 시계열의 특성을 설명하고 이를 이용하여 미래의 값을 예측하는데 목적을 둔다. 시계열자료는 시간의 경과에 따른 자연스러운 순서를 가지므로 분석기법이 통상적인 자료의 분석기법과는 차별된다.

일반적으로 시계열자료에 대한 통계모형은 시간적으로 가까운 관측값들이 시간적으로 먼 경우보다 상관성을 더 많이 가진다는 사실을 반영한다. 시계열자료의 분석방법은 크게 빈도수영역(frequency-domain) 방법과 시간영역(time-domain) 방법으로 나뉜다. 스펙트럴(spectral)분석 또는 웨이블릿(wavelet)분석 등이 전자의 방법이고 자기상관(auto-correlation)분석 또는 교차상관(cross-correlation)분석이 후자의 방법이다.

2.4. 생존분석

생존분석(survival analysis)은 관심있는 이벤트가 발생할 때까지의 시간을 분석을 하기 위한 통계적 방법을 연구하는 분야이다. 생존자료 분석방법의 응용분야는 의학을 비롯하여 생물학, 보건학, 예방의학, 공학, 경제학, 인구학 등 매우 다양하다.

생존시간 자료는 두 가지 특징을 갖고 있다. 그 중 하나는 중도절단(censoring)이고, 다른 하나는 절단(truncation)이다. 한 개체의 생존시간을 정확히 관측하지 못하고 대신에 어떤 시구간(time interval)에 포함된다는 것만을 관측 할 수 있을 때 생존시간은 중도절단 되었다고 말한다. 중도절단은 크게 세 가지로 분류된다. 한 개체의 이벤트가 미리 정한 어떤 시점까지 발생하지 않으면 그 개체의 정확한 생존 시간은 우측 중도절단(right censored) 되었다고 하고, 반대로 한 개체가 연구시작 시점 때 이미 이벤트를 경험한 것으로 관측되면 정확한 생존시간은 죄측 중도절단(left censored) 되었다고 한다.

아울러 이벤트의 발생 시간이 구간으로 관측되면 정확한 생존시간은 구간 중도절단(interval-censored) 되었다고 한다. 한편 절단은 두 가지로 분류된다. 일정 시점까지 생존한 개체만을 대상으로 하는 연구에서는 그 시점까지 충분한 생존경험이 없는 개체들은 연구대상에서 자연스럽게 제외되는데 이를 좌측 절단(left truncated) 되었다고 하고, 반대로 미리 정한 시점까지 이벤트를 경험한 개체만을 대상으로 하면 그 시점에 이후에 이벤트를 경험한 개체들은 연구대상에서 제외되는데 이때 우측 절단(right truncated)되었다고 한다. 생존시간 자료만이 갖고 있는 이와 같은 특징 때문에 생존분석 분야에서 통계적 방법론의 개발은 독특하며 또한 복잡한 수리적 전개가 뒤따라야 한다.

2.5. 표본조사

표본조사(sample survey) 또는 조사통계(survey statistics)분야에서는 관심 모집단에 대한 통계적 추론을 하는데 그 목적을 두고 모집단의 일부인 표본을 추출하는 방법을 연구하는 분야이다. 표본조사는 그 내용에 따라 정부조사(government survey), 마케팅조사(marketing survey) 그리고 사회 여론조사(public opinion survey) 등으로 구분된다. 또한 시간에 따른 조사대상의 중복에 따라 표본조사는 패널조사(panel survey), 순환조사(rotation sample survey) 그리고 독립반복조사(independently repeated survey) 등으로 구분된다. 조사 도구에 따라서는 면대면 조사, 우편조사, 전화조사, 인터넷 혹은 모바일 조사 등으로 구분할 수 있다.

언급된 조사의 분류에 따라 해당 조사의 특수한 연구주제가 있으나 일반적으로 조사의 계획단계로부터 조사자료 분석까지의 모든 조사 과정이 연구주제가 될 수 있으며, 이를 크게 나누면 (1)모집단 혹은 표집틀의 구축에 대한 연구, (2)표본추출법에 대한 연구, (3)가중치 및 추정량 산출과 분산 추정에 대한 연구, (4)무응답오차와 관측오차 등의 비표본오차에 대한 연구, (5)조사도구에 관한 연구 등이 있다.

3. 응용통계

3.1. 의학/생물통계

의학/생물통계학은 임상시험 및 신약개발, 유전체/단백질체학, 영양학 및 환경자료를 포괄하는 보건학 등의 분야에서 광범위하게 활용되는 분야로써, 의학/생물 자료를 효율적으로 분석할 수 있는 기법을 개발하고 응용하는 통계학의 한 분야라고 정의할 수 있다.

의학/생물통계학은 의학/생물학의 연구에서 (1)비용 대비 효율이 좋고 관심 가설의 검정에 적합한 연구방안(study design)을 결정하고, (2)연구결과의 효율성과 타당성을 향상시킴과 동시에 방대한 자료를 주어진 시간에 적절히 처리할 수 있는 통계량을 제시하며, (3)얻어진 결과를 정확히 해석하고 이로부터 의미 있는 결론을 도출한다.

다시 말해서 의학/생물학의 대규모 연구 그 시작과 끝에 의학/생물통계학이 있다고 해도 과언이 아니다. 임상시험 및 신약개발 분야에서는 임상시험과 신약개발 시 많은 연구들이 인간에 기초하고 있어 연구에 한계가 존재하나, 이를 “관측”된 자료의 통계적 분석으로 극복하는 방안이 연구된다.

유전체/단백질체 분야에서는 실험적으로 얻어진 유전체/단백질체 자료에 근거하여 내재된 정보를 통계적 분석으로 유추하고 이를 바탕으로 개개인의 역학 자료와 유전체/단백질체 간의 상호 연관성을 검정할 수 있는 통계적 방안들이 연구된다. 보건학 분야에서는 개인의 영양 상태 및 환경에 기인한 질병의 원인을 찾고 구성원들의 건강을 증진시키기 위해 역학 자료에 근거한 다양한 통계적 자료분석 기법이 연구되고 있다.

3.2. 금융/보험통계

금융/보험통계 분야는 응용통계의 한 분야로 금융(finance)과 보험(insurance)에 대한 수리적인 분석과 확률/통계모형의 설정 및 추정 등을 하는 학문 분야이다. 금융/보험 통계는 금융/보험 분야에서 중요한 과제인 금융상품의 가격 결정(pricing)과 헷징(hedging), 보험 상품의 보험료와 준비금의 계산, 최적 자산 포트폴리오의 결정, 리스크 관리(risk management) 등에 필요한 확률/통계 모형의 유도와 추정 및 계산을 다룬다.

최근 급변하는 금융환경에 대응하기 위하여 기존의 금융/보험통계의 지식을 뛰어 넘는 새로운 이론 창출이 요구되고 있다. 금융/보험통계의 이론에 대한 역사는 보험과 금융으로 나뉘어서 살펴볼 수 있다. 보험통계는 17C 후반 생명보험을 위하여 연령별 사망자와 생존자수에 대한 정보가 포함된 생명표(life table)를 작성한 것이 통계적인 접근의 시초로 알려져 있다. 이후 많은 연구자에 의해 생존분포의 유도, 보험료와 준비금의 계산, 총손해액분포의 유도, 파산확률 등을 위한 연구가 진행되었다.

금융통계 분야는 금융 이론의 발전과 그 궤적을 함께 하고 있다. 금융의 고전 이론은 경제학의 학문적 결과들을 이용하여 발전해왔지만 20C 중반 이후 금융이론에 수리적인 접근이 주요 방법론으로 차용되면서 금융연구에 확률/통계이론의 적용은 필수적이 되었다.

포트폴리오 이론은 여러 위험자산의 수익률 평균, 분산, 상관계수를 이용하여 포트폴리오의 최적 구성에 대한 수리적 분석을 가능하게 하였다. 금융파생상품인 옵션(options)의 가격결정에 대한 연구에서는 1973년 Black and Scholes 그리고 Merton 등이 확률미분방정식을 활용하여 가격공식을 편미분방정식의 형태로 표현하였다. 그 이후 가격공식이 마팅게일(martingale)을 이용한 기대값의 형태로 표현가능하다고 밝혀지면서 확률론적 접근이 활발해졌으며, 1975년 Boyle에 의한 파생상품 가격의 몬테칼로 근사방법은 이후 확장되어 복잡한 파생상품 가격의 산출에 적용되었다.

또한 계산오차를 줄이는 분산 감소기법에 대한 연구가 진행되었고 난수(random numbers)의 생성에 대한 이슈들도 옵션 가격 결정의 주제로 도입되었다. 주식을 기초자산으로 하는 파생상품뿐 아니라 이자율 파생상품의 가격결정을 위하여 이자율 확률모형도 등장하여 금융시장에서 관측된 자료를 이용하여 이자율 모형의 모수를 추정하는 문제들도 크게 주목을 받았다.

3.3. 환경통계

환경통계(environmental statistics)는 최근 10-20년 사이에 급격히 발전한 통계학의 한 분야이다. 선진국을 중심으로 환경에 대한 보다 나은 이해와 분석 그리고 미래에 대한 불확실성을 평가하려는 노력의 일환으로 작게는 기업규모로 크게는 전 지구적인 규모로 그 중요성이 증대되고 있다. 환경통계에서는 다양한 환경관련 자료를 분석하기위해 여러 통계적 방법론 및 모형들을 사용한다.

대표적인 예로는 극단값(extreme value) 이론 및 분석, 적응표본추출 방법(adaptive sampling), 리스크와 불확실성 분석, 시공간(spatio-temporal)모형 등을 사용한다. 환경통계의 몇 가지 특징에 대해 언급하면, 첫째 다른 응용분야에 비해 다루고 있는 영역이 매우 넓다는 것이다. 공기오염 평가 및 조절, 수자원 평가, 생태계 조사, 기후변화, 온난화현상의 이해, 수산업 및 임업 자원평가 등 환경통계의 연구 영역은 광범위하고 다양하다. 둘째로 시공간 모형과 소지역 추정법 등 고유의 통계적 방법론을 창출하고 주도한다는 것이다.

셋째로 자료의 규모가 방대하고 복잡하여 새로운 통계기법의 개발에 대한 동기를 부여한다는 것이다. 기후자료의 예를 들면 일반적인 기후자료는 한 시점에 전 지구를 2.5도 격자로 자르고 이를 다시 지상, 지하로 구분하는 3차원 자료이기에 10년간 기후자료는 보관하기에도 어려운 대용량 자료가 된다. 또한 시공간상 상관성이 존재하는 기후자료를 기존의 방법들로 분석하기에는 여러 가지 한계가 존재한다.

4. 확률/확률과정

4.1. 확률과정/해석

확률론 및 확률과정론은 불확실성을 가지고 있는 시스템에 관한 추정, 예측, 결정을 하는데 있어서 최적의 방법론을 연구하는 학문분야이다. 응용분야는 자연과학, 공학, 의학, 경제학, 경영학에 걸쳐 매우 다양하며, 중요한 예를 들면 유전학, 금융수학, 통신망 이론 등이다.

확률과정론의 분야 중 비교적 통계학과 밀접하게 관련된 분야를 소개하면, 확률미분방정식, 확률과정에서의 추론, 확률과정의 mixing 성질분석, 극한이론, 점 확률과정 (point process) 등이다. 확률미분방정식은 Brownian motion에 기초한 미분방정식을 의미한다. 확률미분방정식은 확률해석(stochastic calculus/analysis) 분야의 중심이며 stochastic process에 관한 적분이론을 주로 다루는 학문분야이다.

이 분야에서 주된 주제는 크게 Ito process와 Malliavin calculus 등이며, 이들로부터 파생된 분야로서 partial stochastic differential equation과 Levy process 및 fractional Brownian motion에 의해 정의되는 확률적 적분 이론 등을 들 수 있다. Levy process는 jump가 있는 확률과정을 모델링할 때 쓰이며 최근 재정시계열분야에서 다채롭게 응용되고 있다. 확률미분방정식의 응용분야는 매우 광범위하지만 금융수학으로 대변되는 재정시계열분석으로의 응용이 그 중 백미라고 할 수 있다.

이는 Black-Sholes 모형 이래 금융자료의 변동성을 모형화 하려는 시도가 장구한 세월에 걸쳐 존재해 왔기 때문이다. 확률과정의 연구에서 중요한 부분 중 하나는 stationarity 및 ergodicity를 입증하는 것이다. 이와 더불어 확률과정의 mixing property를 밝히는 것도 매우 중요한 작업이다.

최근까지 mixing property는 상당히 많은 연구가 진행되었으나 새로운 모형의 출현 등으로 더 많은 연구가 필요하게 되었다. 극한이론은 확률과정의 점근적 성질을 연구하는 분야로 크게는 strong convergence, weak convergence, law of iterated logarithm 등으로 나눌 수 있다. 현재, 다양한 확률과정에서 수많은 결과가 알려져 있으나 응용분야가 확대됨에 따라 새로운 모형에서의 이론개발이 계속 요구되고 있다.

점 확률과정은 대기체계이론(queueing theory) 및 통신이론 등에서 매우 중요한 연구 분야로 알려져 있다. 또한 지진자료 분석 등에도 널리 응용되고 있다. 이 분야는 데이터가 count data 형태인 경우의 확률과정에 널리 응용되고 있으며 확률미분방정식 모형과 달리 Poisson process를 기본적인 확률과정으로 가정하고 있다.

4.2. 극단값이론

전통적인 극단값이론은 서로독립이고 동일한 분포를 따르는 확률변수들의 최대값(또는 최소값)에 대한 점근분포이론 및 관련 이론을 일컫는다. 이 이론은 확률표본에서 표본평균은 모분산이 유한하면 점근적으로 정규분포를 따른다는 중심극한정리와 유사하게 최대순서통계량의 점근분포는 대체로 세 가지 종류의 극단값분포 중의 하나가 된다는 극단극한정리에 기초한다.

현대적 극단값이론은 (1)확률과정의 극단값이론과 (2)통계적 극단값모형으로 나누어 생각해 볼 수 있다. 확률과정의 극단값이론 분야는 전통적 극단값이론을 종속 확률과정으로 확장한 것으로 여기에는 정상과정, 가우시안과정, 초과점과정, 비정상과정, 마코프연쇄, ARMA시계열, 연속시간 확률과정 등이 포함된다. 종속 확률과정에서의 극단값들은 독립 확률변수들의 경우와 달리 변수들 간의 종속성으로 인하여 집락적으로 발생하는 경향이 두드러지는데 이와 같은 확률적 특성을 잘 규명하는 작업이 무엇보다도 중요한 일이다.

통계적 극단값모형 분야에서는 주로 극단분위수 및 꼬리확률 추정, (다변량)극단값분포의 모수추정 및 검정, 극단지수 추정 등을 연구한다. 예를 들어 네덜란드 영토의 40%는 해수면보다도 낮은데 이는 제방 둑으로 보호되고 있다. 그러나 겨울철 불어오는 폭풍우는 해수면을 밀어 올리고 해변가에 위치한 제방 둑은 이를 견뎌 내야만 한다.

이를 위해 네덜란드 정부는 경비와 안정성을 모두 고려하여 연중 최대 해수면이 제방 둑을 넘칠 확률이 0.0001이 되도록 제방 둑의 높이를 정하고자 한다. 이때 사용할 수 있는 해수면 자료는 100년 남짓이라고 한다. 이는 100년 남짓 자료를 이용하여 해수면이 10,000년에 한번 정도 넘어설 정도의 제방 둑의 높이를 추정하는 문제로 전형적인 극단분위수 추정문제이다. 극단값이론의 대표적인 응용 분야로는 보험, 외환, 파생상품 등과 관련된 금융 분야, 대기오염, 수질오염 등을 포함한 환경 분야 등을 들 수 있다.

4.3. 대기체계이론

대기체계(queueing)이론 분야는 응용확률론의 한 분야로 대기열과 큐(queue)의 분석을 위한 이론이다. 대기체계이론은 큐 또는 시스템에서의 여러 가지 성능측도를 다루며, 여기에는 대기시간의 분포, 시스템에서 대기하는 개체와 서비스를 받는 개체 수의 분포, 시스템의 특정 상태에 머무르는 확률 등을 유도하고 계산하는 방법이 있다.

큐잉이론은 정보통신, 교통, 컴퓨터, 공장, 쇼핑, 병원 등의 시스템설계 등 다양한 분야에 응용된다. 대기체계이론의 역사는 파스칼(Blaise Pascal)과 페르마(Pierre de Fermat)의 파산확률(ruin probability)에 대한 토론으로 거슬러 올라가기도 하지만 본격적으로는 1834년 므치(Antonio Meucci)에 의하여 전화가 발명되고 1876년 벨(A. G. Bell)이 전화에 대한 특허를 획득한 이후 시작되었다.

대기체계이론은 이후 1950년대와 1960년대를 거치면서 학문의 한 분야로 정립되게 된다. 이 시기에 이르러 Kendall은 대기체계시스템의 분석에 확률론적 접근을 시도하였으며 Lindley는 대기시간과 관련하여 적분방정식을 유도하였다. 이러한 연구결과들은 1960년대에 재생이론(renewal theory)과 조합론 (combinatorial theory)이 대기체계시스템의 분석에 이용되는 토대를 제공하였다.

현재의 대기체계이론은 좀 더 현실적인 시스템의 모형화와 분석에 초점을 맞추어 지속적으로 발전하고 있다. 이러한 배경에는 컴퓨터의 발달이 있으며 이는 모형의 근사와 확률계산을 위한 다양한 알고리즘의 개발로 이어지고 있다. 확산과정(diffusion)을 이용한 근사, 플루이드(fluid)근사, 행렬기하방법(matrix geometric method) 등이 대표적인 예이다. 대기체계이론은 현실적인 필요에 의해 생겨났으며 최근에는 금융 보험 등의 위험이론에서도 대기체계이론의 연구결과들이 광범위하게 이용되고 있다.

II. 통계/확률 연구동향

1. 추론/계산

1.1. 모수/비모수추론

국외 연구동향: 비모수적추론에서 표본의 크기가 증가함에 따라 국소평활영역을 축소시키거나 기저함수의 개수를 늘이는 식으로 함수공간의 근사오차를 줄이는 방법은 함수가 정의된 정의역의 차원, 즉, 관측값의 차원이 증가하면 효과적이지 않다는 사실이 알려져 있다.

이 현상을 ‘차원의 저주(curse of dimensionality)’라고 하며 비모수적추론에서는 이를 극복하는 것이 현재 연구흐름의 큰 방향이다. 차원의 저주를 극복하는 하나의 방법으로 모형의 차원은 무한차원으로 유지하여 모형의 융통성을 갖추는 동시에 차원의 저주를 피하는 특별한 구조를 모형에 추가하는 것이다. 비모수가법모형(nonparametric additive models), 비모수일반화가법모형(nonparametric generalized additive models), 비모수변수계수모형(nonparametric varying coefficient model) 등이 대표적인 예이다.

한편, 관측값의 차원이 초고차원인 경우에 모수적추론의 문제도 현재 매우 활발하게 연구되고 있다. 특히, 마이크로어레이(microarray)자료와 같이 자료의 차원(p)이 표본의 크기(n)에 비해 훨씬 큰 경우가 주된 연구대상이다. 자료의 차원은 그 생성과정을 설명하는 통계모형에서 모수의 차원과 직접적인 관계가 있다.

자료의 차원이 커지면 모수의 차원도 커질 수밖에 없다. 21세기 들어서면서 많이 연구되었던 ‘lasso’ 및 그와 유사한 벌점회귀(penalized regression)방법들은 모형의 차원축소와 모수의 추정을 동시에 수행하는 방법으로 각광을 받았지만 n이 한없이 커질 때 p/n이 영으로 수렴하는 경우에만 유효함이 알려져 있다.

최근의 연구방향은 p/n이 무한으로 발산하는 경우에 유효한 방법을 개발하는 것이다. 이와 함께 자료의 차원이 무한차원인 함수자료(functional data)에 대한 연구도 최근 활발하게 진행되고 있다. 함수자료에 대한 모형으로 가장 간단한 함수선형모형(functional linear models)에 대한 연구는 상당 부분이 진행이 되었고, 함수자료의 비모수모형에 대한 연구는 아직 시작 단계이다.

국내 연구동향: 국내에서 일부 통계학자의 연구는 국제적인 동향과 일치한다. 비모수추론의 연구는 국제적으로 선두그룹에 속해 있고 초고차원모수모형의 추론과 함수자료 모형의 분석에서도 국제적인 수준의 연구가 진행되고 있다. 그러나 현대통계학에서 이 분야의 연구가 국제적으로 중심 테마가 되고 있는 만큼 국내에서의 저변확대가 필요하다.

1.2. 베이지안추론

국내/외 연구동향: MCMC, 객관적베이지안, 비모수베이지안 등 세부주제별로 정기적인 국제 workshop이 개최되는 등 활발한 연구활동이 진행 중이고 통계학의 4대 major journal 에 발표되는 논문 수도 증가하고 있는 추세이다. 국내에서도 일부 통계학자들이 MCMC, 객관적베이지안, 비모수베이지안 등에 대해 연구하고 있다. 1996년 한국통계학회 산하에 베이지안통계연구회가 설립되어 활발한 학술교류가 진행되고 있다.

1.3. 통계계산

국내/외 연구동향: 최근 통계학은 생물정보학, 경영학, 인터넷 연구등 다양한 분야에서 수집되어 오는 초고차원 대용량 자료의 분석에 많은 노력을 기울이고 있다. 이러한 초고차원 대용량자료의 분석은 필연적으로 어려운 계산 문제들을 동반하고 기존의 낮은 차원의 자료를 위한 방법론들이 잘 작동하지 않게 된다.

한 예로 변수들 사이의 상호연관성 추론에 있어서 초고차원 공분산 (또는 역공분산)행렬의 벌점가능도함수를 최대화 하기 위한 여러 가지 알고리즘들이 제안되었으나 실제 유전체자료와 같은 초고차원 자료에 직접 적용하는 것은 매우 어려운 상황이다. 이러한 어려움을 해결하기 위하여 수치선형대수나 최적화기법의 최근 발전과 더불어 새로운 계산방법에 대한 연구가 요구된다.

몬테칼로적분(또는 MCMC)의 최근 국외 연구 동향을 살펴보면 대략적으로 다음의 세 방향으로 진행되고 있다.

첫째가 비모수베이지안에서 Dirichlet Process Mixture(DPM) 모형을 이용한 함수자료나 베이지안 인자모형의 분석, 또는 두 개 이상의 DPM을 사용하는 모형들에 대한 연구이다.

둘째로 adaptive MCMC방법에 대한 연구로 Metropolis-Hastings 알고리즘의 조절모수(tuning parameter)값을 Markov chain의 진행과 더불어 수정함으로써 수렴속도를 개선해 나가는 샘플러에 대한 연구이다.

마지막으로 trans-dimensional MCMC 방법들에 대한 연구이다. 여기서 trans-dimensional MCMC란 reversible jump MCMC와 같이 모형이 차원이 정하여지지 않은 모수를 가지고 있을 때 사용되는 방법이다. 국내에서도 일부학자에 의해 이러한 연구가 시도되고 있다.

2. 모형/자료분석

2.1. 선형모형

국내/외 연구동향: 설명변수의 차원이 초고차원일 때 모형의 차원을 축소시키기 위한 변수선택(variable selection) 및 벌점회귀(penalized regressions) 방법 등이 많이 연구되고 있고, 함수자료 사이에 상관성이 매우 큰 경우에 함수선형모형을 적합시키는 방법에 대해서도 많은 연구가 진행되고 있다. 국내에서는 계층적일반화선형모형(hierarchical generalized linear models)에 대한 연구가 활발히 진행되고 있다.

2.2. 다변량통계

국내/외 연구동향: 다변량자료분석의 연구는 크게 두 가지 줄기로 나뉘어 분류된다. 하나는 다변량정규분포에 기초한 모형론이고 또 하나는 어떤 확률적 전제 없이 다변량자료의 기술에 중점을 두는 자료론이라고 할 수 있다. 그간은 자료론이 모형론에 비하여 다소 열세에 있었다고 할 수 있었지만 근래에는 자료론이 행렬도(biplot), 쌍대척도법(dual scaling), 수량화(quantification) 등의 다양한 이름으로 활발히 연구되고 있다.

국내에서도 일부 통계학자들에 의해 다양한 다변량적 방법론이 개발되어 활용되고 있다. 특히, 정규분포 및 통계모형에 의존하지 않은 탐색적 다변량자료분석법이 많이 개발되고 있는 상황이다. 개발된 방법론들은 실제 사회의 다양한 분야에서 폭넓게 활용되고 있으며, 통계적 방법론의 다양성에 큰 기여를 하고 있다.

2.3. 시계열자료분석

국외 연구동향: 최근 불안정(nonstationary)시계열모형, 장기기억과정(long memory process), 조건부이분산성, 비선형과정(nonlinear process)에 대한 연구가 활발하게 진행되고 있다. 불안정시계열모형에서는 특히 단위근(unit root)가설에 대한 다양한 검정법이 연구되었고, 단위근을 갖는 시계열자료에 대한 회귀분석 등의 연구가 진행되었다.

또한, 패널(panel)단위근에 대한 연구가 활발히 이루어졌는데 여기에서는 패널개체들이 갖는 교차상관을 적절히 감안하는 방안이 적극 검토되었다. 불안정시계열을 표현하는 다른 방법으로서 평균모수 또는 추세모수가 시간에 따라 변하는 브레이크모형이 단위근과 함께 연구되어졌다. 단위근을 갖는 벡타시계열도 많은 학문적 발전을 이룬 분야이다.

벡타시계열들이 동일한 확률적 추세를 갖는지에 대한 공적분(cointegration)검정법이 주된 연구 관심이었는데 벡타오차수정모형에 대한 추정 및 검정으로 확대되어 연구되어졌다. 장기기억과정은 불안정시계열과 안정(stationary)시계열 중간에 위치한 모형으로서 그동안 괄목할만한 발전을 이루었다. 장기기억시계열모형은 ARFIMA 모형 등을 통해 일반화되었고 통계적인 문제를 포함하여 경제 및 금융시계열에의 응용에서 괄목할 만한 진전이 있었다.

조건부 이분산성 분야에서는 GARCH 계열의 모형이 금융시계열과 경제시계열에서 흔히 볼 수 있는 분산의 volatility clustering을 표현하는데 적극 활용되고 연구되었다. 또한 ARMA모형, 회귀모형, VAR 모형 등 다양한 평균함수와의 결합을 통해 단위근검정, 공적분검정 등의 통계적 방법들이 다수 개발되었다. 아울러 실제 자료의 미세한 특징, 즉 비대칭성, persistency 등을 표현하는 EGARCH, IGARCH 등으로 확장이 이루어졌다. 비선형과정의 연구는 TAR 계열의 모형을 중심으로 이루어졌다.

국내 연구동향: 국내에서도 여러 통계학자에 의해 단위근 검정, 패널단위근 검정, 브레이크 모형, 장기기억모형, GARCH 모형 등에 대해 많은 연구가 진행되었다.

2.4. 생존분석

국외 연구동향: 생존분석분야의 주요 연구 분야는 생존시간 자료를 분석하기 위한 비모수추론, 모수회귀모형과 준모수회귀모형, 개체 간 이질성을 수용하기 위한 프레일티(frailty) 모형 및 랜덤효과 모형, 재발 사건 자료 및 그룹화 된 자료를 포함하는 다변량 생존자료에 대한 추론, 종속적인 중도절단을 포함하는 모형, 비모수베이지안추론 등이다.

특히 최근에는 마이크로어레이 자료나 SNP 자료와 같은 방대한 유전체 정보를 생존자료분석에 접목시키는 연구가 매우 활발히 진행되고 있다. 이러한 연구결과들은 정기적으로 International Biometric Society가 주최하는 국제학술대회에서 발표되며 이를 통해 활발한 학술교류가 진행되고 있다.

국내 연구동향: 국내에서의 연구동향도 국외와 거의 일치한다. 국내 학자들 사이의 연구교류는 한국통계학회 산하의 생물통계연구회가 조직되어 이를 중심으로 이루어지고 있다. 생존분석 분야에서는 국내 연구자들이 많이 활동하고 있기 때문에 이 분야에 대한 많은 투자가 필요하다.

2.5. 표본조사

국외 연구동향: 국외 연구는 크게 조사방법(survey methodology) 부분에 대한 연구와 추론에 대한 연구의 두 분야로 이루어져 있다. 조사방법론적 측면에서는 웹조사(web survey)와 모바일조사(mobile survaey) 등의 새로운 조사도구에 대한 연구가 최근 활발히 진행되고 있다.

표본조사 자료를 이용한 추론 부분에서는 내용에서 언급된 모든 분야에 대한 연구들이 균형적으로 이루어지고 있으나 특히 분산추정(variance estimation), 무응답 대체(missing value imputation), 소지역 추정(small area estimation)에 대한 연구가 집중적으로 이루어지고 있다. 또한 보조정보를 효율적으로 사용하기 위한 표본추출법 및 추정량의 개발에 대한 연구도 활발히 이루어지고 있다.

국내 연구동향: 개인정보보호 및 사생활 침해 문제로 인하여 독립적인 반복 표본조사가 어려워짐에 따라 패널을 구성하여 일정시간 동안 조사를 진행하는 패널조사가 국내에서 급증하고 있다. 패널조사는 시간에 따른 모집단의 변화를 예측할 수 있는 장점이 있어 최근 많은 조사가 패널조사의 형태로 진행되고 있다.

이러한 패널조사를 위한 패널 구축 및 모평균 혹은 모집단 총합과 같은 단순모수로부터 변화율과 같은 복잡 모수의 추정에 대한 연구가 활발히 진행되고 있다. 또한 패널조사만이 갖는 패널마모(panel attrition)와 같은 비표본오차에 대한 연구도 진행되고 있다. 최근 급속하게 변하는 조사환경에 대응하기 위하여 사회여론조사를 위한 새로운 조사도구에 대한 연구가 증가하고 있다. 기존의 전화조사를 대체할 수 있는 모바일조사 혹은 인터넷조사를 위하여 패널조사의 방법을 접목하고 이를 바탕으로 새로운 추정량을 개발하는 연구가 진행되고 있다.

3. 응용통계

3.1. 생물통계

국외 연구동향: 인간 유전체 사업(human genome project) 이후 현재 많은 의학/생물통계학 연구는 유전체 및 단백질체 기반으로 진행되고 있다. 전장 유전체 자료, sequence 자료, epigenetics 자료, 마이크로어레이 자료 등을 활용하여 얻은 원인 단백질 및 원인 유전자에 대한 정보를 바탕으로 이미 개개인의 유전 정보를 활용하여 건강 정보를 예측해주는 민간 기업들이 출현했으며, 미국과 독일은 본격적인 신약 개발에 돌입하였다.

그러나 여기엔 건강수명에 영향을 미치는 다양한 변수들이 고려되지 않아 예측 모형에 한계가 있으며 이를 극복하기 위해 통합분석(integrated analysis) 및 메타 분석에 대한 연구가 최근 활발히 진행되고 있다. 또한 환경 간, 환경과 유전자, 유전자간의 상호작용에 대한 연구가 중요하게 부각됨에 따라 대용량 자료를 빠르고 효율적으로 분석할 수 있는 벌점회귀, 데이터마이닝 기법들을 비롯한 다양한 통계 분석 알고리즘 및 소프트웨어들이 활발히 연구 개발되고 있다.

국내 연구동향: 동아시아 지역 처음으로 KARE(Korean Association REsource)가 2007년 안성, 안산 코호트에서 지역기반 코호트의 유전체 전장분석 사업을 시작하여 대량의 유전체 정보를 발굴하였고, 현재 임상, 역학 자료와의 통합연관분석이 진행되고 있다. 또한 KARE의 전장유전체 연구를 통해 생산된 유전체 정보와 지역기반 코호트 역학 자료를 효율적으로 분석하기 위한 협력 연구가 진행 중에 있다. 그러나 통계 알고리즘 및 소프트웨어 개발이 부족하여 대다수의 분석들이 국외 연구 결과물에 의존하는 한계가 있어 점진적인 해결방안의 모색이 요구된다.

3.2. 금융/보험통계

국외 연구동향: 연구동향을 크게 (1)보험, (2)금융, (3)리스크관리로 나누어서 기술한다. 보험 분야에서는 신종 상품의 출현으로 확률/통계학적인 접근이 더욱 요구되고 있으며, 금융시장 실적과 연계된 동적해약률(dynamic lapse rate)의 모형 개발과 보험료와 준비금 산출에 필요한 각종 위험률의 추정방법에 대한 연구가 진행 중이다. 고령화에 따른 사망률의 지속적인 하락은 미래 추세를 반영하는 생명표의 작성에 대한 연구를 유발시키고 국제회계기준의 도입에 따른 제도변경은 새로운 연구 주제들을 계속 생산하고 있다.

또한, 노후보장을 위한 연금의 필요성이 증대되면서 연금 재정의 추계에 필요한 통계적인 방법론의 개발이 요구되고 있다. 금융 분야에서는 정규분포모형에서 벗어나 다양한 통계모형으로 수익률의 비대칭성과 변동성의 변화를 수용하고 이를 파생상품의 가격결정과 헷징에 적용하고 있다. 또한, 다변량 금융자료의 상관성을 코퓰라를 이용하여 반영하는 방법도 연구되고 있다.

리스크관리는 시장리스크, 신용리스크, 금리리스크 등으로 나뉘며 각 영역에서 리스크의 크기를 계산하는데 통계적 추론이 필수적이며 여기에 많은 연구자가 참여하고 있다.

국내 연구동향: 국내의 금융/보험통계에 대한 연구는 1990년대에 본격적으로 시작되었으며 2000년 이후에 후속세대 연구자들이 다수 배출되기 시작하면서 다양한 분야에서의 보험/금융통계 이론과 응용에 대하여 연구가 진행되고 있다.

3.3. 환경통계

국외 연구동향: 환경통계의 국외연구 동향의 특징은 국가의 정책적인 지원을 통해 대규모로 이루어지고 있다는 것이다. 국가 연구소나 대학교에 환경통계를 연구할 수 있는 센터를 만들고 이를 통해 전문 인력을 양성, 배출하는 것이다. 대표적인 예로는 미국 국립대기연구소 소속의 통계그룹, 시카고대학 통계학과 소속의 환경통계센터 등이다. 또한 환경자료를 수집하고 관리하는 기관들과 통계연구자 간에 활발한 공동연구가 이루어지고 있다.

국내 연구동향: 개인 연구자별로 작은 규모로 연구가 진행되고 있다. 보다 활발하고 창의적인 연구를 위해 범국가적인 지원이 절실히 요구되는 분야이다.

4. 확률/확률과정

4.1. 확률과정/해석

국내/외 연구동향: 국외에서는 확률과정/해석의 여러 분야에서 상당히 많은 수의 학자들이 존재하고 연구 성과 역시 괄목할만한 수준이나 국내에서는 상당히 미흡한 실정이다. 확률해석 부분에는 비록 충분치는 않으나 다른 분야에 비해 다수의 국내 학자들이 존재하며, 확률해석의 여러 영역에서 연구를 진행 중에 있다.

특히 Levy process와 관련된 확률해석 분야 및 금융수학 분야에 여러 명의 학자들이 존재한다. 확률과정에서의 추론 및 mixing property에 대한 연구는 주로 시계열 분석을 하는 연구자들이 그들의 필요에 의해 연구를 진행하고 있는데, 국제적으로도 소수의 학자들이 참여하고 있으며 국내에서는 이 분야에 대한 연구 인력이 극도로 적은 형편이다.

극한이론 분야는 확률론 중 중요한 분야로서 국제적으로는 이미 연구의 질이 높은 수준에 도달해 있으며, 국내에서도 몇몇의 학자가 좋은 성과를 내고 있다. 마지막으로 점 확률과정이론은 통신망 이론 및 대기체계이론과 밀접한 관계에 있는 분야로 국내에서는 대기체계이론과 댐이론(dam theory) 등에 여러 학자들이 연구를 진행 중에 있다.

4.2. 극단값이론

국내/외 연구동향: 국외에서는 종속확률과정에서 나타나는 극단값의 확률적 특성과 극단분위수의 추정 등에서 많은 연구가 진행되고 있다. 또한, 극단값이론은 환경자료나 리스크 관련 금융자료를 모델링하는데 매우 유용한 도구로 활용되고 있다. 국내에서는 이 분야에 대한 연구 인력이 매우 부족하다.

4.3. 대기체계이론

국외 연구동향: 대기체계이론의 연구는 대기망(queueing networks), 행렬분석방법(matrix analytic method), 역변환(inverse transformation), 컴퓨터와 통신에서 트래픽 확률과정의 분석, 플루이드모형, 생산시스템(manufacturing systems)으로의 응용, 대기체계시스템에서의 통계적추론 등을 중심으로 진행되고 있다.

국내 연구동향: 국내 대기체계이론의 연구는 1980년대에 시작되었으며 다양한 서비스정책 하에서 다양한 형태의 대기체계시스템을 연구하고 있다. 또한 행렬기하방법을 이용한 대기체계시스템의 분석, 통신망 분석, 대기체계이론을 이용한 리스크 모형의 분석, 대기체계이론의 응용 등에 대하여 연구를 진행하고 있다.

SENS

Programming Note

통계학의 오늘

References

티스토리툴바