주어진 데이터를 설명하는 최소한의 모형은 어떤 모습일까?
앞선 세 번의 연재에서는 그래프 기반의 신경망 모형을 소개하고, 정보이론을 통해서 이들의 학습과정을 살펴보았다. 이번 글에서는 모형으로부터 자유로운 통계학적인 학습을 살펴보겠다.
L개의 관찰 데이터 {x(t)}Lt=1가 주어졌다고 하자.1 이런 데이터를 생성하는 시스템이 가지는 가장 그럴듯한 분포 P(x)는 어떤 모습일까? 아마도 우리가 상상할 수 있는 가장 원시적인 분포는 주어진 데이터의 빈도수일 것이다.
P0(x=x_)=1LL∑t=1δ(x_–x(t))
이는 데이터 {x(t)}Lt=1 가운데 x_에 해당하는 것이 몇 개인지 세는 상대적인 빈도수를 나타내는 표현이다. 그리고 주어진 데이터의 통계량인 평균을 살펴볼 것이다.
X0=1LL∑t=1x(t)=∑xxP0(x)
우리가 찾고 있는 시스템의 모분포 P(x)는 가능하면 P0(x)에 가깝고 평균 X=∑xxP(x)는 X0에 가까운 값을 주는 분포로 기대가 된다.
여기서 한 걸음 더 나가려면 두 확률분포 사이의 거리를 정의해야 한다. 여러 가능성 가운데 쿨백-라이블러 발산Kullback-Leibler divergence를 생각해보자.
DKL(P||P0)=∑xP(x)logP(x)P0(x)
이렇게 정의한 거리 DKL(P||P0)≥0는 일단 항상 양수이고, P(x)=P0(x)가 되는 조건에서만 거리가 0이 되므로 꽤 괜찮은 선택처럼 보인다. 사실은 최고의 선택이다. 공간에서 두 점 사이의 거리를 다루는 리만기하학을 일반화해서 함수공간에서 두 분포함수 사이의 거리를 다루는 정보기하학information geometry이라는 분야가 있다. 정보기하학에 따르면 DKL(P||P0)로 정의한 거리는 (i) x의 해상도binning에 의존하지 않고, (ii) 일반적인 의미에서의 피타고라스 정리를 만족하는 유일한 선택이다.[1] 정보기하학은 슌이치 아마리Shun-ichi Amari 선생님을 비롯한 분들의 꾸준한 기여로 최근 머신러닝을 이해하는 언어로 주목받고 있다.[2]
영상 아마리 선생님의 유튜브영상
쿨백-라이블러 발산을 조금 정리하면 다음처럼 표현할 수 있다.
DKL(P||P0)=∑xP(x)log1P0(x)–∑xP(x)log1P(x)=E[log1P0(x)]P–E[log1P(x)]P
이는 P0(x)분포가 가지는 정보의 기대값에서 P(x)분포가 가지는 정보의 기대값의 차이에 해당한다. 이런 의미에서 쿨백-라이블러 발산은 상대적 엔트로피relative entropy라고도 불린다. 여기서 두 정보량의 기대값 계산에서 모두 정답에 해당하는 모분포 P(x)의 입장에서 계산했다는 점을 주목하자. 이렇게 보면 거리함수 DKL(P||P0)≠DKL(P0||P)가 P(x)와 P0(x)에 대해 대칭이 아니라는 것이 실수가 아니라 신의 한 수임을 자연스럽게 이해할 수 있다. 이제 거리함수 DKL(P||P0)를 이용해서 우리 문제를 형식화해보자.
∑xxP(x)=X를 만족하면서 P0(x)에 가까운 분포 P(x)는 무엇인가?
이렇게 제한 조건이 있는 최적화 문제는 라그랑주 승수법을 써서 푼다.
L=DKL(P||P0)–θ⋅(∑xxP(x)–X)
이 목적함수를 최소화시키는 P(x)를 계산하면 다음과 같은 지수함수를 얻게 된다.[3]
P(x)=P0(x)exp(θ⋅x)Z
분모 Z=∑xP0(x)exp(θx)는 ∑xP(x)=1을 만족하기 위해 도입한 정규화 상수이다. 이 분포의 매개변수인 라그랑주 승수 θ는 제한 조건 ∑xxP(x)=X을 만족하도록 결정한다. 여기서 X=X0인 제한 조건을 만족하는 경우는 θ=0이 되고, 당연하게도 P(x)=P0(x)라는 결론을 확인할 수 있다. 하지만 우리가 관심이 있는 상황은 X가 X0에서 조금 벗어난 데이터에 대한 P(x)이다.
흥미로운 식 (6)을 몇 가지 상황에서 음미해 보자. 첫째, 데이터가 각 샘플의 상태 x 자체가 아니라 이 상태에 해당하는 어떤 물리량 E(x)를 측정한 경우를 생각해 보자. 그리고 P0(x)에 대한 정보가 아무것도 없어서 모든 상태 x가 같은 확률로 나타날 수 있는 상황을 가정해 보자. 그러면 측정한 E(x)의 평균 U=∑xE(x)P(x)가 제한된 조건에서 P0(x)=상수에 가장 가까운 분포를 얻으면 P(x)=Z−1exp[−βE(x)]라는 통계역학의 볼츠만 분포를 얻게 된다. 여기서 물리량 E(x)는 에너지에 해당하고, θ=−1/β에 해당한다. 이 경우 P(x)는 1/β라는 온도에서 평균 에너지 U를 가지는 평형상태의 분포가 된다. 여기서 열역학에 기반을 둔 통계역학과 정보이론에 기반을 둔 데이터사이언스의 접점이 생긴다.
둘째, 제한조건이 두 개 있는 경우를 생각해 보자. x의 1차 모멘트 ∑xxP(x)와 더불어 2차 모멘트 ∑xx2P(x)도 제한조건으로 들어오는 경우는 P(x)=Z−1exp(θ1x+θ2x2)가 정규분포 또는 가우시안분포가 된다.2 이는 평균과 분산을 측정한 실험결과를 설명하는 최소한의 모형으로 정규분포를 가정하는 것에 대한 정보이론적인 정당화이다.
셋째, x=(x1,x2,⋯)가 2차원 이상의 벡터이고 관찰한 물리량이 xi의 평균 그리고 상관관계로 불리는 xixj의 평균이었다고 하면 P(x)=Z−1exp(∑ibixi+∑i>jWijxixj)와 같은 홉필드 모형을 자연스럽게 얻게 된다. 이 경우 라그랑주 승수는 θ=(bi,Wij)에 해당한다.
샛길로 빠졌는데, 다시 우리의 문제에서 얻은 식 (6)으로 돌아가자. 정규화 상수 Z는 통계역학에서는 분배함수partition function로 불리고, Z에 로그를 취하면 적률생성함수 F(θ)=logZ(θ)가 된다. 적률생성함수에 미분을 취하면 x의 모멘트의 기대값을 편리하게 얻을 수 있다. 가령, 1차 모멘트의 기대값은 F(θ)를 θ에 대해서 한 번 미분을 해서 다음과 같이 계산할 수 있다.
∂F(θ)∂θ=1Z(θ)∂Z(θ)∂θ=∑xxP0(x)exp(θ⋅x)Z(θ)=∑xxP(x)=X
마찬가지로 고차 모멘트의 경우는 θ에 대해 여러 번 미분을 해서 얻을 수 있다. 즉, 적률생성함수 F(θ)는 확률분포 P(x)에 대한 모든 정보를 가지고 있다고 생각할 수 있다. 따라서 지금부터 우리는 P(x) 대신 F(θ)를 찾을 것이다.
여기서 이런 질문을 해보자. 데이터의 평균값 X0가 조금 바뀌면 우리의 분포 P(x)는 어떻게 될까? 물론 라그랑주 승수인 θ를 조정하면 P(x)와 평균값 X를 변화시킬 수 있다. 우리는 수학적인 도구로 도입한 θ 대신 데이터의 평균 X를 직접적인 변수로 제어할 수 있을까? F(θ) 대신 G(X)라는 함수를 르장드르 변환Legendre transformation을 통해서 얻을 수 있다.
F(θ)+G(X)=θ⋅X
적률생성함수 F(θ)의 르장드르 변환함수인 G(X)는 사실 조금 계산을 해보면 상대적 엔트로피인 DKL(P||P0)에 해당함을 확인할 수 있다.
DKL(P||P0)=∑xP(x)logP(x)P0(x)=∑xP(x)logexp(θ⋅x)Z=∑xθ⋅xP(x)–logZ=θ⋅X–F=G(X)
식 (8)에서 θ와 X의 쌍대성에 의해 식 (7)의 ∂F/∂θ=X는 다음 식이 됨을 유추할 수 있다.
∂G∂X=θ
이렇게 얻은 엔트로피 G(X)는 데이터에 대한 많은 정보들을 함축하고 있다. 현재 우리의 관찰결과인 P0(x)에서 얻은 평균이 X0이다. 현재 데이터가 위치하는 곳은 θ=0 또는 X=X0라고 간주할 수 있다. 그리고 이곳이 바로 오목함수 G(X)가 최소가 되는 G(X0)=DKL(P0||P0)=0인 지점에 해당한다.
우리는 전체 X 공간에 대한 G(X)의 모습보다는 현재 관찰 데이터가 위치하는 X=X0 주변에 관심이 있기 때문에, 테일러 전개Taylor expansion를 통해서 G(X)의 국지적 모습을 얻을 수 있다.
G(X)≈G(X0)+∂G∂X(X−X0)+12∂2G∂X2(X−X0)2≈12C−1(X−X0)2
여기서 테일러 급수의 0차항은 G(X0)=0으로 사라지고, 1차항 역시 X=X0에서 기울기 ∂G/∂X=θ가 0으로 사라지게 된다. 이는 X=X0에서 G(X)가 최소이므로 당연한 결과이다. 테일러 전개의 2차항의 계수는 G(X)의 곡률에 해당하는 것으로 사실 데이터 {x(t)}의 분산 C의 역수이다.
∂2G∂X2=∂∂X(∂G∂X)=∂θ∂X
여기서 ∂θ/∂X의 역수를 계산해 보자.
∂X∂θ=∂∂θ(∑xxP(x))=∂∂θ(∑xxP0(x)exp(θ⋅x)Z(θ))
이 관계에서 X=X0 또는 θ=0에서 아래 결과를 쉽게 확인할 수 있다.
(∂X∂θ)θ=0=∑xx2P0(x)–(∑xxP0(x))2=E[x2]–E[x]2=C
x가 2차원 이상의 벡터인 경우 C는 공분산covariance 행렬에 해당한다. 이로써 우리는 주어진 데이터에 해당하는 엔트로피 함수 G(X)를 식 (11)에서 완전히 정의할 수 있게 되었고, 이 함수의 기하학적 모양에서 데이터에 대한 정보를 마음껏 추출할 수 있게 된다.
예제
짝을 이루는 데이터 {x(t),y(t)}의 선형모형 y=Wx+b을 생각해보자. 여기서 데이터를 가장 잘 맞추는 기울기 W는 아래와 같은 선형회귀 공식을 따른다. 각자 한번 유도해 보길 바란다.
W=E[yx]−E[y]E[x]E[x2]−E[x]2
이제부터 우리는 통계학에서 가장 중요한 식 가운데 하나인 선형회귀 공식을 엔트로피 함수 G(X)로부터 얻어 보겠다. 먼저 주어진 데이터 {x(t),y(t)}의 빈도수로부터 원시분포 P0(x,y)를 얻을 수 있다. 그리고 데이터의 평균 X=∑x,yxP(x,y)와 Y=∑x,yyP(x,y)을 제한조건으로 가지면서 P0(x,y)에 가장 가까운 시스템의 모분포를 얻는다.
P(x,y)=P0(x,y)exp(θ⋅x+ϕ⋅y)Z
정규화 상수는 Z=∑x,yP0(x,y)exp(θ⋅x+ϕ⋅y)이다. 앞에서처럼 적률생성함수 F(θ,ϕ)=logZ(θ,ϕ)에서 라그랑주 승수 θ를 평균 X로 바꾸는 르장드르 변환을 통해서 엔트로피 함수 G(X,ϕ)를 정의한다. 그리고 데이터가 위치하는 X=X0 근처에서 테일러 전개를 한다.
G(X,ϕ)≈G(X0,ϕ)+12C−1(X−X0)2
위 식 (17)을 ϕ에 대해서 미분을 해보자.
∂G(X,ϕ)∂ϕ=∂∂ϕ(θ⋅X–F(θ,ϕ))=–∂∂ϕlogZ=−∑x,yyP(x,y)=−Y
그리고 식 (17) 오른쪽 두 번째 항을 미분하면 다음과 같다.
∂∂ϕ(12C−1(X−X0)2)=–C−1∂X0∂ϕ(X−X0)
여기서 ∂X0/∂ϕ를 더 계산해 보자.
B≡(∂X0∂ϕ)ϕ=0=∂∂ϕ(∑x,yxP0(x,y)exp(ϕy)Z(θ=0,ϕ))ϕ=0=∑x,yyxP0(x,y)–∑x,yxP0(x,y)∑x,yyP0(x,y)=E[yx]–E[y]E[x]
이 결과들을 이용해서 식 (17)을 정리하면 다음 등식에 도착하다.
Y−Y0=C−1B(X−X0)
여기서 δX=X−X0 변화에 대한 선형응답인 δY=Y–Y0를 결정하는 W는 다음과 같이 결정된다.
W=C−1B=E[yx]−E[y]E[x]E[x2]−E[x]2
놀랍게도 이는 위 선형회귀 공식 (15)와 정확하게 일치한다.[4] 각 샘플들의 선형관계 y=Wx+b를 데이터의 평균의 관계 Y=WX+b에서 구한 셈이다.3 이렇게 얻은 W는 엔트로피 함수 G(X,ϕ)에서 변수 X와 ϕ의 상호작용의 세기로 해석할 수 있다.
W=∂Y∂X=−∂∂X(∂G∂ϕ)=−∂2G(X,ϕ)∂X∂ϕ
모시스템에서 임의의 유한한 데이터 {x(t)}가 주어졌을 때, 시스템을 이해한다는 것은 그런 데이터를 생성하는 모분포 P(x)를 찾는 것과 다르지 않다. 물론 신경망을 이용한 머신러닝이 이 작업을 훌륭하게 해내고 있다. 이번 글에서는 머신러닝 접근과 상호보완적인 접근이 될 수 있는 통계학적인 학습을 소개해 보았다. 모형과 데이터의 복잡도를 체계적으로 다루는 통계학적인 학습은 정보이론에 뿌리를 두고 있다. 특히 확률함수들 사이의 관계를 직접 다루는 정보기하학이 좋은 탐험 도구가 될 수 있음을 이번 글에서 살펴보았다.
물리학과 수학을 전공한 사람들이 머신러닝에 더 많이 기여하기를 기대하면서 네 번에 걸친 연재를 마친다. 그동안 관심을 가져주신 독자들에게 감사드린다.
참고문헌
- Shun-ichi Amari, "Information geometry and its applications", Springer (2016).
- https://franknielsen.github.io/FrankNielsen-distances-figs.pdf
- Solomon Kullback, "Information theory and statistics", Dover (1997).
- Danh-Tai Hoang, Juyong Song, Vipul Periwal, and Junghyo Jo, "Network inference in stochastic systems from neurons to currencies: Improved performance at small sample size", Physical Review E 99:023311 (2019).