수학도가 인공지능 연구에 기여하는 방법

들어가며

21세기 초는 바야흐로 인공지능^{Artificial Intelligence} 시대라 부를 수 있다. 전산학이나 전자공학뿐만 아니라 자연과학, 의학, 신소재, 생명공학, 사회과학 분야에서 학제간 인공지능 연구 열풍은 전 세계적인 현상이 되었다. 이러한 인공지능 열풍은 머신러닝^{Machine Learning} 알고리즘, 특히 딥러닝^{Deep Learning}[15]의 눈부신 발전에서 비롯되었다.

필자가 딥러닝을 처음 접한 것은 2013년 겨울로 기억한다. 알렉스넷^AlexNet이 이미지넷^ImageNet 물체인식 대회에서 우승한 시점부터 이미 국내의 컴퓨터영상 연구자들은 딥러닝에 큰 관심을 가지고 연구하기 시작했다. 당시 나는 조화해석학과 확률론을 공부하던 대학원생이었는데, 합성곱^convolution 연산이 딥러닝에서 중요한 역할을 맡고 있다는 걸 처음 알게 되었다. 요즘은 딥러닝을 공부할 수 있는 훌륭한 교재들과 강의들이 많이 있지만, 당시엔 논문으로 공부할 수밖에 없었는데, 일개 수학도가 영상처리와 머신러닝 배경지식 없이 논문만으로 빠르게 변화하는 딥러닝 연구를 쫓아가는 건 쉽지 않은 일이었다.

운 좋게도 삼성종합기술원에서 책임연구원으로 재직 중이셨던 민현석 박사님(현재 토모큐브 AI 팀장)께 많은 걸 배웠고, 덕분에 인공지능 연구를 시작할 수 있었다. 민 박사님과는 지금도 토모큐브의 홀로그램 현미경 영상 데이터에서 딥러닝으로 공동연구를 진행하고 있다. 그 외에도 최성준 박사(고려대학교 인공지능대학원 조교수)나 조형주 연구원(서울대 박사과정) 등 지인들과 같이 연구하면서 도움을 적지 않게 받았다. 당시에 필자가 진 신세를 갚고자 하는 심정으로 펜을 들었으며, 이 글은 수학도인 학부생이나 대학원생에게 앞으로 인공지능 분야에서 중요한 커리큘럼이나 연구 분야를 소개하고자 작성하였다.

어떤 수학을 공부해야 하는가?

인공지능 연구는 데이터 저장장치와 컴퓨터 연산 성능 향상과 더불어 발전하고 있다. IT 산업 실무에선 대규모 연산 자원이 통신 네트워크로 연결된 상태에서, 멀티 소스로부터 실시간으로 데이터가 유입되는 상황을 다룬다. 반면 스마트폰, 사물인터넷, 로봇 같은 하드웨어 기기상에서 제한적인 연산 자원만 가지고 데이터를 분석하거나 제어가 필요한 경우도 있다. 인공지능이 적용되는 상황이 매우 다르지만, 일반적으로 유입되는 데이터의 양과 차원이 연산자원의 한계보다 쉽게 커지므로 학습 알고리즘의 속도와 확장성이 더 중요해진다.

과거의 필자는 수학이 딥러닝 연구에 큰 기여를 하지 못할 것으로 예측했다. 왜냐하면 이전의 머신러닝 방법론들이 수학적 접근에 많이 기댔기 때문에 오히려 성능 발전의 한계를 가졌고, 현대 딥러닝 알고리즘의 특성상 양질의 데이터를 잘 축적하는 파이프라인과 병렬 연산 기법을 효과적으로 수행할 수 있는 인프라를 구축하는 것이 훨씬 중요하다고 생각했기 때문이다.

이 예측은 반은 맞고 반은 틀렸는데, 현재 구글이나 페이스북 같은 거대 IT기업의 인공지능 연구를 살펴보면 규모의 경제를 토대로 한 연구들이 상당수이고 점점 학계와 격차가 벌어지고 있는 편이다. 그러나 딥러닝의 가치가 커질수록 수학의 중요성도 동반 성장하는 현상을 관찰할 수 있었는데, 대규모의 딥러닝 연구가 진행될수록 인공지능 연구의 난제들이 수면 위로 드러났고 그 난제들을 풀어내기 위해 다시 수학의 역할이 중요해지기 시작한 것이다.

흔히들 인공지능을 공부하려면 선형대수학, 확률론, 통계학을 잘 알아야 한다고 강조한다. 좀 더 깊이 들어가면 측도론^{measure theory}과 함수해석학^{functional analysis}도 필요하다고 얘기한다. 위에서 언급한 교과목들은 분명 중요한 기초 과목들이고 우수한 학부생이라면 대학원에 진학하지 않아도 충분히 배울 수 있는 내용들이다. 그러나 인공지능 분야는 생각보다 넓은 범위의 수학적 지식을 요구하고 있기 때문에 필자의 관점에선 다소 부족하다고 생각한다. 경험적으로 봤을 때 현재 수학과 학생들이 요즘 유행하는 머신러닝이나 딥러닝만 공부한다고 해서 전산과나 산업공학, 통계학 전공자들만큼 인공지능 업계 취업이나 연구직 일자리를 구하는 것이 쉬운 일은 아니다. 수학도들 상당수가 프로그래밍이나 소프트웨어 개발에 익숙하지 않기 때문에 코딩테스트에서 종종 떨어지기 때문이다. 컴퓨터공학과 학생들 이상으로 개발 능력을 쌓을 것이 아니라면, 수학도들은 나름대로의 차별화된 경쟁력을 갖는 것이 필요하다.

이어지는 글에선 기초 수학 분야 중에서 현재와 미래 모두 활용 가치가 큰 분야를 소개하려고 한다. 현재 전산학과나 산업공학과에선 이미 가르치고 있는 커리큘럼들이지만, 국내 수학과에서 프로그래밍 실습과 더불어 가르치는 경우는 매우 드문 상황이라 학생들은 타학과에서 수업을 듣는 것을 추천한다. 가능하다면 수학과에 해당 과목들을 가르치는 커리큘럼이 개설되어 수학도들의 인공지능 분야 기여가 활발해졌으면 하는 바람이다.

비모수통계학^{Nonparametric Statistics}

필자가 처음 발을 디딘 기업은 보험회사였다. 삼성화재 장기상품개발팀에서 근무했는데, 보험회사에서는 보험가입자들의 질병이나 상해사고 확률을 토대로 위험률^{risk rate}을 산출하고 이를 보험료에 반영한다. 다만 보험가입 기간이 수십 년이기 때문에 가입기간 동안 발생할 수 있는 시나리오가 무궁무진하고, 고려해야 하는 데이터의 종류도 다양하다. 현업에서 주로 사용하는 위험률 산출 방법은 비모수^{nonparametric} 또는 준모수^{semiparametric} 통계학에 토대를 두고 있다.¹

¹ 최근에는 국내 보험사들도 머신러닝 기법 도입을 적극적으로 검토하고 있지만 가장 선호하는 방법은 빨리 만들 수 있고 이해하기 쉬운 히스토그램 기법이다. 히스토그램 기법을 선호하는 이유는 두 가지인데, 첫째는 검증 업무를 맡는 현업 계리사들이나 감독 업무를 맡는 사람들 중 통계적 기법을 이해하는 사람들이 드물기 때문이고, 둘째는 기존에 만들어온 위험률과 통계적 정합성을 따져야 하는데, 과거엔 사용한 기법들이 새로운 방법론의 예측 값과 크게 다르기 때문이다. 이런 측면에서 규제나 검증에서 비교적 자유로운 IT 회사들이 머신러닝 기법을 적극적으로 도입하는데 유리한 점을 가지고 있다.

비모수통계학은 이름 그대로 통계학의 한 분야이다. 학부 저학년 때 접하는 확률 및 통계 수업에서 이항모형이나 정규분포들을 가지고 데이터를 다루는 방법들은 흔히 모수적^parametric 방법론에 속한다. 가령 보험가입자의 생존시간을 \(T\in[0,\infty)\) 라는 확률변수로 나타낸다고 했을 때, 이 보험가입자가 \(t\) 시간보다 오래 생존할 확률을 지수분포^{exponential distribution}를 이용하여 모델링한다면, 다음과 같이 추정할 수 있다.

\(\mathbb{P}_{\theta}(T>t)=\exp(-\theta t),\quad t\geq0,\theta>0\)

여기서 \(\theta\)를 확률변수 \(T\)의 모수^parameter라 부르는데, 모수가 속한 영역이 \(\mathbb{R}\)이라는 유한차원 공간이기 때문에 모수적 방법론이라 부른다. 모수적 통계모형을 사용하면 \(\theta\)만 추정하면 되므로 산출이 간단하고 해석도 쉽지만, 모든 보험가입자의 생존시간을 지수분포로 설명하는 것은 무리인 데다, 만일 지수분포를 따르지 않는 질병이나 사고 데이터를 분석할 땐 생존률을 적절하게 예측하기 어렵게 된다. 왜냐하면 모델이 관찰되는 데이터 분포보다 단순하기 때문에 과소적합^underfitting 현상이 발생하여 예측력이 떨어지기 때문이다. 이를 해결하기 위해 생존시간 \(T\)를 지수분포가 아니라 다음과 같이 추정하는 비례위험모형^{proportional hazards model}[4]을 사용할 수 있다.

\(\mathbb{P}(T>t|\mathbf{x})=\exp\left(-\int_{0}^{t}\lambda_{0}(s)e^{\langle\beta,\mathbf{x}\rangle}ds\right),\quad\beta,\mathbf{x}\in\mathbb{R}^{d}\)

위 식에서 \(\beta\)는 보험가입자의 여러 변수들(예: 나이, 성별, 흡연 등) \(\mathbf{x}\in\mathbb{R}^{d}\)의 영향력을 의미하며 유한차원에 속하지만, \(\lambda_{0}(s)\)는 시간에 따른 사건 발생의 변화를 나타내는 함수로서 무한차원에 속하기 때문에 비례위험모형은 비모수적 방법론으로 분류된다. 이런 방식의 비모수적 통계 모형은 현업 및 실제 연구에서 중요하게 사용되며, 보험사에서는 보험 가입 데이터를 이용해 \(\lambda_{0}(s),\beta\)를 추정해서 생존률을 도출하고 이를 이용해 신규가입자의 보험료를 책정하거나 새로 개발한 담보의 위험을 계량하는데 사용할 수 있다. 또한 생존모형은 계리 모형뿐만 아니라, IT 업계에서 서비스 가입자의 탈퇴율이나 해약률을 예측할 때도 사용된다. 이 문제를 이탈 예측^{churn prediction}이라 하는데, 베이지안^Bayesian 기법인 디리클레 확률과정 혼합모형^{Dirichlet process mixture model}을 이용한 군집^clustering 기법을 생존분석에 이용하는 추세이다.

비모수 또는 준모수 통계학은 위와 같이 모수적 통계모형의 가정이 붕괴되거나 또는 분포 비의존적^{distribution-free}인 방법론이 필요할 때 사용 가능하다. 비모수적 가설검정 기법들을 포함하여 머신러닝이나 데이터마이닝 수업 시간에서 가르치는 커널밀도추정^{kernel density estimation}, 웨이블렛 회귀^{wavelet regression}, 서포트벡터머신^{support vector machine}, 랜덤포레스트^{random forest} 알고리즘들이 대표적인 기법들이다. 단, 머신러닝 전공자들이 공부하듯 단순히 알고리즘 과정이나 사용 방법만 공부해서는 안 되고 예측이 얼마나 불확실해질 수 있는지 신뢰구간^{confidence interval}을 추정할 수 있는 부트스트랩 샘플링^{bootstrap sampling} 기법도 같이 공부해야 한다. 필자의 주요 연구 분야도 부트스트랩 같은 통계학적 기법들을 딥러닝에서 효과적으로 활용하는 방법이다.[22] 해당 내용을 공부하기 위한 훌륭한 교재들이 많지만 저자는 특히 프리드먼^Friedman 등이 공저한 <Elements of Statistical Learning>[7]이나 에프론^Efron과 해스티^Hastie의 책 <Computer Age Statistical Inference>[6]을 추천한다.

인공지능 연구에 관심 있는 확률론 전공자라면 비모수 베이지안^{nonparametric Bayesian} 방법론을 꼭 추천하고 싶다. 고살^Ghosal과 판 데르 파르트^{Van der Vaart}의 저서 <Fundamentals of Nonparametric Bayesian Inference>[9]이 좋은 수학적 기초를 제공하고 있다. 이 분야의 진입 장벽은 측도론 기반의 확률론이기 때문에 전공자라면 이쪽 이론을 공부하는 데 오래 걸리지 않을 것이다. 특히 마르코브 연쇄 몬테카를로 방법^{Markov Chain Monte Carlo}, 변분추론^{variational inference} 기법들은 밀도 추정^{density estimation}이나 최근에 유행하는 생성모형^{generative model}과 관련된 통계학 연구에서 자주 쓰이는 알고리즘이다. 필자와 같은 확률론 전공자라면 인공지능 연구에 첫발을 내디딜 수 있는 분야이므로 제일 먼저 추천하고 싶다.

확률적 최적화^{Stochastic Optimization}

오늘날 머신러닝 모델들의 성공 요인은 대규모 스케일의 최적화 알고리즘에 있다. 거대 IT 기업들은 효율적인 서버 인프라를 구축하는 데 적극적으로 투자하고 있다. 이는 단순히 데이터를 축적하는 용도가 아니라, 연산 자원을 효과적으로 배분하고 스케줄링하여 실시간으로 유입되는 데이터를 빠르게 학습하는 것이 목표이다. 이러한 자원 배분과 스케줄링 문제를 주먹구구식으로 해결하는 것은 현명하지 않다. 일찍이 아마존^Amazon은 확률적 최적화 분야의 특급 전문가들과 엔지니어들을 대규모로 채용하여 클라우드 시장에서 앞서 있다고 평가받는다.

확률적 최적화는 수리적 최적화의 한 분야로서 확률적 탐색^{stochastic search}, 확률적 프로그래밍^{stochastic programming}, 확률적 최적제어^{stochastic optimal control}를 아우르는 다소 범용적인 용어이다. 필자가 말하는 확률적 최적화는 셋 모두를 통합해서 말한다. 확률적 최적화는 불확실성^uncertainty을 고려해서 순차적 의사결정^{sequential decision making}을 적용하는 인공지능 알고리즘에서 중요하게 사용된다. 비단 강화학습뿐만 아니라 로봇공학의 제어 문제나 산업공학에서 효율적인 실험계획을 구성할 때도 필요하다. 필자는 지도 학생들에게 확률적 최적화와 뒤에서 소개할 인과학습 분야의 결합을 연구 지도하고 있다.

최근에 유행하는 강화학습^{reinforcement learning}은 연구자들의 접근 방법론이 다를 뿐 최적제어와 같은 문제를 다루기 때문에 통합된 시각에서 확률적 최적화에 속한다고 볼 수 있다. 엄청난 연산자원과 엔지니어링이 투입되어 수리적 모델 기반의 최적화 알고리즘들과 성능 격차를 벌리고 있다. 다만 강화학습이 모든 최적화 문제의 만능해결사가 될 수는 없다. 물류나 운송 문제처럼 수십만 차원 이상의 변수들을 제약 조건으로 다뤄야 하는 도메인에선 강화학습 알고리즘은 비효율적인 학습 방법이 되므로 다른 최적화 기법을 시도해야 한다. 이러한 관점에서 확률적 최적화에 관심 있는 전공자는 파웰^powell의 <Reinforcement Learning and Stochastic Optimization>[21]을 보길 권한다.

필자는 확률론 전공자들에겐 멀티암드밴딧^{multi-armed bandit} 분야 연구도 추천한다. 밴딧 문제는 강화학습의 한 분야로서 마코브 결정 과정^{Markov decision process}에서 상태^state가 한 개인 경우를 말한다. 상태가 하나라서 단순한 문제 같지만 그만큼 여러 가지 변형 문제들이 존재하기 때문에 활용 가치가 높은 분야이다. 또한 강화학습 알고리즘을 연구할 때 최적 성능을 달성하려면 선택 가능한 행동^action 가운데서 탐색^exploration & 활용^exploitation 딜레마를 극복하는 것이 중요한데, 밴딧 문제는 이를 해결하기 위한 시범 분야로 적절하며 수학적 분석을 통해 알고리즘의 효율성을 탐색하는 연구가 활발하다.[16] 또한 밴딧 알고리즘은 이미 추천 시스템이나 검색 엔진에서 활발히 사용되고 있고, 현업에서 A/B 테스트의 비용을 줄이고 효율적인 실험계획을 디자인할 때 적용하고 있다. 최근에는 딥러닝과 밴딧 알고리즘을 결합한 딥 밴딧^DeepBandit 연구도 활발하니, 확률론 전공자들에겐 래티모어^Lattimor와 세페스바리^Szepesvári의 책 <Bandit Algorithms>[14]을 강력하게 추천한다.

딥러닝 연구가 활발해지면서 모델 패러미터^parameter 최적화는 경사하강법^{gradient descent}같은 미분 기반 방법론을 많이 사용하고 있다. 그러나 신경망 층^layer 숫자나 합성곱신경망^{Convolutional Neural Net}에서 필터 크기 같은 하이퍼파라미터들은 이산공간^{discrete space}에서 최적값을 찾아내야 하므로 미분 기반 방법론을 사용하는 것이 어렵고 근사적인 방법을 취해야 한다. 위에서 소개한 베이지안 방법론은 머신러닝에서 불확실성^uncertainty 측정 때문에 주목을 받고 있는데, 이를 이용해 해석적 정보를 알 수 없는 목적 함수들을 최적화하는데 적용될 수 있다.이 분야를 블랙박스 최적화^{black-box optimization}라 하는데, 인공지능 및 로보틱스 연구에서 하이퍼파라미터^{hyperparameter} 최적화에 많이 적용된다.[17] 이처럼 이산 최적화^{discrete optimization} 연구는 머신러닝에서 중요한 주제이다. 당연하다시피 이산공간에선 미분을 계산하는 것이 불가능하므로 경사하강법 같은 기법들을 적용하기 쉽지 않다. 산업공학과 교과목 중 조합적 최적화^{combinatorial optimization}에서 이런 최적화 문제들의 해결 방법들을 가르치고 있다. 그중에서 서브모듈러^submodular 함수의 최적화 방법론은 많은 응용 가능성을 가지고 있다.

서브모듈러^submodular 함수는 집합 함수^{set function}로서 임의의 두 집합 \(X,Y\)에 대해 \(f(X)+f(Y)\geq f(X\cap Y)+f(X\cup Y)\) 성질을 만족해야 한다. 서브모듈러 함수는 볼록^convex 또는 오목^concave 함수와 매우 비슷한 성질들을 공유하기 때문에 부분경사^subgradient를 활용하여 최적화 문제를 풀 수 있다. 이런 최적화 문제는 대규모 스케일에서 군집화^clustering 알고리즘, 추천시스템^{recommender system}, 정보검색^{information retrieval} 알고리즘 같은 문제들에 적용할 수 있다. 필자가 공부한 책은 후지시게^Fujishige의 <Submodular Functions and Optimization>[8]이며, 머신러닝 분야에 적용한 연구들은 NeurIPS, ICLR, ICML, KDD 같은 머신러닝 및 데이터마이닝 최고 학회에서 관련 논문들을 찾을 수 있으니 수학도라면 적극적으로 공부해보는 것을 추천한다.

계산기하학^{Computational Geometry}

개인적인 경험으로 다른 인공지능 연구 분야보다 수학적 지식이 가장 요구되는 영역은 위에서 언급한 확률론적 최적화와 계산기하학이라 생각한다. 필자는 수학과를 졸업한 뒤 주로 로봇공학자들과 의료인공지능 연구자들과 공동연구를 진행하고 있다. 의료 인공지능 연구 분야에선 일반 사진 영상보다 데이터 수집 및 정제가 더 어려운 데이터를 다루기 때문에 데이터를 어떻게 효율적으로 사용해서 학습할지 연구가 필요하다면, 로봇공학에선 로봇의 움직임 및 의사결정이 주 연구 대상이 되는 경우가 많아서 기하적인 문제들을 함께 고민해야 한다.

로봇은 주변 환경을 센서로 인식한 상황에서 어떻게 움직일지 (또는 반응할지) 효율적이면서 안전하게 의사결정을 내려야 한다. 이러한 문제들도 최적제어 혹은 강화학습 문제에 해당하는데, 일반 컴퓨터와 달리 로봇공학에선 실제 환경에서 연속적으로 동작하는 로봇을 상정하기 때문에 알파고가 시뮬레이션에서 반복해서 훈련하듯 로봇을 반복해서 학습시키는 것은 비용, 안전, 효율성 측면에서 쉬운 일이 아니다. 이를 해결하려면 탐색공간^{search space}을 충분히 줄이고 적절한 제약조건을 걸어야 하는데, 상당수가 기하적인 문제들로 귀결되며 이를 알고리즘으로 해결하려면 계산기하학 전공자가 큰 역할을 한다.

필자가 최근에 연구하는 분야는 기하적 환경에서 고차원 제어변수들을 가지고 계획수립 알고리즘을 개선하는 것이다.[12] 또한 계산기하는 인공위성 데이터나 공간 데이터를 다룰 때 큰 도움이 되기 때문에 교통이나 물류 관련 머신러닝 연구를 하기 위해선 반드시 알아야 한다. 계산기하학은 전산학과에선 흔히 배우는 교과목이지만 국내 수학과에서 가르치는 경우는 카이스트나 포항공대 정도로 알고 있다. 수학 전공자에게 주로 추천하는 교재는 드 버그^{De Berg}등이 공저한 <Computational Geometry>[5]이다.

기하학적 딥러닝^{geometric deep learning}은 주목받은 지 얼마 안 된 신생 분야이다. 아직 적절한 교재는 없지만 여러 학회에서 튜토리얼들이 공개되어 있고 활발하게 논문들이 나오고 있다. 입문자에게는 브론스타인^Bronstein등의 논문들[2]을 추천한다. 기하학적 딥러닝은 크게 두 분야로 나눌 수 있는데 하나는 그래프 데이터를 다루는 그래프 신경망^{graph neural network} 분야이고, 다른 하나는 3차원 다양체^manifold 데이터를 다루는 3D 딥러닝이다. 다양체 데이터는 흔히 복셀^voxel, 메쉬^mesh, 포인트클라우드^{point cloud}로 표현하는데, 이들 데이터에서 동작하는 딥러닝은 특히 의료와 로봇공학에서 큰 가치를 가지고 있으며, 필자는 수학도들이 크게 활약할 수 있는 분야로 기대하고 있다. 계산기하와 딥러닝에 관심 있는 수학도라면 기하학적 딥러닝도 같이 공부하는 것을 추천한다.

인과학습^{Causal Learning}

인과학습 또는 인과추론^{causal inference} 분야는 본래 역학^epidemology과 유전학^genetics에서 독립적으로 출발했으나 통계학과 전산학의 발전에 힘입어 최근 인공지능 연구자들이 주목하고 있는 연구 분야이다. 인과학습은 단순히 철학적인 주제가 아니라 알고리즘을 통해 데이터 분포의 생성 과정을 유추할 수 있는 방법론을 추구한다.

인과적^causal이란 용어는 확률분포를 생성하는 함수적 구조를 의미하며 모듈성^modularity 가정에 의해 데이터 생성과정에서 불변^invariant이라고 간주하는 것이다. 만일 \(X\)가 원인이고 \(Y\)가 결과라면, \(X\)에 변화를 가했을 때 그만큼 \(Y\)의 확률분포도 변하는 건 자명하지만, \(Y\)에 인위적인 조작^intervention을 가했을 때는 인과구조의 불변성에 의해 \(X\)의 확률분포는 조작 전후로 변하지 않을 것이다. 인과학습은 두 확률변수 \(X,Y\)의 데이터를 가지고, 인과적으로 \(X\rightarrow Y\)인지 \(Y\rightarrow X\) 인지 구조적 관계를 추론하는 것이다.

변수가 두 개인 경우는 비교적 단순한 문제처럼 보이지만, 사실 이 문제는 함수적 구조와 확률밀도 함수로 이루어진 미분방정식의 가해성^solvability과 연결되는 흥미로운 수학적 문제이다.[10] 다변수 모형에선 고려해야 하는 경우의 수가 기하급수적으로 증가하기 때문에 통계적인 난제가 된다. 그러므로 인과학습의 핵심은 축적된 도메인 지식을 바탕으로 데이터에서 추론할 수 있는 가능한 인과관계 구조들을 찾는 것이다.

인과학습에서 다루는 문제는 예측력에 초점을 두는 머신러닝과 목적이 다르며, 단순히 데이터를 많이 모은다고 해결되는 문제가 아니므로 컴퓨터로 하여금 데이터 구조를 추론할 수 있도록 메타 학습^{meta learning} 기반 접근이 필요하다. 해당 접근에 대해 관심 있는 독자는 요슈아 벤지오^{Bengio, Y.}의 ICLR 논문[1]을 읽어보는 걸 추천한다. 이미지나 텍스트 같은 고차원 비정형 데이터를 기반으로 인과학습 알고리즘을 수행하는 것은 새로운 방법론 연구가 필요하다. 필자는 인과학습을 인공지능 코어 분야 연구의 핵심 과제로 생각하고 있으며 학생들과 주로 이 분야를 연구하고 있다. 인과학습은 의료나 공공정책 분야 외에 로봇공학에서도 중요한 역할을 차지할 것으로 기대한다.

국내에서 인과학습을 가르치는 대학교는 통계학과를 제외하면 거의 없으며, 특히 머신러닝 관점에서 연구하는 곳은 드문 편이다. 필자는 잠재 결과^{potential outcome} 모형과 더불어 그래프 모형 기반 인과학습 방법론 및 알고리즘을 학부 과목에서 가르쳐야 한다고 생각한다. 확률 그래프 모형에 진지하게 관심 있는 수학도들에겐 분량의 압박은 있지만 프리드만^Friedman과 콜러^Koller의 저서 <Probabilistic Graphical Model>[13]과 펄^Pearl의 <Causality>[18]를 일독하길 권한다. 최근 인과학습 연구 결과에 관심있는 수학도라면 피터스^Peters 등이 공저한 <Elements of Causal Inference>[20]이 있으니 추천한다. 조금 더 쉬운 책을 찾는 독자라면 펄^Pearl 등이 공저한 <Causal Inference in Statistics>[19]을 추천한다.

그 외

위에서 소개한 분야들은 이미 수학적 기초가 확립된 분야로서 인공지능 연구에서 그 가치를 인정받은 분야이다. 그 외 신생 분야는 유용성에 대해 추가적인 검증이 필요하나 잠재력이 상당히 크므로 도전적인 연구 분야로 추천한다. 그중에서도 특히 인공지능 연구자들은 미분방정식을 신경망과 결합한 뉴럴미분방정식^{neural differential equation} 연구의 발전에 주목하고 있으며 유수의 수학자들도 이 분야에 뛰어들어서 연구를 진행하고 있다. 해당 분야에 대한 연구는 [3][11]을 참조하길 바란다.

맺음말

필자는 현재 인공지능대학원 소속이지만 기회가 될 때마다 국내 수학과에 변화의 필요성을 호소하고 있다. 대학에서 우수한 수학자를 길러내는 것도 필요하지만, 산업에서 활약할 수 있는 소양을 가진 수학도를 양성하는 것도 그에 못지 않게 중요하다. 수학과 학생들이 업계에 적응하려면 프로그래밍 기초를 갖출 수 있도록 지원이 필요하며 실무에서 사용 가능한 기초 커리큘럼 개발도 계속되어야 한다.

오늘날 인공지능 분야는 변화가 매우 빠른 분야이다. 날마다 새로운 아이디어들이 튀어나오고 재검증 받다보니 어떤 분야를 집중해서 공부해야 할지 결정하기 쉽지 않다. 그러나 어떤 분야이든 탄탄한 기초에서 새로운 아이디어가 도출된다. 위에서 소개한 분야들은 최근 딥러닝의 눈부신 발전과 더불어 여러 인공지능 연구에서 중요성을 조명 받고 있는 기초 분야이다. 온라인에서 흔히 접할 수 있는 커리큘럼이 아니라 실용적이고 차별화된 기초 수학 교과목을 개발하여 교육한다면, 앞으로 인공지능 분야에서 수학도들의 활약을 기대할 수 있다는 주장으로 본 글을 마무리하고자 한다.

참고문헌

Bengio, Y., Deleu, T., Rahaman, N., Ke, N. R., Lachapelle, S., Bilaniuk, O., Goyal, A., and Pal, C. (2020). A meta-transfer objective for learning to disentangle causal mechanisms.In International Conference on Learning Representations.
Bronstein, M. M., Bruna, J., LeCun, Y., Szlam, A., and Vandergheynst, P. (2017). Geometric deep learning: going beyond euclidean data. IEEE Signal Processing Magazine, 34(4):18–42.
Chen, R. T., Rubanova, Y., Bettencourt, J., and Duvenaud, D. K. (2018). Neural ordinary differential equations. In Advances in neural information processing systems, pages 6571–6583.
Cox, D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society: Series B (Methodological), 34(2):187–202.
De Berg, M., Van Kreveld, M., Overmars, M., and Schwarzkopf, O. (1997). Computational geometry. In Computational geometry, pages 1–17. Springer.
Efron, B. and Hastie, T. (2016). Computer age statistical inference, volume 5. Cambridge University Press.
Friedman, J., Hastie, T., and Tibshirani, R. (2001). The elements of statistical learning, volume 1. Springer series in statistics New York.
Fujishige, S. (2005). Submodular functions and optimization. Elsevier.
Ghosal, S. and Van der Vaart, A. (2017). Fundamentals of nonparametric Bayesian inference, volume 44. Cambridge University Press.
Hoyer, P. O., Janzing, D., Mooij, J. M., Peters, J., and Schölkopf, B. (2009). Nonlinear causal discovery with additive noise models. In Advances in Neural Information Processing Systems 21, pages 689–696.
Jia, J. and Benson, A. R. (2019). Neural jump stochastic differential equations. In Advances in Neural Information Processing Systems, pages 9847–9858.
Kim, B., Lee, K., Lim, S., Kaelbling, L. P., and Lozano-Pérez, T. (2020). Monte carlo tree search in continuous spaces using voronoi optimistic optimization with regret bounds. In AAAI, pages 9916–9924.
Koller, D. and Friedman, N. (2009). Probabilistic graphical models: principles and techniques. MIT press.
Lattimore, T. and Szepesvári, C. (2020). Bandit algorithms. Cambridge University Press.
LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. nature, 521(7553):436–444.
Lee, K., Yang, H., Lim, S., and Oh, S. (2020). Optimal algorithms for stochastic multi-armed bandits with heavy tailed rewards. In Advances in neural information processing systems. Accepted.
Lim, S., Kim, I., Kim, T., Kim, C., and Kim, S. (2019). Fast autoaugment. In Advances in Neural Information Processing Systems, pages 6665–6675.
Pearl, J. (2009). Causality. Cambridge university press.
Pearl, J., Glymour, M., and Jewell, N. P. (2016). Causal inference in statistics: A primer. John Wiley & Sons.
Peters, J., Janzing, D., and Schölkopf, B. (2017). Elements of causal inference. The MIT Press.
Powell, W. (2020). Reinforcement Learning and Stochastic Optimization: A unified framework for sequential decisions.
Shin, M., Cho, H., and Lim, S. (2020). Neural bootstrapper. arXiv preprint arXiv:2010.01051.