영화를 통해 보는 인공지능 이야기

영국 텔레비전 공상과학영화 시리즈로 인기를 끄는 <블랙 미러 Black Mirror>. <블랙 미러> 두 번째 시리즈의 첫 번째 에피소드 “곧 돌아올게 Be Right Back”가 오늘 이야기의 주제이다. 여주인공 마타는 남편 애쉬를 자동차 사고로 잃는다. 임신 사실을 뒤늦게 알게 된 마타는 슬퍼하며 시간을 보내던 중 새로운 온라인 서비스를 발견한다. 새로운 온라인 서비스는 애쉬가 남긴 모든 온라인 정보를 이용하여 애쉬를 온라인상으로 복제해낸다. 애쉬가 트위터에 남긴 말 등 온라인에 남아있는 모든 정보를 이용하여 그와 매우 흡사한 온라인상의 존재가 탄생한다. 마타는 마치 죽은 남편이 되살아난 듯 그와 채팅을 하며 하루하루를 보낸다. 여기서 잠깐. 그렇다면 완전하지는 않더라도 이와 비슷한 기술이 현재에도 존재하는가? 그렇다. 흔히들 챗봇^ChatBot이라고 부르는 것이 그 예다. 챗봇과 대화를 해보면 마치 사람하고 대화하는 것처럼 느껴지지만 사실 상대방은 컴퓨터이다. 챗봇을 훈련 시킬 때 특정인에 대한 정보가 정말 충분하다면 영화 속의 이야기가 마냥 불가능한 것은 아니다. 여기에는 어떤 기술이 들어 있을까.

인공지능기술에는 사물인식과 음성인식처럼 패턴을 인식하는 기술이 있고 또 없던 것을 생성하는 기술이 있다. 후자인 생성 모델을 통해 존재하지 않던 이미지를 생성하기도 하고 새로운 곡을 작곡할 수도 있다. 셰익스피어의 소설이나 바흐의 음악으로 훈련된 생성 모델이 만들어내는 작품을 보면 웬만한 전공자가 아니면 그 작품이 실제로 존재하는 것인지 만들어진 것인지 구분하기 힘들 정도다. 이런 생성 모델을 언어에도 적용할 수 있다. 이때 자연어(컴퓨터 프로그램 언어와 차별을 두기 위해 인간 언어를 이렇게 부름)를 수치화하여 벡터의 형태로 표현한다. 예를 들어 안경 쓴 남자를 (0.7, 1.1)로 표현하고 안경이 (0.1, 0.6) 이라고 수치화돼있다고 하자. 심지어 연산까지 가능하다. 즉 안경 쓴 남자 − 안경 = (0.7 − 0.1, 1.1 − 0.6) = (0.6, 0.5) 가 되겠다. 이때 (0.6, 0.5)를 찾아보면 남자라는 단어가 매칭 되어 있다. 자연어를 컴퓨터로 처리하여 챗봇을 만드는 과정에는 2014년 뉴욕대학의 조경현 교수가 만든 시퀀스투시퀀스^Seq2seq라는 기술이 사용된다. 자세한 이야기는 뒤로 미루고 다시 영화로 들어가 보자.

마타는 애쉬와 단순히 채팅만 하는 것이 아니라, 애쉬의 외모와 목소리를 완벽하게 복제해 애쉬와 구분이 안 되는 안드로이드(인간 모방 로봇)를 갖게 된다. 이제 죽은 남편이 되살아난 것이다. 그런데 안드로이드 애쉬는 잠을 자지 않는다. 휴식이 필요가 없으니까. 또한 진짜 애쉬였으면 때때로 부탁을 들어주지 않는 경우도 있었는데, 안드로이드 애쉬는 모든 것을 다 들어준다. 다 들어줘도 문제인가 보다. 마타는 말을 너무 잘 듣는 애쉬를 가짜라고 느끼고 점점 마음이 멀어진다. 마타가 안드로이드 애쉬에게 절벽에서 뛰어내리라고 명령하자 로봇 애쉬는 정말로 절벽에서 뛰어내리려고 한다. 진짜 애쉬였으면 당연히 거부했을 것이다. 영화는 거기서 끝나지 않고 7년 후 모습을 보여준다. 마타는 안드로이드 애쉬를 다락방에 가둬두고 7살 난 딸아이가 주말에만 안드로이드 애쉬를 만날 수 있게 해준다. 영화는 그렇게 끝난다.

영화에서는 아무리 인간과 유사하게 복제가 가능할지라도 자유의지가 느껴지지 않으면 인간처럼 느껴지지 않는다고 말하고 있는데, 그렇다면 자유의지는 복제가 불가능한가? 아직은 답을 모른다. 자유의지까지 겸비한 인공지능을 강인공지능 이라고 부르는데, 이러한 강인공지능에 관해 연구하는 연구자들이 있다. 스위스의 위르겐 슈미트후버 교수가 이에 해당한다. 하지만 아직 자유의지를 가진 인공지능이 세상에 나온 것은 아니다.

그렇다면 외모 복제는 그러면 가능한가? 국제 인공지능 컨퍼런스에 가면 다양한 회사들이 참석해 기술을 소개하는데, 일본에서 열심히 개발하고 있고 그 밖의 회사들도 열심히 하고 하지만 아직은 누가 봐도 한 번에 마네킹임을 알 수 있다. 눈동자의 움직임 같은 미세한 차이가 중요할 텐데, 현재 카메라 센서로 상대방 눈의 위치를 찾은 후 마치 상대방 눈을 바라보는 것처럼 눈동자를 움직이게 하는 기술은 가능하다. 눈을 깜빡이는 기술도 가능하지만, 아직은 그래도 기술이 많이 부족해 보인다.

그럼 말투와 목소리는 영화처럼 복제가 가능한가? 대답은 매우 그렇다 이다. 하지만 여기에는 위험한 요소가 포함되어 있다. 사회적 문제와 법적인 문제를 잘 정돈해야 할 텐데, 가령 인공지능 기술이 법을 만드는 사람들 생각보다 더 앞서 있는 경우가 있다. 말투와 목소리를 복제하는 기술을 이용해 보이스 피싱을 할 경우 어떻게 대처할 것인지의 문제, 목소리의 법적 권리 문제 등이 앞으로 정리되어야 할 문제들이다. 이처럼 말투와 목소리를 복제하는 기술을 2017년 구글에서 논문으로 발표했는데 이름을 Tacotron이라 명명했다. 구글의 자유로운 분위기 탓인지 발표자들의 주석은 두 가지로 달렸다. “이 저자들은 타코를 좋아함”. ”이 저자들은 스시를 좋아함”. 본인들이 타코를 좋아해 타코트론이라 명명한 것이다. 이렇게 논문이 나오면 논문을 읽고 컴퓨터 코드를 만들어서 재생할 수 있다. 그것도 그리 쉬운 일은 아니지만. 국내에서는 김태훈 박사가 게임업체에 근무하면서 타코트론을 만들어 깃헙에 올린 일이 있다. 그때 손석희, 박근혜, 문재인 세 사람의 목소리를 흉내 냈는데, 듣기만 해서는 그것이 가짜라는 것을 알 수가 없다. 영화 타짜에 나오는 대사인 “그리고 정마담한테 주려는거 이거이거 이거이거 장짜리 아니여?” 를 문재인 대통령이 말하는데 정말 문재인 대통령 목소리와 말투를 똑같이 구현해낸다. 목소리를 복제하는 것이 법적인 문제가 있을 수 있어서 현재 세 명의 목소리를 흉내 낸 사이트는 폐쇄되어 있지만, 코드 자체는 여전히 공개되어 있어 누구나 목소리와 말투의 복제를 시도해 볼 수 있다. 이 기술을 좋게 사용한다면 <블랙 미러 Black Mirror>처럼 고인의 목소리를 듣고 싶을 때 사용할 수 있을 것이다. 그래서 오늘의 AI 기술은 Tacotron이 되겠다.

Tacotron은 글자가 들어가면 최종적으로 음성이 나오게 하는 음성 합성 기술이다. 글자는 자음 모음 모두 벡터의 형태로 들어간다. ㄱ =[1,0,0,0…,0] , ㄴ= [0,1,0,…,0] 과 같은 식이다. 벡터화된 글자는 신경망으로 들어가는데, 신경망은 모든 뉴런이 다음 층의 모든 뉴런과 연결되어 있는 FCN^{Fully Connected Network}이다. 신경망이 하는 일은 계산할 때 음소의 벡터들을 작업하기 좋은 형태로 바꾸는 것이다. 물론 어떤 것이 좋은지는 스스로 학습한다. 그 다음에는 CBHG^{Convolution Bank Highway network bidirectional GRU}이라 불리는 신경망으로 들어간다.

Convolution Neural Net은 많은 데이터를 효과적으로 특징 추출하는데 쓰이는 신경망으로 요즘엔 모든 딥러닝 기술에 들어간다고 보면 대충 맞는 말이다. 그리고 highway net을 이용하면 학습이 빨리 되는 장점이 있다. 그 이후에 결과가 bidirectional RNN이라는 네트워크로 들어간다. RNN은 Recurrent Neural Network으로 데이터를 주고받는 형태의 구조를 갖고 있다. 이 부분에서 데이터가 소리의 형태로 전환될 특징을 추출한다. 그 후 앞에서 언급한 seq2seq로 넘어간다.

여기서부터 소리로 전환되기 시작한다. 그 결과는 말소리에 매우 가까운 형태가 된다. 이후 또 하나의 CBHG를 통과시키면 스펙트로그램으로 주어진다. 이것은 시간에 따른 주파수 분포인데 이것을 최종적으로 소리로 전환하면 끝난다.

사람을 이해하려는 노력은 사람을 흉내 내는 기술로 이어지게 된다. 이 영화는 어쩌면 기술은 열린 결말을 갖는다는 메시지를 던지고 있다. 대화가 가능한 로봇이 힘든 시간을 보내는 사람에게 친구가 되어줄 수도, 고인을 추억하는 매개가 될 수도, 영화 터미네이터에서처럼 인류의 적이 될 수도 있을 것이다. 많은 사람에게 AI 기술을 전파해 서로가 서로를 견제하게 하여 AI가 주는 미래에 대한 불안 요소를 해소하고자 하는 openAI 같은 비영리 단체도 있다. 인공지능 기능을 많은 사람들에게 공개하고 서로 알아간다면 목소리를 흉내 내서 AI로 보이스 피싱을 하는 조직이 나타나면 자연스럽게 그것을 실제와 구분해내는 AI 기술을 가진 사람도 나타나기 마련이니까. 여러분 주변에도 쉽게 터득할 수 있는 AI 기술들이 많이 있으니 필요한 것을 찾아 공부해 나아가기를.