JBT 웹진 - Enjoy the Best

본 웹진은 Chrome 및 IE10
이상에 최적화 되어 있습니다.

이세돌 VS 알파고

지난 3월 9일 이세돌 9단과 인공지능 알파고의 첫 대국이 열렸습니다. 대국 전 이세돌은 5승 이나 4승 1패 정도로 자신이 이길 것이라고 강한 자신감을 보였습니다. 하지만 대국이 진행됨에 따라 이세돌은 점점 수세에 몰리고 표정도 어두워졌습니다. 결국 알파고가 불계승을 하며 바둑을 관전하던 시청자들에게 큰 충격을 주었습니다. 5국까지 모두 끝난 지금 이세돌은 1승 4패라는 자신의 예상과는 반대인 결과를 얻었습니다.

그림입니다.
원본 그림의 이름: 1국.jpg
원본 그림의 크기: 가로 460pixel, 세로 477pixel

< 제 1국 >

알파고는 이전 이세돌과의 대국 전에도 유럽 챔피언인 판 후이 2단과 대국을 했으며 5전 전승으로 대국을 마무리 지었습니다. 이 결과로 판 후이는 한 때 평가가 낮아졌지만 이세

돌과 알파고의 대국 이 후 재평가를 받게 됐습니다.

그림입니다.
원본 그림의 이름: 2국.jpg
원본 그림의 크기: 가로 660pixel, 세로 721pixel

< 제 2국 >

인공지능이 사람과의 게임에서 승리한건 이번이 처음이 아닙니다. 1994년 체커스 게임으로 세계챔피언을 차지하고 3년 후 세계 체스 챔피언인 Grary Kasparov를 상대로 승리를 차지했습니다. 당시까지의 인공지능은 모든 경우의 수를 계산하여 다음 수를 진행 하였기에 경우의 수가 유한한 경우엔 게임을 진행 할 수 있었습니다. 하지만 바둑의 경우는 그런 접근방식으론 게임을 진행할 수 없습니다. 이를 해결하기 위해 알파고는 가치망과 정책망, Monte Carlo Simulation을 이용해 절대적인 승리의 수가 아닌 현재 상황에서 가장 승리할 확룰이 높은 수를 계산하여 한 수 한 수 진행해 나갔습니다. 가치망은 현재 국면에서 이길 확률을 계산하고 탐색과정이 없어 결

과가 순식간에 나옵니다. 정책망은 바둑판을 인식하여 다음 수에 대한 각 위치의 점수를 계산합니다. 역시 순식간에 계산이 끝납니다.

가장 계산이 오래 걸리는 몬테 카를로 시뮬레이션은 주로 값이 확률적이거나 답이 정해진 경우가 아닌 경우 근사적으로 답을 추정 할 때 사용되는데, 알파고의 경우 미리 계산한 점수와 비교하여 계산 시간을 줄이는 방법을 사용합니다.

그림입니다.
원본 그림의 이름: montecarlo.gif
원본 그림의 크기: 가로 220pixel, 세로 220pixel

< Monte Carlo Simulation >

하지만 이 경우 초기값에 따라 승리할 수 있는 확률이 달라집니다. 이 확률을 높이기 위해 빅데이터를 이용한 기계학습을 이용합니다. 알파고는 공개서버에서 플레이된 기보 중 6단부터 9단까지의 게임 3천만 수를 가져와 정책망을 학습시키는데 교사학습(데이터로부터 함수를 유추)방법으로 진행됩니다. 이후 훈련된 정책망들을 대결시켜 정책망의 성능을 개선시키는데 강화학습(결과를 누적시켜 다음

결과를 최대화)으로 진행됩니다. 다시 자신의 대전 기록을 복기하며 강화학습을 통해 가치망의 성능도 개선시킵니다. 즉, 초기 1회 학습이외엔 다른 기보 데이터 없이 스스로 학습을 통해 진화하는 방식을 사용하였습니다. 이러한 알파고의 학습 방식은 딥 큐 러닝을 사용합니다. 동영상은 딥 큐 러닝 방식을 이용해 게임화면을 제시하고 최고 점수를 내라는 목표를 가지고 백지상태의 알파고를 학습시킨 내용입니다.

1국의 패배 이 후 이세돌은 알파고를 쉽게 생각하지 않고 대국에 임했지만 2, 3국도 역시 알파고에게 패하였습니다.

그림입니다.
원본 그림의 이름: 3국.jpg
원본 그림의 크기: 가로 611pixel, 세로 724pixel

< 제 3국 >

그렇게 5전을 모두 패로 마무리가 될 것 같은 분위기 속에서 치러진 4국에서 드디어 알파고에게 1승을 따게 됩니다. 신의 한수라 불리는 78수 이전엔 이세돌의 백이 한참 밀리는 형국이었고 알파고

의 계산 역시도 자신의 승률을 70%이상으로 예상하고 있었습니다.

하지만 78수가 나오며 알파고가 이상한 수를 두기 시작합니다. 학습에 의해선 나올 수 없는 수였기에 애초에 계산에 넣지 않았는데 의외의 수가 나오며 자멸에 빠진 것입니다. 이 수를 위해 이세돌은 7분을 투자했지만 알파고는 전과 같은 시간을 투자했습니다. 여기서 승부가 갈리게 되며 결국 4국에선 이세돌이 불계승 하였습니다. 학습과정에서 이 수가 배제되어 버렸고 결국 이것이 알파고의 패배로 이어진 것입니다.

그림입니다.
원본 그림의 이름: 4국.jpg
원본 그림의 크기: 가로 620pixel, 세로 692pixel

< 제 4국 >

이 승리 후 이세돌은 5국에 흑을 잡고 다시 알파고에게 도전하지만 결국 패배로 마지막 대국을 마무리 하게 됩니다. 이 후 바둑 말고도 다른 게임에도 인공지능이 사람에게 도전할 수 있지만 아직 어떤 분야로 도전할진 정해지진 않았습니다.

그림입니다.
원본 그림의 이름: 5국.jpg
원본 그림의 크기: 가로 616pixel, 세로 725pixel

< 제 5국 >

인공지능이 사람을 능가하는 부분은 갈수록 늘어날 것입니다. 이미 계산 영역에선 컴퓨터를 사람이 따라잡지 못하지만 인공지능에 대해선 다르게 바라 볼 수 있지 않을까? 싶습니다. 알파고가 바둑을 학습한 시간을 인간에게 적용하면 1000년에 해당하는 기간 동안 학습했다고 합니다. 이세돌이 살아온 시간보다 많은 시간을 바둑 학습에 투자한 샘입니다. 이 정도 시간을 투자한다면 오히려 1승을 따낸 이세돌 쪽이 대단하다고 할 수 있습니다. 이번 대국을 통해 구글은 자신들의 기술력을 세상에 알렸다면 이세돌은 여태껏 상대하지 못한 대상과 대국을 하며 새로운 길을 보게 되었을지도 모르겠습니다. 어쩌면 이후로는 사람과 사람의대국은 실전에서만 하고 인공지능과의 대국을 통해 연습을 해 실력은 늘리지 않을까 생각합니다.