2016년 3월, 구글 딥마인드(DeepMind)가 만든 바둑 AI 「알파고(AlphaGo)」가 한국의 이세돌 9단을 5번 대국에서 4승 1패로 꺾었습니다.
이 사건은 「바둑은 AI가 정복하기에는 너무 복잡한 게임」이라는 오랜 통념을 깬 결정적 순간으로 기록됩니다.
체스는 1997년 IBM의 「딥 블루」가 카스파로프를 이기며 이미 AI에 자리를 내준 상태였습니다.
그러나 바둑은 한 수마다 가능한 선택의 수가 약 250가지에 달하고, 한 판이 보통 150수 정도 진행되기 때문에 가능한 경우의 수가 우주의 원자 수보다 많은 것으로 알려져 있었습니다.
그래서 「체스가 사칙연산이라면 바둑은 미적분」이라는 비유가 자주 쓰였습니다.
알파고는 이 거대한 탐색 공간을 단순한 무차별 계산으로 풀지 않았습니다.
「정책 신경망(policy network)」으로 「둘 만한 수」의 후보를 좁히고, 「가치 신경망(value network)」으로 「그 자리가 얼마나 유리한지」를 가늠한 뒤, 몬테카를로 트리 탐색(MCTS)이라는 무작위 시뮬레이션을 결합해 최선의 수를 찾았습니다.
특히 두 번째 대국 37수에서 알파고가 둔 「어깨짚기」는 인류 바둑의 1,500년 기보에서 거의 보이지 않은 수였습니다.
해설진은 처음 「실수」라 평가했지만, 이후 그것이 결정적인 호수였음이 드러났습니다.
「AI가 사람의 직관을 넘어선 새로운 수를 둘 수 있다」는 강한 신호였습니다.
알파고의 의의는 단순한 한 게임의 승리가 아니라 「강화학습 + 신경망 + 대규모 셀프 플레이」 조합의 위력을 보여 준 사건이라는 점입니다.
이후 등장한 AlphaZero(체스·장기·바둑 모두 정복), AlphaFold(단백질 구조 예측), AlphaStar(스타크래프트2)는 모두 알파고가 닦아 놓은 길의 후속편입니다.
한 줄 요약
알파고의 4승 1패는 「AI가 사람의 직관을 넘는 수를 둘 수 있다」를 처음 보여 준 사건이며, 강화학습·신경망·셀프 플레이 조합의 위력을 입증한 분기점이었습니다.
더 알아볼 것
- AlphaZero — 사람의 기보 없이 스스로 바둑을 익힌 후속작
- 몬테카를로 트리 탐색(MCTS)의 원리
- AlphaFold — 단백질 구조 예측의 혁명