컴퓨터 일본장기에 딥러닝을 적용하기 위해

서론

이전 포스팅에서 컴퓨터 일본장기(쇼기)와 알파고의 인공지능 기술에 대해 다뤘는데, 이번에는 쇼기 AI 포난자(Ponanza)가 딥러닝을 어떻게 적용했는지, 그리고 그 구조와 가능성에 대해 알파고의 사례와 비교하며 정리해보려 합니다.

딥러닝 적용의 핵심: 정책 네트워크

전왕전 인터뷰에서 프로 기보와의 일치율을 언급한 점을 보면, 포난자가 학습에 중점을 둔 부분은 평가 함수가 아니라 정책 네트워크(Policy Network)로 보입니다. 이는 알파고처럼, 장기판의 형세 정보를 입력받아 다음 수의 확률 분포를 출력하는 신경망을 설계한 것입니다.

입력 데이터 설계

일본장기는 바둑보다 기물 종류가 많고 규칙이 복잡해, 입력 데이터 설계가 더욱 까다롭습니다.

  • 기물 종류: 승격 여부까지 포함하면 14종의 기물을 각각 9x9 좌표에 매핑해야 합니다.
  • 수중 기물: 잡은 기물을 다시 둘 수 있는 규칙 때문에, 별도의 벡터로 보유 기물을 표현해야 합니다.
  • 추가 특징: 2보(二歩)와 같은 반칙 가능성, 왕의 안전도, 공격/수비 라인 등 장기만의 전략적 특징도 입력에 포함시키는 것이 바람직합니다.
  • 입력 채널: 실제로 최근 연구에서는 23채널 이상의 입력 구조가 사용되기도 합니다.

출력 구조

출력 역시 바둑과는 다릅니다. 알파고는 19x19의 각 위치에 돌을 놓는 확률만 예측하면 되지만, 쇼기는 어느 기물을 어느 위치에서 어디로 옮길지, 승격 여부, 그리고 수중 기물 투입까지 고려해야 합니다.

  • 출발 좌표도착 좌표를 각각 81차원 소프트맥스 출력
  • 승격 여부는 2차원 시그모이드 출력
  • 수중 기물 사용은 7차원 소프트맥스 등으로 분리해 출력

신경망 아키텍처

신경망의 구조는 알파고의 13층 컨볼루션 네트워크를 참고하되, 최근에는 ResNet 계열의 잔차 블록을 쌓아 더 깊은 네트워크로 공간적 패턴을 효과적으로 학습하는 경향이 있습니다. 풀링 레이어는 위치 정보를 보존하기 위해 생략하는 것이 일반적입니다.

  • VGGNet, ResNet, DenseNet 등 다양한 구조가 실험되었으며, ResNet이 가장 높은 정확도와 빠른 학습 속도를 보인다는 결과도 있습니다.

학습 과정

학습은 크게 세 단계로 진행됩니다.

  1. 지도학습: 프로 기사들의 기보 수십만 판을 이용해 지도학습을 실시합니다.
  2. 강화학습: AI 스스로 자기 대국을 반복하며 강화학습을 진행합니다.
  3. 미세 조정: 인간과 AI의 대국 데이터를 추가해 실전에서의 성능을 높입니다.

알파고의 경우 policy network 학습에 50개의 GPU로 3주가 걸렸지만, 최근 쇼기 AI는 하드웨어와 알고리즘의 발전 덕분에 더 빠른 수렴 속도를 보이고 있습니다.

실전 적용: 하이브리드 탐색

실전에서는 정책 네트워크가 후보 수를 좁혀주고, 몬테카를로 트리 탐색(MCTS)으로 깊이 있는 수읽기를 수행한 뒤, 가치 네트워크(Value Network)로 각 국면의 승률을 평가하는 하이브리드 방식이 주로 사용됩니다.

이 구조는 기존의 전통적인 탐색 알고리즘에 비해 연산량을 크게 줄이면서도, 더 높은 승률을 기록합니다. 실제로 최신 쇼기 AI는 프로 기사와의 대국에서 85% 이상의 승률을 기록하며, 인간을 능가하는 실력을 보여주고 있습니다.

결론

딥러닝만으로는 쇼기 특유의 깊은 수읽기를 완전히 대체할 수 없으므로, 정책 네트워크와 가치 네트워크를 전통 탐색과 결합하는 것이 필수적입니다. 예를 들어, 정책 네트워크는 가지치기에, 가치 네트워크는 탐색 말단의 평가 함수로 사용하면, 딥러닝과 기존 탐색의 장점을 모두 살릴 수 있습니다.

이처럼 컴퓨터 쇼기 분야에서도 알파고의 혁신이 빠르게 흡수되고 있으며, 앞으로는 딥러닝 기반의 AI가 쇼기 연구의 중심이 될 것으로 기대됩니다. 앞으로 포난자를 비롯한 다양한 쇼기 AI가 알파고처럼 논문과 기술을 공개해 주기를 바랍니다. 그렇게 된다면, 내년의 컴퓨터 쇼기 대회는 딥러닝의 열풍으로 가득할지도 모릅니다.


이 글은 최신 연구 동향과 실제 구현 사례를 바탕으로 재구성하였으며, 기술적 정확성과 독자의 이해를 함께 고려하였습니다. 추가적으로 궁금한 점이나 보완이 필요한 부분이 있다면 언제든 말씀해 주세요.