‘디플로머시’에서 인간 수준의 성능 달성

시세로의 채팅 대화 상자가 포함된 디플로머시 온라인 게임의 스크린샷 (사진=메타)
시세로의 채팅 대화 상자가 포함된 디플로머시 온라인 게임의 스크린샷 (사진=메타)

7명의 플레이어 간의 협력과 경쟁이 포함된 전략 보드 게임 디플로머시(Diplomacy)에서 인간 수준의 성능을 달성한 최초의 AI 에이전트 ‘시세로(Cicero)’를 개발했다고 메타가 22일(현지시간) 공식 블로그에 발표했다.

지금까지 디플로머시는 AI 시스템이 플레이하기에는 너무 어렵다고 여겨졌다. 2명에서 7명의 플레이어가 승리하기 위해 서로 동맹하고 협상해야 하는 게임이다. 또 각 플레이어는 다른 플레이어가 어떤 움직임을 보일지 예측해야 한다. 결정적으로 플레이어는 다른 플레이어를 속이려고 시도할 수도 있다. 디플로머시는 누구도 믿을 수 없는 환경에서 다른 플레이어들과 신뢰를 구축해야하기 때문에 특히 어렵다

AI가 디플로머시에서 승리하려면 게임의 규칙을 효율적으로 이해해야 할 뿐만 아니라 인간의 상호 작용, 속임수 및 협력을 근본적으로 이해하고 전략적인  대화를 할 줄 알아야 한다.

메타는 인간이 플레이하는 4만개의 디플로머시 게임 데이터 세트에서 시세로를 훈련했다. 그 결과 시세로는 40개의 온라인 디플로머시 게임에서 인간 플레이어의 평균 점수의 2배를 기록했으며 한 개 이상의 게임을 플레이한 플레이어 중 상위 10%에 들었다.

메타에 따르면 시세로는 두 가지 구성 요소로 구성된다. 첫 번째 구성 요소는 게임 중에 AI 시스템이 수행해야 하는 단계를 계획하는 역할을 한다. 두 번째 구성 요소는 자연어 텍스트를 생성해 다른 플레이어와 협력한다.

연구원들은 "시세로는 자연어를 사용해 디플로머시에서 사람들과 협상하는 데 매우 효과적이어서 종종 다른 인간 플레이어보다 시세로와 함께 일하는 것을 선호했다"고 설명했다.

시세로는 다단계 프로세스를 통해 주어진 라운드에서 수행해야 하는 동작을 결정한다. 먼저 시세로는 게임의 현재 상태를 평가하고 다른 플레이어가 취할 조치를 예측한다. 그런 다음 이 예측을 사용해 승리 가능성을 극대화하기 위해 수행해야 하는 움직임을 식별한다. 거기에서 시세로는 동맹을 맺은 플레이어에게 계획을 알린다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • AI, 브리지 게임에서 인간에 압승
  • 딥마인드 바둑 기사 '뮤제로'...유튜브 비디오 압축 기사로 변신
  • 소니 AI 레이서 '소피'...레이싱 게임에서 인간에 압승