본문 바로가기

IT&TECH

AI는 어떻게 심리싸움 '뻥카'까지 알았을까

카네기멜론대 리브라투스 "전략적 추론으로 해결" 

리브라투스는 인공신경망을 쓰지 않는 대신 강화학습을 활용

자신이 가진 취약점을 분석해 보완하는 작업

전략 중 취약한 부분을 알고리즘적으로 수정해 매일 개선

불완전한 정보 상황에서 잘못된 정보를 걸러내고 적절한 전략을 자동으로 수정해 나가면서 결정


체스, 퀴즈쇼, 바둑 뿐만 아니었다. 

상대방 심리까지 고려해 베팅을 해야하는 포커 게임에서도 인공지능(AI)이 사람을 넘어설 수 있다는 사실이 증명됐다. 


미국 카네기멜론대가 지난달 11일부터 20일 간 피츠버그 소재 리버스 카지노 호텔에서 개최한 '뇌 vs 인공지능(Brains Vs. Artificial Intelligence)' 대결에서 이 대학 연구팀이 개발한 AI 알고리즘인 '리브라투스(Libratus)'가 무제한 텍사스 홀덤 포커라는 종목에서 4명의 프로 포커 선수들을 제치고 최종 우승을 차지했다. 


AI가 블러핑까지 시도면서 프로 선수들과 경기에서 승리했다.



# AI는 어떻게 포커게임 벽 넘었을까 

기보가 있고, 룰에 따라 어느 정도 다음 수를 좁혀볼 수 있는 체스, 바둑 등과 달리 텍사스 홀덤과 같은 포커게임은 카드가 공개될 때마다 상대방의 심리상태까지 고려해 제한된 정보 안에서 판을 읽을 수 있어야 한다

불완전한 정보를 갖고 게임을 벌이는 만큼 AI가 단순히 연산능력만 뛰어나다고 해서 블러핑이 넘치는 이 게임에서 이기기는 힘들다는 뜻이다. 


리브라투스는 무제한 텍사스 홀덤 포커 속에서 10의 160제곱에 달하는 경우의 수를 처리할 수 있는 전략적 추론, 연산능력을 갖췄다. 

이를 뒷받침하기 위해 미국 피츠버그 슈퍼컴퓨팅센터의 브릿지 컴퓨터가 동원했다. 브릿지가 보유한 846개 컴퓨트 노드 중 600여개를 사용됐다. 여기서 얻는 컴퓨팅 파워는 초당 1.35 페타플롭스 속도를 낸다. 최고 사양 노트북과 비교해 7천250배 빠르다. 메모리 용량은 274테라바이트에 달한다.

그러나 이러한 컴퓨팅 파워를 갖추고 있다는 사실만으로 프로 선수들의 블러핑에 대응하고, 반대로 이들을 상대로 블러핑을 직접 할 수 있는 것은 아니다. 


이 AI는 상대방의 심리를 읽어낸다기보다는 매일 자신이 치렀던 게임 중 상대방 선수들이 치고 들어왔던 자신이 가진 취약점을 분석해 보완하는 작업을 거친다. 때문에 게임에 참여한 프로 포커 선수들은 처음 며칠 동안에는 리브라투스를 공략할만한 취약점이 있었지만 서서히 사라지기 시작했다고 한다


리브라투스는 인공신경망을 쓰지 않는 대신 강화학습을 활용했다

이를 통해 스스로 포커게임을 반복하면서 시행착오를 겪는 방법으로 게임능력을 향상시킨다. 

반면 리브라투스는 이러한 사전 학습 과정을 거치지 않았다는 점에서 놀랍다. 실전경기에서 오는 정보들만으로 상황을 판단하는 것이다


# 매일 복기해서 취약점 보완, 상대 속이는 블러핑까지 시도 

리브라투스와 대결을 펼친 4명의 포커선수들은 한인 2세인 김동규씨와 함께 지미추, 다니엘 매컬레이, 제이슨 레스 등이다. 리브라투스는 이들과 대결에서 모든 카드에 대한 정보가 입력되지 않았고, 마치 좋은 패가 있는 것처럼 상대방을 속이는 블러핑 등에 대해서도 판단해서 의사결정을 내려야만 했다. 



IT매체 더버지에 따르면 리브라투스는 실제로 블러핑도 잘 하는 편이었다. 

이들 간 경기 중 하나에서 AI는 다이아몬드10, 하트 10 카드를 쥐고 있는 상태로 게임을 시작했다. 바닥에 공개된 카드는 킹과 9, 4로 이 중 두 장이 클로버였다. 그 뒤 베팅이 이어졌다. AI는 마치 플러시를 완성하려는 듯이 세번째 클로버 카드를 찾는 것처럼 보였다. 그러나 추가로 공개된 카드는 클로버가 아니었다. 마지막 공개된 카드에도 클로버가 없었는데도 AI는 갖고 있는 모든 칩을 걸면서 공격적으로 베팅했다. 

레스와 함께 게임에 참여한 김동규씨는 손에 클로버 7, 3을 쥐고 있었다. 이 말은 AI가 플러시를 할 것처럼 다른 게임 참가자들에게 블러핑을 시도했다는 의미다. AI는 처음부터 10 페어만 갖고 있었다. 


샌드홀름은 "최고 AI가 정보가 부족한 상황에서 전략적인 추론을 통해 최고 수준의 인간 포커선수들을 넘어선 것"이라고 말했다. 

샌드홀름 교수는 "매일 경기가 끝난 뒤 리브라투스에 탑재된 메타알고리즘이 상대방 선수들이 어떤 취약점을 확인해서 활용했는지 분석한다"고 설명했다. 

그 다음으로는 "매일 밤 슈퍼컴퓨터를 활용해 선수들이 사용한 취약점들에 우선 순위를 매긴 뒤 이들 중 톱3를 선정해 알고리즘에 패치를 한다"고 덧붙였다. 


"일반적으로 연구원들이 상대방의 취약점을 공략할 수 있는 알고리즘을 개발하는 반면 우리는 우리의 전략 중 취약한 부분을 알고리즘적으로 수정해 매일 개선해나갔다"는 설명이다. 


카네키멜론대 컴퓨터사이언스과 프랭크 페닝 학장에 따르면 이러한 전략은 포커게임에서 뿐만 아니라 비즈니스협상, 군사전략, 사이버보안, 의학적치료 등 분야에서도 활용할 수 있다. 정보가 완벽하게 주어지지 않은 상황에서 잘못된 정보를 걸러내고 적절한 전략을 자동으로 수정해 나가면서 결정할 수 있기 때문이다. 


카네기맬론대는 2007년 IBM 왓슨이 미국 유명 퀴즈쇼 제퍼디에 출연해 다른 참가자들과 경쟁을 벌일 때, 1997년 IBM 딥블루가 세계 체스 챔피언 게리 카스파로프와 대결을 펼 때도 개발을 지원했었다. 


하..

인공신경망도 아닌 강화학습으로만 가능하답니다.

그것도 불완전한 정보상황하에서 말입니다..

물론 엄청난 연산처리 장치의 보조하입니다.


그러나, 너무 빨리 인간의 영역까지 도달 하는것 같습니다.

인공신경망이 강화 학습의 능력을 강화해서 리브라투스와 같은 적절한 전략을 자동 수정할 정도가 된다면 복잡한 판단이나 결정은 인간의 영역이 아닌 인공지능의 영역으로 넘어 갈것 같습니다.


과연 인간이 인간으로서 존재가 가능할지...

단지 인공지능의 산물만 이용하는 존재일뿐일지...


모든게 어렵네요..