사람들은 일반적으로' 석두 가위천' 사이의 제약 관계를 인정한다. 형평성+무작위성' 의 특징은 분위기가 활발한 작은 게임일 뿐만 아니라 비교적 공평한 문제 해결 수단으로, 의견 차이 해결, 순서 결정, 귀속 결정 등에 광범위하게 적용된다.
말할 필요도없이 누가 설거지, 질질 끌림, 요리 등 집안일에서 권투가 가지고 있는' 노름복질' 이 가정의 조화를 효과적으로 유지할 수 있다는 것은 부르면 오는 가족 관계 조정원이라고 할 수 있다.
대부분의 사람들의 인식에서, 주먹 추측은 무작위 사건이며, 선수가 이길 확률은 동일해야 하며, 상수는 3 분의 1 이지만, 사실은 반드시 그렇지는 않다.
최근 저장대 호셀링 교수의 연구팀은 마코프 체인을 기반으로 한 인공지능 모델을 개발해 퀴즈 게임을 전문으로 하고 있다. 52 명의 인간 플레이어와 300 라운드 전투를 벌인 후 AI 는 95% 의 플레이어를 물리쳤다.
그림 | AI 모델 순승장 수 변화
인간 플레이어의 경우 규칙은 +2 점, 평면+1 점, 포인트를 잃지 않는 것입니다. AI 와의 전투 전에 참가자들은 승리가 금전상을 받을 것이라는 것을 알고, 총점이 높을수록 더 많은 돈을 얻는다. 따라서 플레이어는 의도적으로 물을 넣거나 무작위로 선택할 확률이 매우 낮습니다.
그럼에도 불구하고, AI 는 인류를 물리쳤다. 가장 불균형한 대결에서 Ai 198 승, 55 평, 47 회, 승률이 인간 상대보다 4 배 높다. 15600 라운드 모든 상세한 게임 원시 데이터는 논문 보충 자료에 나와 있습니다 (참고 문헌 참조).
주먹이 정말 무작위적이라면 통계적으로 AI 가 15600 이닝 이후 이렇게 큰 장점을 얻을 확률은 매우 낮다.
본질적으로 권투는 게임 문제이며, 그 뒤에는 고전적인 내시 균형이 있다. 각 개인의 습관, 인지, 전략, 전략 변화는 실제 승률에 영향을 미친다. 예를 들어, 상대방과 잘 알고 있다면, 그가 자주 출간한다는 것을 알면 가위로 자제할 수 있을 것이다. (조지 버나드 쇼, 자기관리명언)
절강대학교 호셀링 교수가 제시한 AI 모델도 비슷한 방법을 채택하여 주먹이 다른 개인을 겨냥한 장기 승리 전략이 있다는 것을 증명하여 승률을 효과적으로 높일 수 있다.
이 AI 모델은 N 차 마르코프 체인을 기반으로 한 디자인으로, 기억이 있으며, 최대 N 개의 과거 상태로 거슬러 올라가 사용할 수 있습니다.
인간 게이머들이 실전에서 서로 다른 성격과 전략에 대응하기 위해 연구팀은 다AI 모델도 발명했다.
"모든 사람에게 효과적인 단일 모델을 구축하기 어렵기 때문에 단일 모델을 결합하여 서로 다른 경쟁 전략을 구분하고 수용할 수 있도록 하기로 결정했습니다." 연구원들은 논문에서 설명했다.
인간을 겨냥한 첫 번째 다중 AI 모델에서는 1-5 개의 마르코프 체인, 즉 5 개의 독립 AI 모델을 각각 앞의 1-5 개의 동작을 참조합니다. 다중 AI 는 5 개의 AI 모델의 각 결정을 전체적으로 참조합니다. 어느 것을 선택하느냐에 관해서는, 그들의 최근 다섯 번의 표현에 달려 있다.
여기서 "마지막 5 회" 는 초점 거리라는 수퍼 매개변수로 정의되며, 필요에 따라 크기를 조절하여 더 최적화할 수 있습니다. 인간을 위한 두 번째 다중 AI 모델 세트에서 이 매개변수는 10 으로 설정됩니다.
그림 | 다중 인공 지능 모델의 의사 결정 논리
예를 들어, 각 N 차 마르코프 체인 모델은 각각 다른 의사 결정 기준을 가진 전략가와 같습니다. Doai 모델은 지휘관이며, 많은 군사 고문들로 구성된 싱크탱크가 있다. 결정을 내릴 때 각 전략가는 자신의 권투 건의를 제출한다. 지휘관은 지난 몇 차례 (초점 길이) 의 성과에 따라 종합 점수가 가장 높은 사람의 건의를 받아들여 장기 승률을 높일 것이다.
인간 플레이어가 계속 이기면 Multi-AI 가 다른 AI 모델의 더 나은 솔루션을 선택하게 됩니다. 인간 플레이어가 계속 실패하면 전략을 변경하거나 이전 펀치 규칙을 깨뜨릴 수 있으며, 그러면 다AI 도 그에 따라 조정할 수 있습니다.
최종 사회 실험 결과는 이 사상의 유효성을 반영한다. 52 명의 자원봉사자 중 5 명도 안 되는 사람들만이 쑥을 물리쳤다. 많은 사람들이 처음 20-50 라운드를 앞섰다가 나중에 AI 에 붙잡혀 졌다.
AI 를 치는 사람은 승률이 약간 높고 차이가 크지 않다.
흥미롭게도, AI 모델 뒤의 알고리즘을 개발할 때 연구팀은 또 다른 저장대 팀의 6 년 전 연구 결과를 읽었지만, 다른 게임 전략을 사용했다.
모든 플레이어의 데이터를 통계적으로 연구한 것에 비해 이곳의 다AI 모델은 각기 다른 플레이어의 성격 차이와 펀치 전략을 제때 조절하고 현재 가장 적합한 게임 전략을 선택하는 것을 강조한다.
20 14 년 5 월, 여러 매체가' 석두 가위 천' 게임에 대한 과학 연구 성과를 보도했다.
사실 그렇지 않습니다. 이 연구는 또한' MIT 테크놀로지 리뷰' 에 의해 20 14 년 최고의 성과 중 하나로 선정되었다.
그림 | MIT 기술 리뷰 20 14 보고서
이 글은 추측 게임 뒤에 다른 행동 패턴이 존재한다는 것을 보여준다. 예를 들어, 이기는 사람은 다음 라운드에서 같은 제스처를 하는 경향이 있고, 지는 사람은 종종 변한다. 사람들은 석두 등을 던지는 것을 선호한다. 하지만 더 깊은 목적은 현실 게임에서 내쉬 균형이 성립되었는지, 현실의 게임 모델 프레임워크를 연구하고, 게임의 거시순환 현상과 미시적 행동 기반을 분석하는 것이다. 본 연구에서 사용된 기초 이론은 게임 이론 심리학 신경과학 등 여러 분야를 포괄한다.
마찬가지로, 2020 년의 최신' 석두 가위 천' 연구는 매우 강력한 추측 AI 일 뿐만 아니라 매우 강력한 주기 균형 모델 분석가이기도 하다. 미래는 경쟁사의 다음 행동을 예측하거나, 보다 효과적인 전투 전략을 계획하거나, 보다 유리한 가격 방안을 마련하는 등 다른 게임 장면으로 확대될 것으로 예상됩니다.
"(우리가 발견한) 인간의 경쟁 행위는 확실히 규칙적이며, 이 법칙들은 적절한 간단한 모델을 사용하여 이용할 수 있다" 고 연구원들은 논문에서 총결하였다. "경쟁 행동 패턴과 이를 활용하는 방법에 대한 연구는 다양한 경쟁 모델을 더 잘 모델링, 예측 및 적응할 수 있게 해 줄 것으로 기대됩니다."