Homme vs. Machine: Les pros du Poker relèvent le défi de l'Intelligence Artificielle
En mai 2015, Claudico, le programme informatique élaboré par la Carnegie Melon University, avait virtuellement perdu 732 713$ en 10 jours de poker No Limit contre 4 spécialistes de head's up. Doug Polk, Bjorn Li, Dong Kim, Jason Les et l'Intelligence Artificielle avaient misé 170 millions de dollars lors de ce défi remporté par l'homme !
8 mois après cette rencontre, la Carnegie Melon University revient à la charge avec un nouveau programme, Libratus (du latin Puissant et Equilibré). Lors du dernier défi, une cagnotte de 100 000$ avait été mise en place pour le vainqueur par Microsoft et le Rivers Casino. Cette fois, il y aura 200 000$ en jeu entre l'homme et la machine !
Le duel entre les 4 pros du poker (Jason Les, Dong Kim, Daniel McAulay et Jimmy Chou) Libratus débutera le 11 janvier à Pittsburgh, toujours au Rivers Casino. La rencontre s'intitule "Brains Vs. Artificial Intelligence: Upping the Ante", elle consistera en 120 000 mains de head's up à disputer en 20 jours.
Lors de la dernière rencontre contre Claudico, 80 000 mains avaient été disputées et 3 pros sur 4 avaient terminé dans le vert. L'Intelligence Artificielle étant évolutive, l'augmentation du nombre de jours de jeu et du nombre de mains doit permettre d'obtenir des résultats statistiques plus significatifs.
Les pros seront divisés en deux groupes et joueront avec un format duplicate (chaque pro du groupe aura les mêmes cartes et l'ordinateur aussi, ndlr) dans une salle différente du casino. La partie aura lieu chaque jour entre 13 heures et 19 heures.
"Depuis les débuts des recherches dans le domaines de l'IA, battre les meilleurs joueurs humains a toujours été un outil privilégié de mesure des progrès", a expliqué le créateur de Libratus, le professeur Tuomas Sandholm. "Cela a été fait dans les échecs en 1997, avec le Jeopardy! en 2009 ou encore avec le Go l'an dernier. Le poker est un challenge plus difficile car il nécessite des décisions extrêmement complexes car basées sur des informations incomplètes. Il faut aussi intégrer les bluffs et pleins d'autres artifices comme le slow play", a poursuivi le développeur de Libratus.
Accompagné part son élève Noam Brown, Sandholm a mis en place Libratus en créant un algorithme spécifique permettant de développer des stratégies dans des jeux d'informations incomplètes. Il a ensuite fait travailler le Bridge supercomputer du Pittsburgh Supercomputing Center pour calculer des millions de scénarios et des stratégies potentiellement gagnantes.
Claudico n'avait tourné que 2 à 3 millions d'heures avant d'affronter les humains, Libratus a déjà fonctionné 15 millions d'heures ! Le limp était une stratégie très employée par Claudico et les pros s'étaient adaptés pour exploiter cette tendance sans que l'IA ne s'ajuste en retour... Libratus ne devrait pas rester aussi passif et devrait jouer avec une approche bien plus GTO que son prédécesseur. Les scientifiques ont en effet expliqué dans un communiqué que le robot avait amélioré sa stratégie globale afin d'approcher l'équilibre de Nash (qui a d'ailleurs étudié au Carnegie Mellon).
Les recherches dans le domaine de l'IA et de l'ajustement face à des informations incomplètes intéressent largement le domaine des affaires mais aussi du renseignement, de la sécurité, des opérations militaires ou encore de la médecine.
En ce qui concerne le poker Limit en head's up, un groupe de chercheurs de l'Université d'Alberta a résolu le jeu de manière quasi-optimale.