Komputer Pendatukan poker menggunakan GTX 1080 kartu video

 

Tidak seperti catur dan pergi, pemain poker tidak memiliki pengetahuan penuh dari negara permainan

Pada akhir Januari, Carnegie Mellon ilmuwan komputer mencapai tonggak utama: algoritma mereka, Libratus, mengalahkan satu set poker profesional dan pemain game dadu di sebuah turnamen 120.000-tangan. Sementara manusia telah jatuh ke komputer dalam berbagai permainan, terutama catur dan pergi, poker secara fundamental berbeda, di setiap pemain memiliki informasi yang tidak tersedia untuk sisanya. Semacam fundamental berbeda dari AI diperlukan untuk menangani informasi semacam ini tidak sempurna.

Minggu ini di Science, tim yang berbeda dijelaskan algoritma poker manusia mengalahkan nya, DeepStack. Kedua tim mengatakan pendekatan mereka tidak spesifik untuk poker, atau bahkan dalam permainan dadu, sehingga 2017 bisa menandai akhir dari dominasi manusia pada semua game yang tidak sempurna-informasi.

Strategi Yang Tidak Sempurna

Sebuah informasi permainan yang sempurna relatif sederhana: semua pemain dapat mengetahui keadaan penuh permainan, sering hanya dengan melihat papan. Mereka juga tahu set lengkap aturan hukum. Jadi itu relatif sepele untuk menghitung semua bergerak yang mungkin tersedia diberi papan tertentu. Dengan daya komputasi yang cukup, itu juga mungkin untuk menghitung semua kemungkinan banyak bergerak keluar-cukup untuk secara efektif membawa permainan apapun untuk kesimpulan. Dalam kasus permainan sederhana seperti catur atau permainan dadu, ini berarti semua bergerak di masa depan. Untuk sesuatu yang lebih rumit seperti catur, perhitungan dapat secara efektif terbatas untuk 10 langkah ke depan.

Jika komputer dapat memberikan nilai pada setiap papan di masa depan, maka itu menjadi sepele untuk membuat bergerak optimal dalam situasi apapun. Pada saat itu, yang terbaik pemain manusia dapat harapkan adalah imbang. Poker secara fundamental berbeda. Dalam setiap varian dari permainan aku sadar, ada kartu yang tidak terlihat oleh pemain lain, baik di tangan masing-masing dan menunggu belum diputar di dek. Hal ini menciptakan tantangan komputasi yang jauh lebih besar.

Untuk menangani permainan informasi yang tidak sempurna, kerja masa lalu telah difokuskan pada pendekatan yang berasal dari teori permainan. Di sini, komputer memilih “strategi” dan menghitung berapa besar kemungkinan mereka untuk menyesal menggunakannya sebagai permainan berlangsung. Pendekatan yang ideal berarti bahwa pemain lain tidak akan mampu konsisten mengeksploitasi kelemahan dalam strategi itu untuk memenangkan uang. Itu tidak berarti bahwa komputer akan memenangkan setiap tangan beberapa penawaran yang hanya mungkin untuk bekerja dengan-hanya itu menjadi sulit untuk menemukan cara untuk secara konsisten keluar ke depan dalam jangka panjang.

Jadi, poker bermain AI perlu kedua menghitung berapa semua strategi yang bekerja diberikan situasi permainan tertentu (kartu dan sejarah taruhan) dan dapat memilih satu yang sesuai diberikan setiap pertandingan itu menemukan dirinya dalam.

Untuk Libratus, ini melibatkan banyak pra-perhitungan dan kemudian update harian sebagai turnamen poker terus. Sementara pemain manusia dibahas setiap kelemahan strategis mereka akan menemukan selama pertandingan hari itu, tim Libratus memiliki akses ke petaflop hardware komputasi yang mereka digunakan untuk menambal kelemahan-kelemahan. “Setelah bermain berakhir setiap hari, meta-algoritma dianalisis lubang apa yang pro telah diidentifikasi dan dimanfaatkan dalam strategi Libratus ‘,” kata Carnegie Mellon Tuomas Sandholm. “Lubang-lubang tersebut kemudian diprioritaskan dan tiga adalah algoritme ditambal menggunakan superkomputer setiap malam.”

Pro tahu. “Setiap kali kita menemukan kelemahan, ia belajar dari kami dan kelemahan menghilang pada hari berikutnya,” kata lawan manusia Jimmy Chou. Hasil akhirnya adalah menghentak cukup besar, dengan Libratus keluar lebih $ 1.750.000 depan.

Susun itu dalam

DeepStack berasal dari sebuah kolaborasi antara beberapa peneliti Ceko dan tim yang pertama tahu pendekatan algoritmik untuk membatasi Texas hold’em dan permainan poker main dadu. Seperti Libratus, itu adalah pendekatan umum untuk memecahkan permainan informasi yang tidak sempurna. Tapi di sini, rincian dari pendekatan komputasi sangat berbeda: memainkan efektif dengan memperlakukan setiap pergantian kartu sebagai permainan yang sama sekali baru.

Kertas di DeepStack menjelaskan mengapa sulit untuk mencoba menggunakan seluruh sejarah permainan efektif:

“Keputusan yang benar pada saat tertentu tergantung pada distribusi probabilitas atas informasi pribadi yang lawan memegang, yang terungkap melalui tindakan masa lalu mereka. Namun, bagaimana tindakan lawan kami mengungkapkan informasi yang tergantung pada pengetahuan mereka tentang informasi pribadi kita dan bagaimana tindakan kita mengungkapkannya. semacam ini penalaran rekursif mengapa seseorang tidak dapat dengan mudah alasan tentang situasi permainan dalam isolasi. “

Untuk menghindari terjebak dalam rekursi yang tak terbatas, DeepStack hanya lupa masa lalu. “Tujuan kami adalah untuk menghindari pernah mempertahankan strategi untuk seluruh permainan,” pengembangnya menulis. Sebaliknya, setiap kali DeepStack perlu bertindak, ia melakukan pencarian cepat untuk memilih strategi yang didasarkan pada keadaan saat ini permainan. pencarian yang mengandalkan dua penyederhanaan utama.

Yang pertama adalah bahwa ia hanya menganggap sejumlah opsi. Hal ini dapat lipat, memanggil, pergi semua-dalam, atau membuat hanya dua atau tiga taruhan yang berbeda. Ini membatasi masa depan negara yang harus dipertimbangkan lebih jauh-oleh sekitar 140 kali lipat. Ini juga tidak mencari ke depan untuk semua posisi mungkin. Akibatnya, perhitungan yang tindakan untuk mengambil berjalan sekitar lima detik pada satu Nvidia GeForce GTX 1080.

Semua pekerjaan ini masih membutuhkan lookup dari nilai-nilai yang mungkin tangan masa depan. Ini dilakukan dengan menggunakan jaringan saraf Jauh Learning, atau lebih tepatnya, dua salinan dari jaringan yang sama: satu untuk tiga kartu bersama pertama, kedua untuk final dua. Jaringan dilatih pada 10 juta game poker secara acak.

Untuk menguji ini, tim merekrut 33 pemain melalui Federasi Internasional Poker untuk bermain head-to-head. Hadiah moneter tidak cukup untuk menarik pemain terbaik di luar sana, dan beberapa dari mereka hanya menyelesaikan beberapa permainan. Namun, hanya dua pemain berakhir menjelang DeepStack, dan kedua dari mereka memainkan sejumlah game, di mana imbang kesempatan kartu bisa memiliki efek berlebihan. Dari 11 pemain yang memainkan pertandingan 3.000-game penuh, semua berakhir turun ke DeepStack, 10 dari mereka dengan margin yang signifikan secara statistik.

Karena pendekatan yang sangat berbeda, ada kemungkinan bahwa beberapa dari pekerjaan ini dapat digabungkan jika kedua tim memutuskan untuk bergabung. Namun, pendekatan DeepStack tampaknya lebih umum, karena tidak bergantung pada memiliki superkomputer yang Anda inginkan untuk memperbarui sistem selama istirahat.

Tetapi hal utama adalah untuk melihat apakah software ini dapat diperpanjang di luar game. Kedua tim mengklaim telah melakukan pendekatan umum untuk situasi pengetahuan yang tidak sempurna; untuk DeepStack, bagian poker-spesifik kode tampaknya menjadi jaringan saraf yang dihitung nilai negara permainan masa depan dan keputusan yang untuk mengambil tindakan. Jika mereka dapat bertukar, ada kemungkinan untuk menggunakan perangkat lunak untuk masalah di dunia nyata. penulisnya secara khusus menyebutkan keputusan medis dan pertahanan sebagai setuju untuk semacam ini evaluasi.

Namun, langkah berikutnya mungkin untuk hanya mendapatkan software ini untuk bermain ketika ada lebih dari satu lawan. Keduanya dirancang untuk menghadapi pemain tunggal satu-satu. Menambahkan meja penuh pemain akan up kompleksitas dan re-up tantangan komputasi.

Leave a Reply

Your email address will not be published. Required fields are marked *