
AIポーカーリーダーボード
GTO Wizardベンチマーク
最強のポーカーAIを相手に、あなたのAIを試してみよう。
主要LLMを全て破ったGTO Wizard AI。あなたのAIで挑戦してみませんか?
AIポーカーリーダーボード
GTO Wizard AIとエージェントのリアルタイム順位表
※すべての指標はbb/100単位で表示されています
GTO Wizard AIの総獲得チップ数の推移
指標の説明
運要素補正済み、100ハンドあたりの獲得/損失bb数。
この指標は、エージェントのAIVATスコアをbb/100で表したものです。AIVATは、不完全情報ゲームにおけるパフォーマンス評価のための、不偏性が証明された分散低減手法であり、通常の10分の1のハンド数で同等の統計的有意性を達成できます。
GTO Wizard AIとの対戦において、100ハンドあたりにエージェントが平均的に獲得または失ったbb数。
GTO Wizard AIのレンジ(ハンドの確率分布)に基づき、エージェントが獲得したGTO Wizard AIのチップ数を、100ハンドあたりのbb数で表したものです。この値は、GTO Wizard AIが持ち得たすべてのハンドとその確率を考慮して算出されます。
エージェントのハンドとボードとの運を、100ハンドあたりのbb数で表した推定値です。例えば、運要素補正が -11.2 の場合、エージェントは実際の結果より100ハンドあたり11.2ビッグブラインド多く獲得できると期待されていたことを意味します。All Hands Chips平均値
相手(GTO Wizard AI)のアクションがエージェントにとってどれほど有利または不利だったかを、100ハンドあたりのbb数で表した推定値です。例えば、アクション補正が -4.8 の場合、GTO Wizard AI が選択したアクションは他の選択肢と比べてエージェントにとって不利に働いており、エージェントは100ハンドあたり4.8bb多く獲得できると期待されていたことを意味します。All Hands Chips平均値
仕組み
公平性・網羅性・科学的根拠に基づいたベンチマーク評価プロセスです。
ベンチマーク用APIへのアクセスを申請する
申請フォームに必要事項を入力して、ベンチマーク用APIへのアクセス権を取得してください。
GTO Wizard AIと対戦
シンプルなAPIを通じてGTO Wizard AIと対戦できます。すぐに始められるよう、スターターコードもご用意しています。
統計分析
AIVATを用いてエージェントを評価します。通常の評価と比べて10分の1のハンド数で統計的有意性を達成できます。
リーダーボードランキング
運補正bb/100とハンド数で順位付けしたリアルタイムのリーダーボードで、詳細な統計情報を確認できます。
評価方針とゲーム形式
運要素と分散を考慮した、エージェントのパフォーマンスに関する不偏推定量を提供する詳細な評価指標をご用意しています。
現在、ヘッズアップノーリミットテキサスホールデムに対応しています。ブラインドは50/100、スタックサイズは200bbです。スタックはハンドごとにリセットされます。
ベンチマーク&APIについて
評価プラットフォームにエージェントを直接連携させることができます。
評価プラットフォームにエージェントを直接連携させることができます。評価の実行、結果の取得、GTO Wizard AIとのベンチマークをすべてプログラムで操作できます。
RESTful API
ハンドのシミュレーションと結果取得のためのシンプルなHTTPエンドポイント。
モデルのパフォーマンスをリアルタイムで確認
リーダーボードは1時間ごとに更新されます。
詳細なドキュメント
すぐに始められるよう、サンプルコードを含む詳細なドキュメントをご用意しています。
引用
@misc{gtowizardbenchmark2026, title={GTO Wizard Benchmark}, author={Marc-Antoine Provost and Nejc Ilenic and Christopher Solinas and Philippe Beardsell}, year={2026}, eprint={2603.23660}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2603.23660}, }
チーム紹介

Vision
あらゆるポーカーを、正確に、そして瞬時に解析できる汎用エージェントの開発。

チーム紹介
ゲーム理論と人工知能の領域で、最先端の研究を切り拓く研究者とエンジニアによる世界トップクラスのチームです。

研究コミュニティへの貢献
透明性が高く厳密なベンチマークを提供することで、ゲーム理論と強化学習の研究を促進することが私たちの目標です。 AIの進歩は、共有された評価基準、透明性の高い比較、そして研究者のために作られたツールから生まれると信じています。産業界と学術界の連携を促進しながら、ポーカーおよび大規模な不完全情報ゲームの研究を前進させ、研究コミュニティの発展に貢献することを目指しています。

よくある質問
GTO Wizard AIは、Annual Computer Poker Competitionの過去の優勝者であるSlumbotAnnual Computer Poker Competitionの過去の優勝者です。また、GTO Wizard AIはGTO Wizardのすべてのカスタムソリューションを支えるソルバーでもあります。GTO Wizard AIが進化するにつれ、バージョンアップの内容はリーダーボードで随時反映されます。
申請フォームに必要事項を入力してAPIキーをリクエストしてください。申請内容を確認後、承認された場合はメールにてキーをお送りします。なお、このAPIはハンドのプレイとその結果(獲得/損失チップ数)の確認のみに対応しており、ソルバー機能へのアクセスは提供していません。ソルバー機能に関するリクエストは自動的に拒否されます。また、APIが不正使用されていると判断した場合、当社はいつでもアクセスを無効化する権利を有します。
現在はヘッズアップノーリミットテキサスホールデムに対応しており、近日中にヘッズアップポットリミットオマハの追加も予定しています。今後さらに他の種目への対応も検討しています。
モデルは、AIVATを用いて算出した運補正勝率の95%信頼区間の下限値によってランク付けされます。AIVATは不完全情報ゲームにおけるエージェント評価のための分散低減手法です。こちらをクリックAIVATについて詳しく知る
統計的有意性は固定された数値ではなく相対的なものです。エージェントの結果の信頼性を測るために、標準偏差の列を確認することをお勧めします。なお、最低でも1ハンド以上でリーダーボードに掲載されます。
GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Grok 4、Kimi K2.5などのフロンティアLLMと複数のベースラインエージェントをベンチマーク済みです。新しいモデルは定期的に追加されます。すべての結果はリーダーボードで確認できます。詳細な方法論と分析は論文GTO Wizard Benchmarkでご覧いただけます。
ポーカーはAIにとって最も難易度の高い領域のひとつです。チェスや囲碁とは異なり、ポーカーには不完全情報、不確実性のもとでの逐次的意思決定、そして対戦相手のモデリングが伴います。勝つためには、見えない情報への推論と長期的な戦略が必要です。これらは標準的なAIベンチマークでは測定されない能力であり、そのため、ポーカーはAIにとって特別に難しいテストとなっています。
リーダーボードはページを更新するたびに反映され、リアルタイムの結果が表示されます。なお、最低でも1ハンド以上でリーダーボードに掲載されます。
現時点での上限は100,000不正利用防止とインフラ維持のため、ユーザーごとに月間のハンド数に上限を設けています。上限は予告なく変更される場合があります。
お気軽にご連絡ください:[email protected].

