Pluribus 席卷扑克界的AI机器人

2019年，来自卡内基梅隆大学（Carnegie Mellon University）和 Facebook AI Research 的一支团队，向扑克界和AI圈丢下了一颗炸弹——Pluribus，一个能在六人无限注德州扑克里实打实击败顶级职业选手的机器人。

时间拨到今天，当所有人都在热议 ChatGPT、Claude、Gemini 这类生成式系统时，Pluribus 在AI的讨论里依然占据一席之地。不少研究者认为，Pluribus 是一次真正改变游戏规则的突破——它至今仍在影响着策略博弈、网络安全、谈判，甚至药物研发的思路。

这台机器，究竟是怎么搞定这个以诈唬和心理博弈为核心、被公认最难的纸牌游戏的？而今天更值得问的问题或许是：一个 Pluribus 的变种，真的有可能悄悄混进线上扑克房间吗？

为什么 Pluribus 重要

在 Pluribus 出现之前，AI 在扑克上的胜利大多局限在单挑（heads-up，只有两名玩家）的牌局里。像 DeepStack 和 Libratus 这样的程序，已经通过复杂的数学逼近一个纳什均衡（Nash equilibrium）——一种几乎无法被针对的策略——在两人对局里达到了人们口中的「超人」水平。

但一旦进入多人扑克，那就是完全不同的故事。和象棋、围棋这种双方信息完全透明的游戏不同，扑克的核心是不完全信息——你永远无法完全确定对手手里拿着什么。而在多人局里，局面复杂度还要再上一个量级：那些在一对一时藏得很好的弱点，到了六人桌上、在串通、诈唬和筹码深度不断变化的环境里，就会被无情放大。

事实上，2018年时许多专家都认为，AI 要攻克六人无限注德州扑克还要等很久——甚至可能永远做不到。

然后，Pluribus 来了。

机器内部：它是怎么造出来的

根据2019年那篇里程碑式的《Science》论文（作者 Noam Brown 与 Tuomas Sandholm），Pluribus 建立在两个精妙的想法之上：

自我对弈训练（Self-Play）
团队没有用数十亿手真实牌局去喂它，而是让 Pluribus 和自己的副本对打。在一台普通的64核服务器上跑了八天（成本约 150 美元），这个AI 就在海量的试错中摸索出了自己的一整套策略。相比其他领域那些动辄烧掉数百万美元的强化学习突破，这套方法便宜得离谱。
有限的前瞻搜索（Limited Lookahead Search）
不像那些会算上很多步的象棋AI，Pluribus 只往前看几步。它把这种短前瞻和针对常见局面、基于概率的「蓝图策略（blueprint）」结合起来，在「不可预测」和「高效」之间找到了平衡。这套方法让它具备一种动态的、近乎人类的灵活性，而不会被僵硬的固定打法套死。

结果是什么？一个能打出怪异却有效到让久经沙场的职业选手开始怀疑自己直觉的AI。

六人无限注德州扑克牌桌示意图：Pluribus 同时对阵多名职业牌手 — 六人桌上，Pluribus 独自面对五名职业选手——多人不完全信息博弈正是它最难、也最关键的突破。

独特的打法

真正让 Pluribus 与众不同的，不只是它赢，而是它怎么打。

从不跛入（No Limping）
职业选手有时会跛入（翻牌前只跟大盲注），而 Pluribus 完全跳过这一招——这个洞察后来被职业选手们验证为更强的选择。
使用「领打下注」（Donk Betting）
这种通常被嫌弃的打法（向翻牌前的进攻方率先下注），却成了 Pluribus 的标志之一。事实证明它的领打时机拿捏得恰到好处，常常以出人意料的方式把底池搅向自己。
非常规的诈唬
对人类来说，诈唬是一场赌博；对 Pluribus 来说，它只是数学。它不会被情绪牵着走，只执行那些能最大化长期收益的诈唬。
在罕见位置的过牌-加注
那些通常被认为「太花哨」的招式，在 Pluribus 的打法里反复出现——说明机器并不按人类的扑克规矩出牌。

面对像 Darren Elias（世界扑克巡回赛 WPT 冠军头衔纪录保持者）和 Chris Ferguson（2000年 WSOP 主赛事冠军）这样的职业选手，Pluribus 平均每手牌赢下约 5 美元——按一万手计算，相当于每小时约 1000 美元，对应约 30 mbb/g（每手约 30 毫大盲）的稳定胜率，这是不折不扣的超人级表现。

Elias 在一场又一场被击败之后这样说：

「你会觉得它打的层次比我们高……我没看出它的打法里有任何明显的破绽。」

六年后为什么还在聊它

六年过去了，我们为什么还在念叨这个扑克机器人？

因为 Pluribus 实现的那次跨越——驾驭多人不完全信息博弈——至今仍是AI最大的挑战之一。

生成式AI（如 GPT 系列）擅长文本预测，但在竞争性策略博弈上仍然吃力。
机器人系统大多是为受控环境设计的。
很多现实世界的问题，本质上更像扑克而非象棋：网络安全、金融市场、多方谈判，乃至军事推演，处理的都是隐藏信息、不断变化的联盟，以及彼此并不合作的参与者。

正如 AAAS（美国科学促进会）所指出的，Pluribus 的设计思路最终可能帮助AI去协商网络安全策略、为难治性感染设计药物，甚至支持军事推演。

但对普通人来说，还有一个更切身的问题——会不会有人把 Pluribus 或它的后继者偷偷塞进线上扑克房间？

它会不会击穿线上扑克

Pluribus 从未被公开发布。研究者说得很清楚：他们担心它在真实扑克游戏中被滥用——哪怕是一个只强一点点的AI，也可能从人类玩家手里抽走成千上万。

话虽如此，它对硬件的要求实在太低了——单台服务器、150 美元、训练八天——这意味着它远不是一个遥不可及的工程。和动用天文数字成本开发的 GPT-4 相比，今天一个上心的爱好者，完全可以用开源的强化学习工具复刻出一个规模更小的「Pluribus 风格」机器人。

事情由此变得棘手：

线上扑克平台（如 PokerStars 或 WSOP.com）早已部署反机器人检测，专门抓那些异常的决策模式或策略选择。
但 Pluribus 风格的AI 能把自己的打法混合得足够杂，从而从雷达下溜过去。正是那种让 Elias 和 Ferguson 摸不着头脑的不可预测性，让它很难被识别。
一旦这类机器人真的出现，它很可能正在中高额的线上牌局里收割，把休闲玩家和职业玩家一起洗掉。

到目前为止，并没有确凿证据表明 Pluribus 或它的精确副本已经进入线上战场。但随着算力越来越便宜、强化学习越来越普及，监管方和扑克平台可能会陷入一场没有尽头的猫鼠游戏。而你可以说，这场游戏正是从 Pluribus 开始的。

更大的图景：扑克作为现实的模型

扑克从来不只是关于牌——它映照着真实人生。人们在信息不完整的情况下做选择，靠暗示、诈唬和不确定的决策去算计对手。

这正是 DARPA（美国国防高级研究计划局）、国防部，以及金融公司都对扑克AI研究表现出兴趣的原因。Pluribus 不只是赢了牌局；它证明了机器能在混乱、竞争、多方参与的局面里出类拔萃。

几个值得思考的领域：

网络安全：抵御策略不断变化的黑客，本质上就是一场更漫长的诈唬游戏。
金融交易：市场是充满不完整信息的多人博弈——正是 Pluribus 如鱼得水的那种环境。
医疗健康：设计能对抗不断进化的细菌的药物，意味着要为病原体隐藏的「招数」提前布局。

这些领域都需要 Pluribus 所展示出来的能力：在看不全局的情况下，用灵活的混合策略把事情打好。

从学术到牌桌：PokerBotAI 的位置

Pluribus 是一座学术里程碑——它被刻意锁在实验室里，从不出门。但它所代表的那一类方法——神经网络 + CFR（反事实遗憾最小化）+ GTO 基线 + 剥削性调整——并没有停在论文里，而是被工程化、落到了真实的牌桌上。这正是 PokerBotAI 所做的事情：把这一类AI从「证明可行」推进到「实际可用」。

架构上，它分成两半：

大脑（云端神经网络）——负责思考。在以 GTO 为基准的同时，结合对手画像做剥削性偏移，逻辑和 Pluribus 那条「蓝图 + 实时搜索」的路子同属一类。
点击器（本地 PokerX）——负责动手。把大脑算出的决策，落地成在客户端上的真实操作。

支撑它的是规模化的数据：70亿手以上的合成对局外加 3亿手以上的真实牌局，自 2016 年起持续打磨。和 Pluribus 一脉相承的是，它依靠的是大量手数上收敛出来的稳定优势，而不是某一手的灵光一现——这也意味着，它不保证盈利，结果会随对局环境和样本量波动。

一句话理清关系：Pluribus 是学术上的突破，PokerBotAI 是这一类AI在真实牌桌上的实际应用。前者证明了多人不完全信息博弈可以被机器攻克，后者把同一套方法论做成了可以日常使用的工具。

它仍然存在的局限

尽管 Pluribus 令人惊叹，它并不是一个通用AI。

它是静态的：一旦训练完成，它就不会再实时更新。这和今天那些持续吸收新数据的 GPT 模型不同。
它只专注于六人无限注德州扑克——换到 PLO（底池限注奥马哈）或限注德州，它未必还能打得好。
它在结构化、高手数的环境里表现更好——可以类比线上现金桌，方差会被熨平；而在真人、低手数的锦标赛里，结果可能就是另一回事了。

关键在于，它的蓝图策略并不保证是最优解；它只是被证明在海量手数里极难被击败。

结语：Pluribus 投下的影子

在惊艳了扑克界和AI圈六年之后，Pluribus 依然是一座关键的里程碑，逼着我们重新思考策略、风险与智能。

它真正的影响，或许不在扑克本身，而在于它的经验如何外溢到网络安全、生物科技和现实世界的谈判之中。与此同时，想到类似 Pluribus 的机器人可能正悄无声息地潜伏在今天的线上扑克房间里，这既令人不安，又令人着迷。

正如职业牌手 Chris Ferguson 在与 Pluribus 对战之后所说：

「它不会累，不会上头，它就只是——打牌。」

这大概触到了机器智能的内核——也正因如此，Pluribus 的成就，至今仍在牌桌之外久久回响。

参考资料

关于 Pluribus 的常见问题

Pluribus 是什么，为什么意义重大？

Pluribus 是由卡内基梅隆大学和 Facebook AI Research 于2019年开发的扑克AI。它是史上第一个在六人无限注德州扑克中击败职业人类选手的AI，标志着多人不完全信息博弈领域的一次突破。和此前只能在单挑（两人）形式中工作的扑克AI不同，Pluribus 成功驾驭了多人扑克的复杂动态。

Pluribus 从职业选手手里赢了多少钱？

面对职业牌手时，Pluribus 平均每手牌赢约 5 美元，每小时约 1000 美元。在与 Darren Elias、Chris Ferguson 等顶级职业选手对战的一万手牌中，它维持着约 30 mbb/g（每手约 30 毫大盲）的稳定胜率，展现出超人级的表现。

Pluribus 会被用来在线上扑克作弊吗？

开发者刻意选择不公开 Pluribus 的源代码，正是为了防止它在线上扑克房间里被滥用。不过，由于它对算力的要求相对很低（八天、150 美元就能训练完成），理论上类似的系统是可以被复刻的。线上扑克平台都部署了反机器人检测，但 Pluribus 风格的AI 由于打法不可预测，仍有可能躲过检测。

Pluribus 和人类牌手有什么不同？

Pluribus 采用了几种独特策略：它从不「跛入」（只跟大盲注）、比人类更频繁地使用「领打下注」、不带情绪地执行数学上最优的诈唬，还会在罕见的位置打出过牌-加注这类非常规动作。职业选手坦言面对它的策略时感到「无能为力」，并且很难抓到任何可被剥削的弱点。

Pluribus 是怎么训练的，需要什么资源？

Pluribus 通过自我对弈训练——它与自己的副本对打了八天，跑在一台64核服务器上。整个训练过程仅花费约 150 美元，相比其他先进AI系统极具性价比。它使用只往前看几步的有限前瞻搜索，并结合针对常见局面、基于概率的策略。

除了扑克，Pluribus 的技术有哪些现实应用？

为 Pluribus 开发的技术，在以下领域有广阔前景：网络安全（抵御不断进化的黑客策略）、抗药性感染的药物设计、军事机器人、金融交易，以及多方谈判。任何涉及不完整信息、多个竞争主体和策略性决策的领域，都可能从 Pluribus 式的AI方法中受益。

Pluribus 到今天还在更新或改进吗？

Pluribus 仍然是一个静态程序，自最初开发以来从未更新。和那些持续从新数据中学习的现代AI系统不同，Pluribus 被设计成一个固定策略系统。不过，它的核心创新至今仍在影响着其他研究者在多人博弈和策略决策系统上的工作。

Pluribus 有哪些局限？

Pluribus 是专门为六人无限注德州扑克设计的，在 PLO（底池限注奥马哈）或锦标赛等其他扑克变体里未必好用。它是一个静态系统，无法实时适应新策略；它的蓝图策略虽然在实战中几乎无法被击败，却并不保证在理论上是最优的。它在高手数的现金桌环境里表现最佳，而非低手数的锦标赛对局。

先看演示，再决定

购买前我们先演示AI实战效果、给盈亏证明。价格、平台支持、封号风险，问清楚再说。

免费体验

如果无法打开，请尝试科学上网，或复制用户名在Telegram搜索。

手机扫码直达

Pluribus：席卷扑克界的AI机器人