
AI「思考」到底指什么
我们说机器人在「思考」,指的其实是它选择一个动作的过程。在一手牌的每个阶段,机器人都会拿到一批信息,然后输出一个决策:弃牌、跟注、加注。
不同机器人之间的区别,就在于它是怎么得出这个决策的。这里有两种本质上完全不同的路子:
- 脚本型机器人——照着写死的规则走:「如果是 X 牌、Y 位置,就做 Z」。
- AI 机器人——评估当前局面,选出期望收益最高的那个动作。
两者都在「思考」。但一个像简单的计算器,另一个更像 IBM 深蓝那样的国际象棋计算机。
决策树:最基础的模型
设想一棵树:每根枝条是一个可能的动作,每个节点是一个决策点。
简单例子:翻前
你坐在按钮位(牌桌上最有利的位置,因为翻后你最后行动)。前面所有人都弃牌到你这里。你手里是 A♠K♦。
在按钮位拿 A♠K♦、前面全部弃牌时,你的选项是:
- 弃牌——负 EV。你在最好的位置上把一手强牌扔了,纯属浪费机会。
- 跟注(平跟)——大致打平。你隐藏了牌力,但放弃了主动权,让对手控制底池。
- 加注——EV 最高。你拿到主动权,用强牌把底池做大,给盲注施压。盈利潜力最大。
每根枝条都有自己的期望值(EV)。机器人会选 EV 最高的那根。
在按钮位拿 AK、前面全弃,加注显然更好。但在更复杂的局面里,这棵树会展开成几百根枝条。
决策树只是用来讲解的简化模型。真正的 AI 并不会像教科书算法那样一根一根枝条去遍历。它更像一个老练的牌手:因为见过几百万个类似局面,所以能瞬间「读懂」当下。只不过它靠的不是直觉,而是一张在数十亿手牌上训练出来的神经网络。结果是一样的——评估所有选项、挑出最好的那个——但这一切发生在几毫秒之内。
脚本机器人怎么「想」
脚本机器人靠的是死板的规则。它的「思考」就是一组条件判断:
- 如果手牌排在前 10% 且处于后位 → 加注 3bb
- 如果手牌排在前 20% 且前面有人加注 → 跟注
- 如果手牌弱于前 30% → 弃牌
优点:
- 可预测——你永远知道它接下来会干什么。
- 简单——容易配置。
- 稳定——不会冒出看不懂的怪异打法。
缺点:
- 不会针对对手做调整。
- 一旦摸清它的套路就很容易剥削。
- 不考虑完整背景(筹码深度、历史、倾向性)。
- 对鱼和对常规牌手用的是同一套打法。
脚本机器人是可预测的。一个有经验的牌手在 30 到 100 手之内就能摸清它的模式,然后开始反过来剥削它。这正是它们在现代扑克里失效的根本原因。
AI 机器人怎么「想」
像 PokerBotAI 这样的 AI 机器人不照死规则走。它评估局面,再基于分析选出最优动作。PokerBotAI 的架构由三大核心组件构成:一个真实手牌历史数据库(3 亿+ 真实手牌——多年来从公开数据库、购入的牌谱档案、合作方数据,以及自 2000 年代初起的自有采集中累积而来)、一张神经网络(在 70 亿+ 合成牌局与求解器生成的牌局上训练),以及一套把理论与实战合并成统一决策体系的专家算法。
系统里有若干专门化的模型——针对不同牌型、不同级别、不同房间。打 NLH 的机器人和打 PLO 的机器人是不同的 AI,各自针对自己的条件做了优化。这些模型会持续用实战桌上的数据做微调:运营团队在真实环境里测试新版本,结果会自动回流进系统。以上只是粗线条,架构细节不公开。
每一手牌里 AI 看到什么
- 牌——你的手牌和公共牌。
- 位置——你相对按钮位坐在哪。
- 底池和下注——当下的数学局面。
- 筹码——每家手上还有多少。
- 对手历史——VPIP、PFR、3-bet、对持续下注的弃牌率,以及上百个其他参数。
- 这手牌的背景——之前几条街发生了什么。
决策的整个过程
AI 在不到一秒的时间里走完这几步:
- 推断对手范围——他们打成这样,手里可能是哪些牌?
- 计算胜率——面对这个范围,我们能赢多少比例?
- 评估每个动作的 EV——弃牌、跟注、加注,哪个收益更高?
- 纳入对手倾向——这家是不是经常诈唬?是不是面对加注就常弃?
- 选 EV 最高的动作——最终决定。
AI 不是单纯「知道」正确答案。它会为每一个独特的局面重新算一遍。两手看上去差不多的牌,面对不同的对手,最优解可能完全不同。
脚本 vs AI:完整对照
| 参数 | 脚本机器人 | AI 机器人 |
|---|---|---|
| 运行原理 | 固定规则 | 分析与计算 |
| 对对手的适应 | 无 | 有,实时调整 |
| 学习能力 | 无 | 有,基于 3 亿+ 真实手牌 |
| 背景感知 | 极弱 | 完整(上百个参数) |
| 可预测性 | 高(容易被看穿) | 低(打法多变) |
| 对弱手的剥削 | 对谁都一样 | 最大化 |
| 抗剥削能力 | 弱 | 有 GTO 打底 |
| 进化速度 | 静态不变 | 持续改进 |
| 典型赢率 | 对常规/职业/AI 为负;对鱼约 0–5 BB/100 | 10–40 BB/100 |
同一手牌,两种处理
局面:转牌圈。底池 $100。你拿到顶对加好踢脚。对手下注 $75。
顶对,就是你的牌和公共牌里最大的那张配成一对(比如你拿 A♠Q♦,公共牌是 Q♣ 8♠ 3♦,配成一对 Q,是台面上最大的对子)。踢脚是你手里的第二张牌,在双方同样成对时用来比大小。「好踢脚」指的是大牌(A、K)。
脚本机器人
- 检查:是顶对吗?→ 是
- 检查:下注是否大于底池的 50%?→ 是
- 规则:顶对面对不超过 1 倍底池的下注 → 跟注
- 决定:跟注
机器人根本不知道自己在跟谁打。无论对面是只用坚果牌才下注的紧凶石头,还是 70% 时间都在诈唬的疯狂松凶,它都一样跟注。
AI 机器人
下面是神经网络内部真正发生的事——一步一步来:
第 1 步:我们对这个对手了解多少?
AI 查它的数据库。我们以前跟这名玩家交手过吗?如果有——多少手?
- 少于 20 手——几乎没有数据。AI 打接近 GTO(博弈论最优)的策略——一种数学上平衡、无法被剥削的打法。可以把它理解成面对未知对手时的「安全默认值」。
- 20–100 手——有了基础画像。AI 知道这家是紧还是松、被动还是激进,开始做一些小幅调整。
- 100–500 手——详细画像。VPIP、PFR、3-bet 频率、对持续下注的弃牌率、各条街的激进度。AI 开始主动剥削弱点。
- 500 手以上——完整的行为模型。AI 能预测这名特定玩家在几乎任何场景下的反应。
第 2 步:推断对手范围
这正是神经网络区别于简单数学的地方。求解器会根据动作给出一个理论范围。AI 做得更多:它为这名特定玩家建一个个性化范围,并按其真实历史加权。这在概念上类似于 Pluribus(卡内基梅隆大学那只在六人无限注德州扑克里击败顶尖职业选手的扑克 AI)所做的事——它不计算一个固定策略,而是去搜索针对「它预期对手会怎么做」的最佳应对。
在我们这个例子里:对手在转牌圈往 $100 的底池里下注 $75。换成一名随机玩家——这可能意味着任何东西。但 AI 在这名特定玩家身上已经有 200+ 手:
- VPIP 18%、PFR 14%——紧手。
- 转牌激进度 0.8——很少在没强牌时下注。
- 在类似局面(转牌对单一对手下大注)里,这名玩家 80% 的时候手里是两对或更好。
第 3 步:针对个性化范围算 EV
AI 不是只算「我们的胜率够不够跟」。它对每一个可能的动作——弃牌、跟注、加注——都针对这名对手的具体倾向算一遍 EV:
- 弃牌 EV:$0(我们不再多输)。
- 跟注 EV:赢在诈唬(约占范围 20%),输在价值牌(约 80%)。期望值 −$23。不盈利。
- 加注 EV:有可能逼走一些中等牌,但面对这名很少诈唬的紧手——他不会弃。负 EV。
决定:弃牌——神经网络识别出,我们这手通常很强的顶对,在这名特定对手的下注模式面前,其实已经落后了。
现在换个对手。同样的牌、同样的公共牌,但对面是一名松凶玩家(VPIP 42%,转牌 55% 的时间在诈唬)。AI 重新算一遍——跟注立刻变得高度盈利。不同对手,不同决策。不是因为换了规则,而是因为神经网络为每名玩家建了不同的模型。
GTO + 剥削:混合打法
PokerBotAI 用的是两种策略的组合:
- GTO(博弈论最优)——「不可战胜」的策略。如果你打 GTO,无论对手怎么做都剥削不了你。
- 剥削——偏离 GTO,针对特定对手的失误把利润最大化。
两者怎么协同
- 对手没数据 → 打接近 GTO。
- 对手弃牌太多 → 多诈唬。
- 对手跟注太多 → 少诈唬,价值下注下得更厚。
- 对手打得很可预测 → 最大化剥削。
- 对手开始适应 → 退回 GTO。
纯 GTO 拿不到最高赢率——它提供的是保护。最高赢率来自剥削对手的失误。AI 就在防守和进攻之间做平衡。
AI 从哪里「认识」对手
PokerBotAI 会对每名玩家采集并分析数据:
- 手牌历史——和这名对手打过的每一手都被保存下来。
- 数据库——3 亿+ 真实手牌,来自公开数据库、购入的牌谱档案、合作方数据,以及多年的自有采集;外加 70 亿+ 用于训练神经网络的合成牌局与求解器生成的牌局。
- 实时统计——VPIP、PFR、3-bet、对持续下注的弃牌率等等。
- 跨牌局记忆——哪怕你是第一次坐上这张桌,AI 也可能在别处见过这名对手。
这条画像积累的进度被称为适应曲线:20 手之后 AI 就有足够数据做基础分类,100+ 手后形成详细画像,500+ 手后建立起精确的行为模型。
我们的一位客户——一名有 20 多年经验的牌手——这样描述:「它能读人。是真的在读人。我打了 20 年牌,都未必每次都读得这么准。但这个机器人能。」
为什么 AI 能赢过人
不是因为它「更聪明」。而是因为:
- 不会疲劳——打到第 10 个小时,和第 1 个小时一样精确。
- 不会上头——一次 bad beat 不会影响下一个决策。
- 没有自尊心——该弃的「漂亮牌」毫不犹豫就弃。
- 瞬时计算——以毫秒为单位算出 EV。
- 完美记忆——记得和每名对手的每一手牌。
- 持续学习——每过一个月都在变强。
人在单一一场牌局里可以赢过机器人。但拉长到 100,000+ 手——这在统计上几乎不可能。
扑克至今仍是衡量人工智能能力的关键基准之一。各种 AI 模型之间的比赛会定期举办——既有 LLM(大语言模型),也有专门的扑克机器人。每年规模最大的赛事之一是 MIT Pokerbots Competition(pokerbots.org),学生团队在那里开发并让自己的扑克机器人互相对抗。
小结
机器人的「思考」不是魔法,也不是黑箱。它是一套评估选项、挑出最好那个的系统。脚本和 AI 之间的区别,就在于这套评估的深度。
几个要点:
- 脚本机器人照规则走;AI 计算最优解。
- AI 会为每名对手纳入上百个参数。
- GTO + 剥削的组合,既提供保护,又带来最高赢率。
- AI 实时适应;脚本不会。
- 长期来看,AI 稳定地跑赢脚本,也跑赢人。
想看 AI 实时怎么做决定?把手动模式打开——它会给出建议动作,并解释背后的逻辑:胜率多少、对手范围多宽、每个动作的 EV 是多少。你看到的不是一句冷冰冰的「加注 2.7x」,而是它凭什么这么建议。这也是中国玩家最在意的一点——可解释的决策链,正面回应「别给我一个看不懂的东西」这种疑虑。需要注意:AI 提升的是决策质量,并不保证盈利。试用可通过 Telegram 的 @PokerBotAI_ShopBot 申请。
手机扫码直达