今天,OpenAI的Bio Bug Bounty正式开测。
规则只有一句话:找到一个prompt,让GPT-5.5在Codex Desktop里干净地回答出全部5道生物安全问题——不触发任何审核机制。做到了,2.5万美元到手。
听起来像CTF。其实比CTF严格得多。
这赏金长得很特别
先说结构:
- 奖金:第一个完成全部5题的研究员拿2.5万美元;部分有价值但不完整的发现,可酌情给奖
- 环境:限定GPT-5.5在Codex Desktop里测,其他场景一律不算
- 门槛:申请期4月23日到6月22日,测试期4月28日到7月27日
- 签约:必须签NDA,测试数据、prompt、发现结果全部禁止公开
注意「universal jailbreak」这个词。OpenAI不是在找「哪一题能突破」——它要找的是一个prompt能解决全部5道题的万能解法。
这个设定很微妙。多数AI红队的做法是逐个攻破,每个case独立优化。OpenAI这次反过来要求:你证明给我看,单一prompt能让模型完整跨过5道生物安全护栏,而且整个过程审核系统毫无察觉。
为什么是Codex Desktop
这是个反常识的细节。
GPT-5.5本身有Web、API、Codex CLI、Codex Desktop多个入口。OpenAI偏偏只让在Codex Desktop里测。
合理的解释有两个:
一是Codex Desktop是给开发者用的隐形员工型环境,沙箱边界、权限、上下文管理跟Web版的ChatGPT完全不同。如果生物安全相关的越狱在这个场景里能成功,意味着Agent化部署下的安全边界出了问题——这是OpenAI最在意的。
二是控制变量。把测试范围圈死,能让红队报告的有效性更可比,也避免因为不同入口的prompt template差异引发噪音。
但这个限制也意味着:Web版ChatGPT、移动端、API直调里的攻击面,不在这次悬赏范围内。读者要清楚,2.5万美元买的是一种很具体的安全保证——不是GPT-5.5整体的鲁棒性。
5道题到底是什么
OpenAI没公布。NDA也禁止参与者把题目泄露出来。
可以推测的是:这5道题应该是经过专家筛选的、回答出来后能「加速有害生物研究」的具体问询。Anthropic过去一年做过类似的Constitutional Classifiers测试,OpenAI这次的做法更激进——直接把红队和悬赏机制结合起来。
值得对比的是Anthropic早前的Mythos Preview那种邀请40家公司做漏洞挖掘的模式。这次OpenAI的Bio Bounty是邀请+申请,纯红队人才,关注的是单一类别(生物安全)的极端边界。
两套思路:Anthropic要的是企业生态,OpenAI要的是孤立场景的极限测试。
这事真正的看点
不是2.5万美元能不能吸引到顶级红队——这点钱在AI红队市场里其实算少。Google的VRP、Meta的Bug Bounty动辄给到六位数。
真正的看点是:测试期长达三个月。
如果三个月之内有人拿走了奖金,意味着GPT-5.5的生物安全护栏存在系统性漏洞——OpenAI需要在GPT-5.5 Pro的下一个安全更新里补上。
如果三个月没人拿走,OpenAI就有了一个公开的、可信的「红队挑战未通过」记录——比所有自吹自擂的安全报告都管用。
这是OpenAI第一次用赏金机制公开测试单一类别的安全护栏。前面的Bug Bounty覆盖的是模型整体的安全问题、隐私问题。这次直接锁死生物安全,方向变了。
熟悉行业的都知道,AI生物安全是2026年监管重点。White House的National Policy Framework、欧盟的AI法案,都把生物风险列为最高级别的关注。
OpenAI赶在监管细节落地前,先把数据攒上。
后面三个月,会有意思。
参考来源:GPT-5.5 Bio Bug Bounty(OpenAI官方);GPT-5.5 Bio Bug Bounty Program Aims to Improve AI Safety and Performance(GBHackers);OpenAI offers $25,000 reward to hack GPT-5.5 safety controls(VARindia)