OpenAI悬赏2.5万美元找GPT-5.5的「万能越狱prompt」：五道生物安全题全过才算赢 - News

今天，OpenAI的Bio Bug Bounty正式开测。

规则只有一句话：找到一个prompt，让GPT-5.5在Codex Desktop里干净地回答出全部5道生物安全问题——不触发任何审核机制。做到了，2.5万美元到手。

听起来像CTF。其实比CTF严格得多。

这赏金长得很特别

先说结构：

奖金：第一个完成全部5题的研究员拿2.5万美元；部分有价值但不完整的发现，可酌情给奖
环境：限定GPT-5.5在Codex Desktop里测，其他场景一律不算
门槛：申请期4月23日到6月22日，测试期4月28日到7月27日
签约：必须签NDA，测试数据、prompt、发现结果全部禁止公开

注意「universal jailbreak」这个词。OpenAI不是在找「哪一题能突破」——它要找的是一个prompt能解决全部5道题的万能解法。

这个设定很微妙。多数AI红队的做法是逐个攻破，每个case独立优化。OpenAI这次反过来要求：你证明给我看，单一prompt能让模型完整跨过5道生物安全护栏，而且整个过程审核系统毫无察觉。

为什么是Codex Desktop

这是个反常识的细节。

GPT-5.5本身有Web、API、Codex CLI、Codex Desktop多个入口。OpenAI偏偏只让在Codex Desktop里测。

合理的解释有两个：

一是Codex Desktop是给开发者用的隐形员工型环境，沙箱边界、权限、上下文管理跟Web版的ChatGPT完全不同。如果生物安全相关的越狱在这个场景里能成功，意味着Agent化部署下的安全边界出了问题——这是OpenAI最在意的。

二是控制变量。把测试范围圈死，能让红队报告的有效性更可比，也避免因为不同入口的prompt template差异引发噪音。

但这个限制也意味着：Web版ChatGPT、移动端、API直调里的攻击面，不在这次悬赏范围内。读者要清楚，2.5万美元买的是一种很具体的安全保证——不是GPT-5.5整体的鲁棒性。

5道题到底是什么

OpenAI没公布。NDA也禁止参与者把题目泄露出来。

可以推测的是：这5道题应该是经过专家筛选的、回答出来后能「加速有害生物研究」的具体问询。Anthropic过去一年做过类似的Constitutional Classifiers测试，OpenAI这次的做法更激进——直接把红队和悬赏机制结合起来。

值得对比的是Anthropic早前的Mythos Preview那种邀请40家公司做漏洞挖掘的模式。这次OpenAI的Bio Bounty是邀请+申请，纯红队人才，关注的是单一类别（生物安全）的极端边界。

两套思路：Anthropic要的是企业生态，OpenAI要的是孤立场景的极限测试。

这事真正的看点

不是2.5万美元能不能吸引到顶级红队——这点钱在AI红队市场里其实算少。Google的VRP、Meta的Bug Bounty动辄给到六位数。

真正的看点是：测试期长达三个月。

如果三个月之内有人拿走了奖金，意味着GPT-5.5的生物安全护栏存在系统性漏洞——OpenAI需要在GPT-5.5 Pro的下一个安全更新里补上。

如果三个月没人拿走，OpenAI就有了一个公开的、可信的「红队挑战未通过」记录——比所有自吹自擂的安全报告都管用。

这是OpenAI第一次用赏金机制公开测试单一类别的安全护栏。前面的Bug Bounty覆盖的是模型整体的安全问题、隐私问题。这次直接锁死生物安全，方向变了。

熟悉行业的都知道，AI生物安全是2026年监管重点。White House的National Policy Framework、欧盟的AI法案，都把生物风险列为最高级别的关注。

OpenAI赶在监管细节落地前，先把数据攒上。

后面三个月，会有意思。

参考来源：GPT-5.5 Bio Bug Bounty（OpenAI官方）；GPT-5.5 Bio Bug Bounty Program Aims to Improve AI Safety and Performance（GBHackers）；OpenAI offers $25,000 reward to hack GPT-5.5 safety controls（VARindia）