今年2月5号OpenAI发了GPT-5.3-Codex,编程能力确实往上蹦了一大截——但随之而来的是一个不太好看的标签:OpenAI内部安全评估框架给出的第一个”高”网络安全风险等级。
到底有多危险?
OpenAI自己说得很委婉:”没有确凿证据表明该模型能完全自动化网络攻击”,但”出于预防考虑”部署了”迄今最全面的网络安全防护栈”。
翻译一下就是:这模型的编程能力强到了一个临界点,如果被大规模自动化利用,在网络安全领域可能造成实质危害。
安全措施
OpenAI采取了几层防护:
- 安全训练:模型层面的对齐
- 自动监控:检测可疑请求
- 分级访问:高风险操作只对受信任用户开放
- 降级路由:检测到高网络安全风险的请求,自动转到上一代GPT-5.2处理
发布节奏也异常谨慎,推迟了对开发者的全面开放。
后续风波
加州的AI安全监管机构随后声称这次发布可能违反了该州新通过的AI安全法。OpenAI否认了这个指控。
3月份还曝出了一个Codex GitHub token泄露漏洞——后来打了补丁。
OpenAI还拿出了$1000万的API额度来支持网络防御研究,延续了2023年开始的$100万网络安全资助计划。
这里面有个深层矛盾:编程能力越强,被滥用的风险越高。 模型能力的提升和安全风险的增长几乎是线性正相关的。OpenAI选择了”先发布再防护”的路线,而不是”防护好了再发布”。对这个选择,行业内分歧很大。
参考来源:Fortune报道