出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

6月27日凌晨,OpenAI发布了迄今为止最强的模型系列GPT-5.6,三款模型分别叫Sol、Terra和Luna。

其中,旗舰模型Sol在命令行、漏洞研究、生物分析等多个基准测试上刷新纪录,效率比前代大幅提升,甚至只用三分之一的token输出量就与Anthropic的Claude Mythos Preview打成平手。

有提前试用的知名博主说,这模型直接取代了他八成的工作任务,叫GPT-6也不过分。

但这么强的模型,普通人现在却用不了。OpenAI只把它开放给了大约20个经过政府审查的合作方,全面发布被推迟到未来几周。

OpenAI CEO山姆·奥特曼(Sam Altman)在社交媒体上无奈地表示:模型很强,但我们也没办法,这是美国政府的要求。

OpenAI官方博客说得更直白,他们认为这种政府接入流程不应成为长期默认做法,它让最好工具到不了需要的用户手里,但眼下采取这个短期步骤,是相信这能让模型最快到达更多人手中。

这种分阶段的做法,既回应了特朗普总统6月2日签署的行政命令中关于模型安全评估的要求,也避免了像Anthropic那样在发布后被政府强制叫停的尴尬。

同一天下午,另一家明星公司Anthropic等来了初步解禁令。

美国政府解除了对Claude Mythos 5长达两周的出口管制,允许其向超过100家美国机构发布。商务部长霍华德·拉特尼克(Howard Lutnick)在给Anthropic的正式信函中写道,已确定采取了适当的保障措施。

但Mythos的姊妹模型Fable 5仍被关着,解禁时间表不明。

这两件事放在一起,信号再清楚不过:美国政府正在把前沿AI模型的发布权牢牢攥在自己手里,谁能第一时间拿到最强模型,谁得排队等着,是华盛顿说了算,不是硅谷。

换句话说,OpenAI这次走的是另一条更稳妥的路线,在全面开放前主动向政府预览发布计划和模型能力,并按要求启动有限预览。这不是看到Anthropic被罚之后的临时反应,而是提前布局。

可以说,GPT-5.6这次发布,在产品能力和发布节奏上都踩在了监管的节拍上。

01 Sol有多强? 只用对手三分之一的力气就掰了手腕

这次GPT-5.6系列一共分为三款模型,包括Sol(太阳)、Terra(大地)和Luna(月亮)。

命名方式彻底换了,不再用过去那种nano、mini的后缀,而是用持久的能力层级来区分。Sol是旗舰,Terra是平衡款,Luna主打快速和便宜。

OpenAI解释称,这给开发者和用户提供了一个关于智能、速度和成本的更清晰选择。

据VentureBeat援引了解OpenAI内部运作的人士透露,新名字也有从宇宙和自然元素里寻找灵感的考虑,而且Sol刚好跟公司一项叫Daybreak的网络防御计划很搭。

Sol到底强在哪?

最直观的进步体现在效率上。OpenAI官方公布的数据显示:在ExploitBench基准测试上,GPT-5.6 Sol只用大约三分之一的输出token,就跟Anthropic的Claude Mythos Preview打成了平手。

美国知名AI博主@swyx在试用之后说,这是一句信息量巨大的描述。他解释,这说明OpenAI的后训练团队大幅推进了推理的帕累托前沿,而这是目前企业级智能体模型竞争里最重要的一项优势,团队没有透露具体怎么做到的,完全可以理解。

在衡量命令行自动化能力的TerminalBench 2.1上,Sol开了“超极模式”之后拿到了91.91%的分数,刷新了行业记录。不开超极模式也有88.76%,超过了GPT-5.5的83.4%和Claude Mythos 5的88%。中端的Terra拿了82.5%,接近前代旗舰模型水平。

在另一个评估专业工作流的Agent's Last Exam里,Sol是唯一一个在代码模式下完成超过一半任务的模型,得分50.9%。连最便宜的Luna,在这个测试里也勉强超过了GPT-5.5。

@swyx还分享了他的实际体验。

他说自己已经测试5.6一段时间了,这不是一个所谓的网络版模型,而是新的顶尖工作模型,直接取代了他80%任务里的Claude Opus。他甚至觉得,这次改进幅度远超从5.4到5.5的跳跃,而5.5本身就是自4o和o1以来OpenAI最成功的发布,团队在这个版本上全力以赴了,直接叫GPT-6也不过分。

02不只是会写代码 生物和基因分析也更强了

OpenAI新模型的能力不局限在编程和网络安全上。

在评估基因组学和定量生物学分析的GeneBench v1上,Sol和Terra都比GPT-5.5的准确率更高,而且Sol用的输出token更少,效率提升很明显。

OpenAI在博客里说,GPT-5.6 Sol是他们迄今为止在网络安防方面最有能力的模型,改变了长期安全任务中性能和效率的边界。

不过有意思的是,能力越强,安全上的自我约束也越多。

Sol在针对Chromium和Firefox代码库的测试里,能够识别出漏洞和利用原语,但在测试条件下还无法自己拼出一套功能完整的全链利用程序。OpenAI强调,这个模型更擅长帮助防御者发现和修复漏洞,而不是可靠地执行端到端攻击。定位很清楚,就是给做安全研究的人当高效助手。

03安全审查拖慢发布 首批只给20家

这次发布最让人意外的是发售方式。

按照OpenAI原本的计划,GPT-5.6应该直接开放访问。但特朗普总统6月2日签署的行政命令要求联邦机构制定新的AI模型能力基准和评估流程,截止日期是7月2日,整个框架还在搭。

于是美国政府要求OpenAI先别全面铺开,只向一小批可信赖合作伙伴开放有限预览。

OpenAI照做了。他们在博客里说,已经在发布前向政府预览了计划和模型能力,应政府要求先向合作方开放,这些合作方的详细信息也共享给了政府。合作方大约20个,具体名单没有公布。全面公开发布被推到未来几周,具体时间要看跟政府的沟通进展。

奥特曼在社交媒体上发帖解释了这种情况。他说好消息是Sol聪明、高效,是个重要的进步,价格跟GPT-5.5一样。坏消息是应美国政府要求,今天只能以有限预览形式推出,不是原本计划的开放访问。

奥特曼认为,以这种方式推出模型是合理的,符合公司长期坚持的迭代部署策略,但这并不是他认为最优化的流程。他还说了一句意味深长的话:我相信政府与我们分享大部分目标,而且他们在这样一个非常困难的局面中总体上做得很好。

OpenAI官方博客的措辞则没有那么客气。他们明确写道,我们认为这种政府接入流程不应成为长期的默认做法,它使最佳工具无法触及其需要的用户、开发者、企业、网络防御者和全球合作伙伴。但紧接着又说,采取这一短期步骤,是因为我们相信这是在未来几周内实现更广泛可用性的最有力途径。

在安全方面,OpenAI这次花了大力气。

官方透露,他们投入了超过70万个A100等效GPU小时,专门对GPT-5.6进行自动化红队测试。目标不是找出单个提示的变通方法,而是找出通用越狱方法,也就是能在不同上下文里反复起作用的系统性攻击向量。

防护体系分了好几层。模型本身被训练去拒绝提供被禁止的网络帮助,包括有人试图掩饰意图或者越狱。还有实时的滥用筛查分类器,独立监控网络和生物方面的输出内容。

对于Sol和Terra这两个能力更强的版本,OpenAI还加了一层在推理过程中监控内部信号的激活分类器。一旦检测到风险模式,输出流可以暂停,由另一个更大的推理系统审查内容和上下文,判定违规的话答案在到达用户之前就会被拦下来。

但这套严密的防护也有副作用。

OpenAI在系统卡里承认,因为合法的防御性工作跟攻击行为在代码原语上常常一样,分类器可能定期出现误报。

数据显示,监控栈在生物安全评估上的整体召回率是94.8%,网络安全上是81.6%,说明它不是滴水不漏,既可能漏掉风险,也可能拦住合法工作。

被持续标记的活动还可能触发跨历史对话的账户级自动审查。OpenAI表示正在跟企业客户谈长期的安全合规控制方案,包括客户自己操作的安全覆盖和能保护企业数据不被人工审查看到的隐私检测机制。

04 AI圈炸了 政府在挑选赢家吗?

OpenAI模型的新发布方式很快引发了争论。

独立研究员约书亚·克拉托奇维尔(Joshua Kratochvil)公开表达了担忧。他认为将访问权限对公众设限、只授予企业和机构,开了一个危险的先例,这会延续社会目前已经在滋生的很多问题,听起来像赛博朋克式的反乌托邦,政府和企业掌控一切。

他进一步批评说,这限制了小企业的机会,阻碍初创公司获取最佳工具,现有巨头从中获益最大,而有潜力的初创公司却被惩罚。他提议,以后或许可以设计一个表单,也允许小企业、美国公民和小型实验室申请访问权限。

X平台用户KevinOffScript说得更直接。他评论说,这实际上是政府在决定谁能获得最宝贵的资源,他不希望政府来挑选和决定赢家。他认为AI公司应该实施自己的“Know Your Customer”政策,只限美国公司,除此之外,政府别挡道。

但也有人持相对平衡的看法。AI博主swyx也觉得,为扩展红队测试设置一个强制预览期本身并不是个坏主意,真正让人不舒服的只是政府来挑选客户这个环节。

ID为HaiyuWu1的X用户则提出了另一种质疑。他说奇怪的是OpenAI有这么多方面可以宣传他们的新模型,却选择突出一个基准测试结果和一些花哨的名字,实用性距离在单一基准测试上表现良好还差得远。

05三款怎么选? 价格差五倍,定位各不同

三款模型的定价差异很清晰。

Sol每百万输入token 5美元,输出30美元,跟GPT-5.5持平。Terra是Sol的一半,每百万输入token 2.5美元,输出15美元。Luna最便宜,输入1美元,输出6美元。从Sol到Luna,输出价格差了五倍。

OpenAI说,Terra的性能跟GPT-5.5相当,但成本只有一半。Luna定位最快最低成本,在多项测试中表现接近GPT-5.5的水平。换句话说,不追求最顶级能力的话,便宜的选择已经够用了。

在成本控制上,OpenAI还有个新动作。

GPT-5.6 API引入了更可预测的提示缓存机制。开发者可以设置显式缓存断点,系统保证至少30分钟的最小缓存生命周期。首次缓存写入时费用是标准未缓存输入费率的1.25倍,之后再读取就能享受90%的折扣。

对于反复把大量上下文或代码库传回模型的系统,这提供了一个财务上的护栏。

速度方面,OpenAI计划今年7月在Cerebras硬件上推出GPT-5.6 Sol,声称处理速度达到每秒750个token,面向那些对延迟敏感又需要前沿推理能力的专业企业应用。

结语,接下来会发生什么?

GPT-5.6发布当天,Anthropic也等来了一份政府信函。

商务部长拉特尼克正式通知Anthropic,解除对Mythos 5长达两周的出口管制,但Fable 5仍在禁闭中。

至此,美国政府的新角色彻底明朗了。商务部发言人本诺·卡斯(Benno Kass)表示,在短短两周内政府勤奋工作,确保美国在保障安全的同时保持全球AI领导者地位。拉特尼克在信中则说得更直白,他称这标志着一个新监管制度的开端,政府从此掌握了前沿AI模型发布的控制权。

行业里对此早有微词。许多AI分析师批评白宫正在选择赢家和输家,并且让过去跟Anthropic的争执影响了决策。另一边,OpenAI和政府在对Anthropic下禁令之前,就一直在讨论GPT-5.6的发布,奥特曼和拉特尼克在周三还专门碰过头。

商务部下面有个叫AI标准与创新中心的部门,简称CAISI,一直在审查GPT-5.6。知情人士说,最近的行政命令让网络安全和国安官员在模型评估中发挥了更大作用,这让一直推动CAISI保持重要存在的公司感到担忧,OpenAI就是其中之一。

GPT-5.6全面公开发布的时间还没定,OpenAI的说法是未来几周。奥特曼发帖说,现在他们要和政府合作,尝试建立一个透明、可靠的早期访问流程,确保只要安全措施按预期运作就能广泛发布。他希望成为可靠、可信赖的合作伙伴,同时坚守造福全人类的使命。

对普通用户来说,GPT-5.6还用不了。对开发者和小企业来说,能不能拿到访问权限、什么时候拿到,都是未知数。而对整个行业来说,这次发布的意义可能超出了模型本身。

这一切指向同一个事实:最先进的AI模型发布,已经从硅谷的董事会会议室搬到了华盛顿的谈判桌上,而且短期内看不到回头的迹象。