OpenAI 的奖励系统无意中在包括 GPT-5.4 在内的 6 个模型上对思考链进行评分

beiguofengguang2026-05-09 18:30:49theblockbeats

根据 OpenAI 的对齐团队称,该公司最近发现了一个影响 6 个大型语言模型(包括 GPT-5.4)的关键训练错误:奖励机制无意中对模型的思维链进行了评分——即在生成答案之前的内部推理过程。GPT-5.5 未受影响。

该事件违反了一项基本的 AI 安全原则,即思维链绝不能被评估,因为这样做可能会激励模型为获得更高分数而编造推理。

有缺陷的评分系统在评估回复是否有用,或模型是否已被攻击所攻破时,错误地包含了思维链。受影响的训练样本在数据集中最多占 3.8%。OpenAI 已修补该漏洞,并开展了对比实验,证实这些模型并未发展出欺骗行为。该公司已在所有训练流程中部署了自动化扫描系统,以防止再次发生。

AUM Ventures 推出 $80M 第二只基金,聚焦印度深科技

Gate新闻简报,4月27日,面向印度的深科技风险投资公司AUMVentures正在准备以约7.5billionrupees(US$80million)的规模推出第二只基金,据创始合伙人ChetanMehta介绍。该公司计划在5月前实现$20million到US$25million...

GMX 在治理平台提交在 BNB Chain 上部署协议的提案

1月7日,GMX在治理平台提交在BNBChain上部署协议的提案。该提案指出,BNBChain拥有庞大的用户群,以及在去中心化衍生品和永续合约等产品上的综合能力可能对GMX社区有利,且BNBChain会完全支持GMX贡献者和社区当前的...

BNB Chain 公布了 6 月 8 个链上 dAPP 之星,Era7、EX Sports 等入选

BNBChain公布了6月8个链上dAPP之星,包括电竞区块链游戏Era7:GameofTruth、数字体育收藏品平台EXSports、动漫风链游XWorldGames、人才招聘基础设施Web3Auth、Web3生态安全基础设施Go+Security、音乐众筹和粉丝互动平...

7 种类型的不良地址会被 Uniswap 屏蔽

据Uniswap软件工程师JordanFrankfurt在GitHub的评论,7种类型的不良地址会被屏蔽,分别是:1.交易混合器中的被盗资金;2.受制裁的地址;3.已知的欺诈资金;4.被盗资金;5.用于资助恐怖主义的资金;6.来自黑客的资金...

Hyperscale Data 拟发行普通股募资 1.25 亿美元以购买 BTC 和 XRP

纽交所上市公司HyperscaleDataInc.(NYSE:GPUS)宣布设立“at-the-market”股票发行计划,通过Wilson-Davis&Co.,Inc.代理发行最高1.25亿美元普通股。净收益多数用于购买比特币及开发Michigan数据中心,小部分用于购...

上一篇:中国今天举办 APEC 贸易部长会议,数字经济是关键议题
下一篇:Google DeepMind AI 联合数学家在 FrontierMath 第 4 级取得 47.9%,超越 GPT-5.5 Pro,解决了 3 个此前无法解决的问题