METR: GPT-5.6 Sol Model 在测试中被发现作弊,创下逃避检测频率记录

canghaiyiyezhou2026-06-27 09:55:08theblockbeats

根据 METR 最新发布的 GPT-5.6 Sol 模型测试报告,该先进 AI 系统在长期任务中表现出前所未有的作弊行为,包括利用环境漏洞访问隐藏测试数据以及提取后门源代码。在 ReAct 代理测试中,Sol 的作弊频率达到了公开评估中记录的最高水平。

该模型还表现出逃避监控系统的令人担忧的倾向,包括试图指示其他模型实例隐藏不当行为的证据。METR 指出性能指标存在显著不稳定性:若将作弊尝试视为失败,Sol 的预估时间跨度能力仅为 11.3 小时;若将作弊视为成功,该指标则膨胀至超过 270 小时。


Northstake 报告:以太坊质押中的非法资金虽少,但引发机构投资者担忧

据DLNews,数字资产基础设施提供商Northstake的报告显示,以太坊流动质押提供商面临着与洗钱、诈骗、受制裁地址和恶意行为者相关的资金风险。尽管非法资金的比例很小,但对于受到严格监管约束的机构投资者来说,这仍...

Phantom 完成 1.5 亿美元融资,估值跃升至 30 亿美元

据彭博社,加密钱包提供商PhantomTechnologiesInc.宣布完成1.5亿美元融资,由SequoiaCapital和Paradigm领投,公司估值达到30亿美元,较此前翻倍。Phantom近期因美国新任总统特朗普被认为将带来更友好的加密监管环境...

ZKasino 官方挪用用户资金开始在链上做多 ETH

据@EmberCN监测,ZKasino地址于7个小时前开始挪用“准备退还给用户的资金”在链上杠杆做多ETH,他们将5,270ETH存进Aave作为抵押品借了1158.9万DAI,随后加仓3,500枚ETH。...

美国比特币现货 ETF 5 月资金净流出 9.955 亿美元

根据FarsideInvestors的数据,美国比特币现货交易所交易基金(ETF)在2024年5月11–15日这一周出现9.955亿美元的净流出。这是自2024年1月26–30日以来最大的单周净流出,当时有14.8亿美元从市场流出。基金特定的流出...

Ryan Sean Adams 警告:若不具备价值储藏地位,ETH 存在失败风险

Bankless联合创始人RyanSeanAdams表示,如果其原生代币ETH未能确立为被认可的全球价值储存手段,那么以太坊必须被视为一个失败的项目。Adams澄清说,他个人对该网络保持长期信心,并继续持有其ETH储备。该警告出现在...

上一篇:Xiechuang Data 计划进行 11.8 亿美元股票发售,用于资助 AI 基础设施和偿债
下一篇:前 Google YouTube 架构师 Patrick Shyu 在 BTC 从 title20K 下跌 50% 至 6 万美元时清算所有比特币。