V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能
4月24日,V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括 PyTorch、CUDA、Rust 和 C++。经过严格筛选后,保留了 30 项任务用于基准评估。
V4-Pro-Max 达到了 67% 的编码通过率,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它仍落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时远超 Haiku 4.5 的 13%。
在一次内部调查中,共有 85 名受访者,所有参与者都表示在日常工作流程中使用 V4-Pro 进行具备行动性的(agentic)编码。52% 将 V4-Pro 作为默认的首选编码模型,39% 倾向于认可,而不到 9% 表达不赞同。报告的问题包括底层错误、对含糊提示的误读,以及偶尔出现的过度思考行为。
三箭资本在 7 月份估计其资产约为 10 亿美元根据TheBlock获得的一份文件,三箭资本在7月份估计其资产约为10亿美元。法币资产估计价值3700万美元,代币价值约2.38亿美元,NFT价值约2200万美元,风险投资和其他投资价值5.02亿美元。这些资产远低于其超过30亿美元...
Ripple 与美国金融监管机构 SEC 之间的诉讼正在出现积极的迹象Ripple与美国金融监管机构SEC之间的诉讼正在出现积极的迹象,据CoinMarketCap数据显示,XRP现报价0.3867美元,24小时内上涨10.22%。Filan在推特上称,RippleLabs、BradGarlinghouse和ChrisLarsen预计将在周一提交简...
Vitalik 解释以太坊基金会为何不将 ETH 用于质押而是持续抛售关于以太坊基金会为何不将ETH用于质押而是持续抛售(并使用DeFi来弥补其大部分预算),Vitalik表示:担忧包括监管因素以及“迫使我们在未来任何有争议的硬分叉中表明立场”。但目前监管因素比之前少,第二个顾虑可以...
币安将移除ACM/BUSD、ALPACA/BUSD、BAR/BUSD等现货交易对币安宣布将于2023年07月26日11:00(东八区时间)移除以下现货交易对并停止交易:ACM/BUSD、ALPACA/BUSD、BAR/BUSD、LSK/BUSD、QTUM/BUSD、TFUEL/BUSD。
美国财政部国内金融副部长认为硅谷银行和 Signature Bank 的迅速倒闭不应归咎于加密资产行业美国财政部国内金融副部长NellieLiang认为,硅谷银行(SVB)和SignatureBank的迅速倒闭不应归咎于加密资产行业。Liang在周三的众议院金融服务委员会听证会上表示,“我不认为加密货币在这两起失败中发挥了直接作用”。...
Immutable X 在 ApeCoin 论坛上发布 AIP Idea:成为ApeCoin DAO 的 Layer 2 扩展合作伙伴
以太坊L2ImmutableX于5月27日在ApeCoin论坛上发布AIPIdea:希望ImmutableX成为ApeCoinDAO的Layer2扩展合作...
韩金融监督院对 PG 企业虚拟资产持有情况的调查:拥有虚拟资产的有 6 家,Do Kwon 旗下 Chai Corporation 零持有
据韩媒MoneyToday报道,韩国金融监督院最近对电子支付结算代理(PG)企业的虚拟资产(加密货币)持有情况进...
Kaiko 研究:Coinbase 在 LUNA 崩溃期间交易量创下其历史次高;FTX 5 月市场份额首次超过 Coinbase
据Kaiko研究,Coinbase在Terra的UST崩盘后的抛售中的交易量为其历史次高,仅次于519期间;FTX的市场份额在5...
获 Paradigm 和 Coinbase Ventures 投资的中东最大加密交易所之一的 Rain Financial 已在近期行情低迷时裁减了数十名员工
据知情人士透露,中东最大的加密货币交易所之一RainFinancialInc.已经在近期加密货币的低迷中解雇了数十名...