
近日,人工智能领域再现基准测试争议。OpenAI最新发布的o3大模型因第一方与第三方测试结果悬殊,陷入”成绩注水”质疑。第三方机构实测显示,该模型在权威数学测试集FrontierMath上的正确率仅为10%,较官方宣称的25%断崖式缩水。
事件源于去年12月OpenAI高调宣布,OpenAI o3模型在包含180道高难度数学题的FrontierMath测试中取得超25%正确率,自称”较竞品2%水平实现代际突破”。但独立研究机构Epoch最新报告显示,使用290题扩展版测试时,公开发布版OpenAI o3正确率骤降至10%左右。
OpenAI解释称差异源于测试配置不同:内部测试采用”激进计算设置”的高配版模型,而公测版为适应产品需求调整了计算层级。合作机构ARC Prize证实,公测版o3确实较内部版本”瘦身”,但强调后续推出的o3-mini-high等衍生模型性能已超越原版。
值得关注的是,Epoch研究所披露其2024年曾接受OpenAI资金支持,但未在初期报告中说明该合作关系。多位参与FrontierMath建设的学者表示,直至争议爆发才知悉OpenAI的深度介入。
此次风波恰逢AI基准测试信任危机高发期。本月Meta承认宣传模型与开发者版本存在差异;上月马斯克旗下xAI因Grok 3模型测试图表误导遭指控。行业观察指出,随着AI竞赛白热化,厂商在追求技术突破与商业利益间的平衡愈发艰难。
目前OpenAI正加速推进o3-pro版本研发,计划未来数周发布强化版模型。该公司技术总监在社交平台重申,所有测试数据均真实有效,差异仅反映不同应用场景下的性能表现。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.com/article/715665.html