| 关键词:GLM-5.2, Claude, GPT-5, GDPval-AA, GPT-5.5, 智谱AI, AI, Opus, 测试中, 基准测试 |
美国科技媒体officechai.报道,一个被美国列入实体清单、买不到英伟达芯片的中国AI实验室,刚刚在衡量真实职场工作能力的权威基准测试中,把GPT-5.5和谷歌所有模型都甩在了身后。 这不是某个偏门榜单的意外闯入。北京智谱AI旗下的GLM-5.2,在人工智能分析公司(Artificial Analysis)发布的GDPval-AA v2基准测试中获得1524分的Elo评分,全球排名第三,仅次于Anthropic的Claude Fable 5(1783分)和Claude Opus 4.8(1615分)。OpenAI的GPT-5.5在最高推理设置下得分1509分,谷歌最好的Gemini 3.5 Flash得分1357分,均落在GLM-5.2之后。 这个结果的冲击力,在于GDPval-AA测量的究竟是什么。 不是解谜题,是做真实的工作![]() 传统AI基准测试往往考的是孤立的推理题或编程挑战,本质上更像考试。GDPval-AA的设计逻辑完全不同,它模拟的是有实际经济价值的知识工作:多轮交互、长时跨度、真实的专业任务场景。在这套测试中,GLM-5.2平均每项任务完成约31轮对话,这不是"回答一个问题",而是"持续推进一件事"。 人工智能分析团队用同一份真实任务清单同时测试了GLM-5.2和三个前沿模型,包括零售主管的日常业务清单、IEC紧急停止电路原理图分析以及管弦乐情绪板设计。三项任务中,GLM-5.2的表现均与Claude Fable 5、GPT-5.5和Gemini 3.5 Flash处于同一梯队。 这一模式在另一个名为AA-Briefcase的专项基准测试中同样成立。该测试专门针对研究、分析和结构化交付成果类工作,将评分通过率、分析质量和表达能力合并为一个综合Elo分数。GLM-5.2在此拿下1266分,超越GPT-5.5的1159分,再次占据开源模型榜首。 横向来看,GLM-5.2的表现并非偶发。在人工智能分析智能指数(AIAI)中它排名第四,得分51分,整体仅落后于三个专有闭源模型。在代理指数(Agentic Index)的开放权重分类中,它同样排名第一。智谱AI对这批数据的总结是:所有测试结果高度一致,没有明显的短板。 被"卡脖子"的反面教材![]() 这里有一个细节,值得单独拎出来说。 智谱AI自2025年1月起被列入美国实体清单,无法采购英伟达GPU。GLM-5.2运行在华为昇腾芯片之上。这件事本身就构成对"芯片出口管制能有效遏制中国AI发展"这一论点的直接反驳。 不仅如此,GLM-5.2还是开放权重模型,定价极为激进:每百万输入代币1.40美元,每百万输出代币4.40美元。对比之下,Claude Opus 4.8的定价是输入15美元、输出75美元,贵出将近一个数量级。一个价格如此低廉、硬件资源受限的开放模型,在智能体真实工作基准测试上与顶级专有模型并驾齐驱,这件事从经济逻辑到地缘政治含义,都远超一张榜单本身的意义。 智谱AI的迭代节奏同样值得关注。GLM-5于2月发布,GLM-5.1于3月下旬跟进,GLM-5.2于6月推出,平均每六周就有一个重要版本落地。GLM-5.1已在SWE-Bench Pro软件工程测试中超越GPT-5.4和Claude Opus 4.6,成为首个在该测试中登顶的中国模型。GLM-5.2则在另一条更贴近真实应用的赛道上继续延伸这一势头。 过去十二个月,"中国AI落后美国半年到一年"是行业的普遍共识。这个共识正在被一份又一份基准数据逐渐瓦解。GLM-5.2不是终点,它更像是一个信号:这场竞争的格局,比大多数人想象的要复杂得多。 |
| 本文出处: https://www.toutiao.com/article/7654501570134016546/ |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|