美科技媒体：中国新大模型在基准测试中击败所有OpenAI和谷歌模型 ...

2026-6-24 12:27 55 0

摘要: 北京智谱AI旗下的GLM-5.2，在人工智能分析公司（Artificial Analysis）发布的GDPval-AA v2基准测试中获得1524分的Elo评分，全球排名第三，仅次于Anthropic的Claude Fable 5（1783分）和Claude Opus 4.8（1615分）。

关键词：GLM-5.2, Claude, GPT-5, GDPval-AA, GPT-5.5, 智谱AI, AI, Opus, 测试中, 基准测试

美国科技媒体officechai.报道，一个被美国列入实体清单、买不到英伟达芯片的中国AI实验室，刚刚在衡量真实职场工作能力的权威基准测试中，把GPT-5.5和谷歌所有模型都甩在了身后。

这不是某个偏门榜单的意外闯入。北京智谱AI旗下的GLM-5.2，在人工智能分析公司（Artificial Analysis）发布的GDPval-AA v2基准测试中获得1524分的Elo评分，全球排名第三，仅次于Anthropic的Claude Fable 5（1783分）和Claude Opus 4.8（1615分）。OpenAI的GPT-5.5在最高推理设置下得分1509分，谷歌最好的Gemini 3.5 Flash得分1357分，均落在GLM-5.2之后。

这个结果的冲击力，在于GDPval-AA测量的究竟是什么。

不是解谜题，是做真实的工作

传统AI基准测试往往考的是孤立的推理题或编程挑战，本质上更像考试。GDPval-AA的设计逻辑完全不同，它模拟的是有实际经济价值的知识工作：多轮交互、长时跨度、真实的专业任务场景。在这套测试中，GLM-5.2平均每项任务完成约31轮对话，这不是"回答一个问题"，而是"持续推进一件事"。

人工智能分析团队用同一份真实任务清单同时测试了GLM-5.2和三个前沿模型，包括零售主管的日常业务清单、IEC紧急停止电路原理图分析以及管弦乐情绪板设计。三项任务中，GLM-5.2的表现均与Claude Fable 5、GPT-5.5和Gemini 3.5 Flash处于同一梯队。

这一模式在另一个名为AA-Briefcase的专项基准测试中同样成立。该测试专门针对研究、分析和结构化交付成果类工作，将评分通过率、分析质量和表达能力合并为一个综合Elo分数。GLM-5.2在此拿下1266分，超越GPT-5.5的1159分，再次占据开源模型榜首。

横向来看，GLM-5.2的表现并非偶发。在人工智能分析智能指数（AIAI）中它排名第四，得分51分，整体仅落后于三个专有闭源模型。在代理指数（Agentic Index）的开放权重分类中，它同样排名第一。智谱AI对这批数据的总结是：所有测试结果高度一致，没有明显的短板。

被"卡脖子"的反面教材

这里有一个细节，值得单独拎出来说。

智谱AI自2025年1月起被列入美国实体清单，无法采购英伟达GPU。GLM-5.2运行在华为昇腾芯片之上。这件事本身就构成对"芯片出口管制能有效遏制中国AI发展"这一论点的直接反驳。

不仅如此，GLM-5.2还是开放权重模型，定价极为激进：每百万输入代币1.40美元，每百万输出代币4.40美元。对比之下，Claude Opus 4.8的定价是输入15美元、输出75美元，贵出将近一个数量级。一个价格如此低廉、硬件资源受限的开放模型，在智能体真实工作基准测试上与顶级专有模型并驾齐驱，这件事从经济逻辑到地缘政治含义，都远超一张榜单本身的意义。

智谱AI的迭代节奏同样值得关注。GLM-5于2月发布，GLM-5.1于3月下旬跟进，GLM-5.2于6月推出，平均每六周就有一个重要版本落地。GLM-5.1已在SWE-Bench Pro软件工程测试中超越GPT-5.4和Claude Opus 4.6，成为首个在该测试中登顶的中国模型。GLM-5.2则在另一条更贴近真实应用的赛道上继续延伸这一势头。

过去十二个月，"中国AI落后美国半年到一年"是行业的普遍共识。这个共识正在被一份又一份基准数据逐渐瓦解。GLM-5.2不是终点，它更像是一个信号：这场竞争的格局，比大多数人想象的要复杂得多。

本文出处： https://www.toutiao.com/article/7654501570134016546/

声明：文章版权归原作者所有部分文章转自互联网如有侵权请联系 [邮箱地址] 删除