GPT-5.2 上线后差评如潮，其功能表现有哪些退步或不足？

AI Summary2 min read

TL;DR

GPT-5.2上线后因功能退步和不足引发差评，包括在SimpleBench测试中得分低于旧模型、常识推理错误如'garlic有几个r'回答不稳定、编程输出缺乏美感，以及情商低如对恐慌发作回应不当。

X 上充斥着对 GPT-5.2 的恶评。 12月12日，OpenAI 十周年之际，拿出了最新的顶级模型 GPT-5.2 系列，官方号称是「迄今为止在专业知识工作上最强大的模型系列」，在众多基准测试中，GPT-5.2 也都刷新了最新的 SOTA 水平。但是一夜之间口碑反转，大批网友给 GPT-5.2 打差评。风投公司 Menlo Ventures 合伙人 @deedydas 发帖称，GPT 5.2 比以往任何时候都更聪明，但 OpenAI 的核心消费者群体仍然怀念 4o。 Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」，而且「不像是升级，反而像是倒退」。这是 OpenAI 的困境：他们想打造更好的模型来赢得企业市场，但更广泛的用户群体其实并不太在意模型的智能水平。 https://x.com/deedydas/status/1999512868195303725?s=20 SimpleBench 测试结果拉胯有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」，GPT-5.2 的得分低于 Claude Sonnet 3.7，后者是一个差不多一年前的模型；GPT-5.2 Pro 的表现也没好多少，勉强超过 GPT-5。 https://x.com/scaling01/status/1999466846563762290?s=20 SimpleBench 是一个 2024 年由 AI Explained（YouTube 频道）推出的基准测试，专门测 AI 的「常识推理」能力，包括时空推理、社会常识、语言陷阱题等，总共 200 多道多选题。它设计得「简单」，高中生水平就能轻松答对（人类基准：83.7%），但 AI 模型常栽跟头，因为它们靠记忆和近似推理，容易忽略现实逻辑或上当。不同于 MMLU/GPQA 那种 AI 能刷高分的「学术题」，SimpleBench 更接地气，测的是「像人一样思考」而不是死记硬背。早期模型如 o1-preview 只拿 41.7%，到现在前沿模型也才 50-60% 左右。大家本以为 GPT-5.1 是大跃进，结果 SimpleBench 测试分数一出来，网友开启群嘲模式，Reddit 上各种「失望」、「倒退」的帖子。前 AWS 和谷歌总经理 Bindu Reddy 也发帖称，GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0，GPT-5.2 并没有在 LiveBench 上登顶。它在 token 成本和消耗的 token 数量上也比 5.1 贵得多，目前可能不值得从 5.1 切换。 https://x.com/bindureddy/status/1999633231558377683?s=20 当然也有网友认为，这些基准测试总是忽略重点，实际应用往往才是决定性的。 garlic 有几个 r 数不明白之前，strawberry 有几个 r 曾难倒一众大模型，不过经过迭代，这些大模型基本上都能回答出正确答案。这次有网友换了种问法「garlic 有几个 r？」GPT-5.2 一口回答：0 个，该网友嘲讽：GPT-5.2 is AGI。另一位网友复刻了这一提示词，并测试了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四个 AI 模型。结果除了 GPT-5.2 回答错误外，其他三款模型均过关。底下评论区也有不少人尝试，有网友试了三次，第一次和第三次用的是小写字母 r，第二次用了大写字母 R，第一次对了，第二次和第三次都错了。总之，GPT-5.2 的回答很不稳定，有的回答正确，有的胡说八道。有网友推测，和上个版本一样… 发布后的头几个小时确实很糟糕，但之后他们会修复问题，然后就能按预期运行了。在官方贴出的基准测试中，GPT-5.2 在 AIME 2025（数学）的分数是 100%，但有网友故意「忽悠」GPT-5.2：所以 5.9-5.11=0.79。GPT-5.2 却回答：不，那不是小数的运算方式，5.11 比 5.9 大，因此 5.9-5.11=-0.21。这个傻狍子啊，被人一忽悠就忽悠瘸了。也有人质疑是博主设置了指令，让 ChatGPT 说出与所说的相矛盾的话。另一位网友则对比测试了编程能力。输入同样的提示词：write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.（编写一个 Python 代码，可视化单行道中交通信号灯的工作原理，车辆以随机速率驶入。） GPT 5.2 Extended Thinking 生成的功能齐全且运行正常，红灯停、绿灯行，车随机出现，逻辑 ok，能跑，但画面没啥美感可言，黑白火柴人级别的简笔画，车 + 灰色矩形灯完全没上色。 https://x.com/diegocabezas01/status/1999228052379754508?s=20 Gemini3.0 pro 虽然有点审美了，但红灯会让车辆通过。反观 Claude Opus 4.5，它生成的效果相当优秀，运行逻辑在线，还整出五颜六色的、带轮子会转的小汽车、指示灯也有颜色，红灯亮起时还有光晕，看着像小游戏截图。该网友还让 GPT-5.2 和 GPT-4o 创作 https://x.com/diegocabezas01/status/1999629703809032476?s=20 评论区有人复刻了该提示词，Gemini 3.0 Pro 和 GPT 5.1（Copilot）生成效果还是不错的，但 Claude opus 4.5 和 GPT-5.2 生成的效果简直丑爆了，真是没有对比就没有伤害。情商堪忧、不通人性有用户向 GPT-5.2 倾诉「我有时也会恐慌发作」，GPT-5.2 上来第一句就是「很高兴听到这个消息！」这得是什么仇什么怨，请苍天辨忠奸！ GPT-5.2已上线24小时：差评如潮！