陈天桥代季峰团队实现 30B 参数跑出 1T 性能，这对大模型发展意味着什么？

AI Summary1 min read

TL;DR

陈天桥与代季峰团队发布MiroThinker 1.5，仅用30B参数在多项基准测试中媲美或超越更大模型，实现高智效比和低成本，推动大模型向高效能发展。

新年刚至，陈天桥携手代季峰率先打响开源大模型的第一枪，正式发布其自研的旗舰版搜索智能体模型——MiroThinker 1.5，堪称智能体模型领域的最强“小钢炮”。最直观的体现来自基准测试的性能评测：面对GPT‑5‑High、Gemini‑3‑Pro、DeepSeek‑V3.2等一系列国内外顶尖模型，MiroThinker 1.5在四项基准测试中表现均毫不逊色：HLE‑Text（人类终极测试）：39.2%BrowseComp（网页检索类大模型基准测试）：69.8%BrowseComp‑ZH（BrowseComp的中文适配版本）：71.5%GAIA‑Val‑165（GAIA基准测试验证集）：80.8% 尤其在BrowseComp上，MiroThinker 1.5直接刷新了ChatGPT‑Agent保持的榜单纪录，强势跻身全球第一梯队。然而，MiroThinker 1.5的参数规模仅为上述主流模型的约1/30，其大小仅30B与235B两个版本。换言之，在全行业大模型竞逐参数规模与上下文长度时，MiroThinker 1.5凭借高智效比实现了相近甚至更优的效果。其关键在于采用了一种“巧劲”：不依赖死记硬背，而是通过大量深入的外部世界交互来持续提升推理能力。例如，将MiroThinker‑v1.5‑30B与1T参数的Kimi‑K2‑Thinking对比，不仅在BrowseComp‑ZH测试中实现了4.5%的性能超越，在推理成本上，MiroThinker 1.5的单条调用成本更低至$0.07，仅为Kimi的1/20。不止如此，MiroThinker 1.5的推理速度也显著优于Kimi‑K2‑Thinking 陈天桥代季峰打响2026大模型第一枪：30b参数跑出1t性能