陈天桥代季峰团队实现 30B 参数跑出 1T 性能,这对大模型发展意味着什么?
TL;DR
陈天桥与代季峰团队发布MiroThinker 1.5,仅用30B参数在多项基准测试中媲美或超越更大模型,实现高智效比和低成本,推动大模型向高效能发展。
新年刚至,陈天桥携手代季峰率先打响开源大模型的第一枪,正式发布其自研的旗舰版搜索智能体模型——MiroThinker 1.5,堪称智能体模型领域的最强“小钢炮”。 最直观的体现来自基准测试的性能评测:面对GPT‑5‑High、Gemini‑3‑Pro、DeepSeek‑V3.2等一系列国内外顶尖模型,MiroThinker 1.5在四项基准测试中表现均毫不逊色:HLE‑Text(人类终极测试):39.2%BrowseComp(网页检索类大模型基准测试):69.8%BrowseComp‑ZH(BrowseComp的中文适配版本):71.5%GAIA‑Val‑165(GAIA基准测试验证集):80.8% 尤其在BrowseComp上,MiroThinker 1.5直接刷新了ChatGPT‑Agent保持的榜单纪录,强势跻身全球第一梯队。 然而,MiroThinker 1.5的参数规模仅为上述主流模型的约1/30,其大小仅30B与235B两个版本。换言之,在全行业大模型竞逐参数规模与上下文长度时,MiroThinker 1.5凭借高智效比实现了相近甚至更优的效果。其关键在于采用了一种“巧劲”:不依赖死记硬背,而是通过大量深入的外部世界交互来持续提升推理能力。 例如,将MiroThinker‑v1.5‑30B与1T参数的Kimi‑K2‑Thinking对比,不仅在BrowseComp‑ZH测试中实现了4.5%的性能超越,在推理成本上,MiroThinker 1.5的单条调用成本更低至$0.07,仅为Kimi的1/20。 不止如此,MiroThinker 1.5的推理速度也显著优于Kimi‑K2‑Thinking 陈天桥代季峰打响2026大模型第一枪:30b参数跑出1t性能