LLM 版图重画了 —— 7 大类别,2026 年 5 月各类谁是王者

模型层从未停止变化。但 2026 年 5 月,类别本身已经稳定了。综合旗舰、代码、Agent、长上下文、多模态、开源、性价比——七张地图,各有赢家。

模型层从未停止变化。但 2026 年 5 月,有件事让我豁然开朗——即便各类里的模型还在轮换,类别本身已经稳定了。这是我眼下理解这张地图的方式。


1. 综合旗舰 — All-Around Flagship

什么都能做的那层。GPT-5.5 综合分第一,现在是 ChatGPT 的默认模型。Claude Opus 4.7 在代码推理上紧追其后,1M context 标准定价不加价。Gemini 3.1 Pro 是最便宜的美系旗舰,也是唯一在 1M token 多模态上不额外收费的选手。Grok 4.20 则靠多 agent 辩论架构把幻觉率压到了历史最低。

The “can do anything” tier. GPT-5.5 holds the top composite score. Claude Opus 4.7 breathes right behind it on code reasoning. Gemini 3.1 Pro is the cheapest US frontier and the only one doing 1M-token multimodal without a long-context surcharge.


2. 写代码 — Coding

通义千问 Qwen 3.6 Max-Preview 刚刚横扫了 6 项编程和 agent 基准测试,拿下全部第一。但跑分和实战是两回事——Claude Opus 4.7 赢的是”我有个 50 个文件的仓库加一张 ticket”这种真实场景。不同的游戏,不同的赢家。

Qwen 3.6 Max-Preview (Alibaba) swept six coding and agent benchmarks in a row. Meanwhile Claude Opus 4.7 wins the real-world “I have a 50-file repo and a ticket” scenario. Different game, different winner.


3. 自主 Agent — Agentic

GPT-5.5 在 Terminal-Bench 2.0 拿下 82.7%,OSWorld 78.7%。如果你需要一个活在 shell 里、真能把任务做完的 agent,这还是首选。如果要自部署,Kimi K2.6 是开源里最稳的。

GPT-5.5 leads Terminal-Bench 2.0 at 82.7%. If you need an agent that lives in a shell and actually finishes tasks, this is still the pick. Kimi K2.6 is the open-weight contender if you’re self-hosting.


4. 超长上下文 — Long Context

Llama 4 Scout 做到了 1000 万 token 上下文。不是笔误。一本书、一个代码库、一整年的日志——这改变的是可能性的边界本身。Grok 4.20 是 200 万,Claude 和 Gemini 是 100 万。这场竞赛现在以书的册数来丈量,不是页数了。

Llama 4 Scout hit 10 million tokens. Not a typo. For a book, a codebase, a year of logs — that changes what’s even possible. The race is now measured in book-lengths, not page counts.


5. 多模态 — Multimodal

Gemini 3.1 Pro 输出 $12/M,原生视觉 + 1M 上下文 + GPQA 94.3%。凡是涉及图片加长文档的规模化场景,它是”能用就上”的那个。如果还需要原生音频,GPT-5.5 额外覆盖了这一层。

Gemini 3.1 Pro at $12/M output — native vision, native 1M context, 94.3% GPQA. It’s the “just works” pick for images + long documents at scale. GPT-5.5 adds native audio on top if you need that layer.


6. 开放权重 — Open Weight

Kimi K2.6 领跑开源排行榜(1.1T MoE,AA Intelligence Index 开源组第一)。DeepSeek V4-Pro 以 $0.87/M 输出跑出接近旗舰的分数,比 GPT-5.5 便宜约 34 倍。Mistral Large 3 是非中国系里最强的开源选项,Apache 2.0,可自部署,针对 agent 调优。

Kimi K2.6 leads the open leaderboards. DeepSeek V4-Pro at $0.87/M output is ~34x cheaper than GPT-5.5 at comparable scores. Mistral Large 3 is the strongest non-Chinese open option (Apache 2.0, self-hostable, agentic-tuned).


7. 性价比 — Price-Performance

DeepSeek V4-Flash:$0.07/M 输出。 就是这个数字。批量摘要、分流、预处理、分类——没有任何对手。美中前沿模型定价差距已扩大至 5–25 倍。“中国开源、美国闭源”的旧认知不成立了——阿里刚刚关闭了 Qwen 旗舰的权重。假设已经翻转。

DeepSeek V4-Flash: $0.07/M output. That’s the number. For bulk summarization, triage, preprocessing — there’s nothing close. The US-China frontier pricing gap has widened to 5–25x. The old “open-weight Chinese, closed-weight Western” mental model no longer holds. Alibaba just closed weights on Qwen flagship. The assumptions have flipped.


一句话总结

哪个类别对你最重要,决定了哪个模型赢。现在已经没有一个单一答案——这其实是健康的。

The category that matters most to you determines which model wins. There is no single answer anymore — and that’s actually healthy.


数据来源:llm-stats.com、futureagi.com、公开 benchmark(2026 年 5 月)