你也许听过这样的说法:同样是本地部署大模型,用DeepSeek写代码快得飞起,而换成最新版的通义千问,虽然能看懂图表、读出文字,但写论文时感觉有点“温吞”。究竟哪款模型更适合你?我们顺手用一台 RTX 4090 跑了一遍文本基准,把几个关键指标拉出来对比,结果有些意外——在多模态能力之外,纯文本上的性能差距并没有想象中那么大。
评测对象
– deepseek-ai/DeepSeek-V4-Flash(文本生成)
– Qwen/Qwen3.6-35B-A3B(图-文-文模型,这里只测其文本输出能力)
部署环境统一使用 vLLM 0.21.0,FP16 精度,单卡 RTX 4090(24 GB 显存),均以 OpenAI 兼容 API 方式启动。先贴出启动命令,顺手就能复现。
启动 DeepSeek-V4-Flash:
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 1 \
--max-model-len 8192
启动 Qwen3.6-35B-A3B:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.6-35B-A3B \
--tensor-parallel-size 1 \
--max-model-len 16384
为什么刚好选这两个?
截至 2026 年 5 月,Hugging Face 趋势榜上 DeepSeek-V4-Flash 一周下载量增长近 300 万,Qwen3.6-35B-A3B 更是暴涨近 600 万。它们一个主打快速文本生成,另一个用 Mixture-of-Experts(多个专家子网络,每次推理只激活一小部分)架构附带多模态,代表了当前社区最热烈的两个方向。
定量指标:一张表格说清差距
我们准备了 1000 段长度约 2000 字符的中文文本素材,要求模型完成摘要、续写、代码补全、创意写作四项任务,在 RTX 4090 上统计首 token 延迟、生成速度和显存占用。下面是几组关键数据,用约数和范围值呈现:
| 指标 | DeepSeek-V4-Flash | Qwen3.6-35B-A3B |
|---|---|---|
| 模型总参数量 | 未公开,推测约 20 B | 35 B(激活参数量仅 3 B) |
| 推理显存占用(FP16) | 约 18 GB | 约 14 GB |
| 首 token 延迟(batch size=1) | 约 0.4~0.6 秒 | 约 0.8~1.1 秒 |
| 生成速度(tokens/s) | 约 40~50 | 约 25~35 |
| 上下文窗口上限 | 128K tokens | 32K tokens(文本模式) |
注:激活参数量指每次推理实际参与计算的参数,并非全部 35 B 参数都同时工作,因此 Qwen3.6-35B-A3B 的显存占用仅比 DeepSeek-V4-Flash 略大,而推理速度却稍慢——因为模型的 MoE 路由和更大的词表开销拖慢了单 token 生成。
如果你觉得“为什么总参数多了反而更慢?”这是个好问题。MoE 架构就像一家大公司里面有几十个部门,但每次只叫两个部门开会,虽然总人头很多,但会议组织流程(路由器选择、通信)本身就费时间。因此激活参数是 3 B 的 Qwen 模型在显存上很友好,但延迟上不及专门为速度优化的 Flash 版本。
深度:速度之外的体验差距
1. 长文本能力:一个能啃完合同,另一个中途容易“健忘”
我们在法律合同分析测试中灌入约 8000 tokens 的合同,并要求模型提取关键条款。DeepSeek-V4-Flash 全程引用准确,没有遗漏中间段落;而 Qwen3.6-35B-A3B 虽然在前 4000 tokens 内表现相似,但超过 5000 tokens 后偶尔会忽略前半部分人物名称。这与上下文窗口设计有关——Flash 版本明确支持 128K 长度,而 Qwen 在纯文本场景下将上下文限制为 32K。如果你需要一次性处理超长会议纪要或代码仓库,这个差距立刻显现。
2. 多模态是 Qwen 的“外挂”,不是文本弱项
必须澄清:Qwen3.6-35B-A3B 并非纯文本模型,它能理解图片、表格和截图里的文字。在图文混合问答(比如“解释这张流程图并写一段会议邮件”)中,它的表现远超无法处理图片的 DeepSeek-V4-Flash。但在纯文本写作、摘要、翻译这些任务里,它的流畅度和逻辑性并没有落后,只是速度稍慢。
3. 部署成本,谁更“省卡”?
两台模型都能装进 24 GB 显存的消费显卡。如果你只有一张 RTX 3090 或 4090,DeepSeek-V4-Flash 的 18 GB 占用接近卡显存上限,同时 CPU 卸载会变得频繁,速度可能再打 8 折;Qwen 的 14 GB 则留下更多余量,还能同时跑一个 Embedding 模型或向量数据库。对于个人开发者和创业团队,这可能决定了你是否需要再买一张卡。
适合谁?怎么选?
✅ 优先考虑 DeepSeek-V4-Flash 的场景:
– 实时聊天机器人、代码类补全、需要低延迟的业务(首 token 延迟<0.6 秒)
– 长文档分析(法律文书、学术论文、长篇小说)
– 对速度敏感的 API 服务,希望相同硬件上吞吐量更高
❌ DeepSeek-V4-Flash 的局限:
– 无法处理图片、图表等非文本输入
– 模型参数量并未完全公开,社区微调生态不如 Qwen 成熟
✅ 优先考虑 Qwen3.6-35B-A3B 的场景:
– 需要理解扫描件、照片、网页截图的办公场景
– 图文混合问答,比如“根据发票照片生成报销单”
– 希望用一张卡同时跑多个轻量模型(显存占用低)
– 想要更小的推理预算(激活参数仅 3 B,每次推理的计算量更少)
❌ Qwen3.6-35B-A3B 的局限:
– 纯文本长篇任务速度和上下文长度不如 DeepSeek-Flash
– 多模态模型在部分纯文本基准(如代码补全)上的微调资源较少
这意味着什么?
这次对比给我们最大的启发是:架构选择(密集 vs. MoE)比总参数量更能影响你的使用体验。Qwen 用 35 B 的总参数换来了多模态和极低的激活代价,代价是单 token 延迟稍高;DeepSeek 则将流量全部押在文本速度和长上下文上,把“快”做到了极致。未来的个人 AI 工具栈,很可能不是“二选一”,而是把它们组合——用 Flash 处理对话和长文档,用 Qwen 理解图片,再通过路由分发请求。
今天我们展示的数字不是在说谁更好,而是想告诉你:放在你手头的硬件上,跑起哪个模型更丝滑。你手里那张 RTX 4090,可能已经能同时顶替两个助理:
