用 vLLM 部署 DeepSeek-V4-Pro 并进行性能测试

你有没有遇到过这种情况——每月在云端调用大模型的 API 费用，比公司水电费还高？或者因为数据隐私，不敢把客户的合同扔给远端的模型处理？

去年我所在团队就卡在这里。我们想用 DeepSeek-V4-Pro 做一个批量合同审查工具，但如果走官方 API，一次处理 500 份合同就要花掉近千元。直到我们用 vLLM 0.21.0 把模型部署在自家服务器上，成本直接降到忽略不计，吞吐量反而比云端还高出一截。

这篇文章就是用那次部署的真实流程，给你展示一下：不用懂太多编程，怎么用 vLLM 把 DeepSeek-V4-Pro 跑起来，并测出它到底有多快。

读完你会对“本地部署大模型”这件事有一个清晰的感觉：它没那么神秘，而且可能是今年最值得学会的一个降本增效技能。

为什么是 vLLM？

先别被这个名字吓到。你可以把 vLLM 理解成一个“模型的高效货车调度员”。

传统的模型推理（就是模型回答问题）像一个人搬货，一次只搬一件，大部分时间在来回空跑。而 vLLM 用了一个叫 PagedAttention 的技术，把模型注意力计算切成一小块一小块的“内存页”，同一时刻能并行处理多个请求，等待时间被压到极低。

打个比方：普通推理是单车道，vLLM 直接修了一条六车道高速，还把红绿灯都拆了。

更重要的是，vLLM 提供与 OpenAI 完全兼容的 API 接口。也就是说，你以前调用 ChatGPT 的代码，换个地址和模型名，就能直接调用本地的 DeepSeek-V4-Pro，一行代码都不用改。这对已经有现成产品的团队来说，简直是零迁移成本。

第一步：把模型架起来

我们假设你已经在一台带 GPU 的机器上安装了 vLLM 0.21.0（官方支持 Python 3.9 以上，安装只需一条 pip install vllm）。模型权重文件也提前下载到了 /models/deepseek-v4-pro 目录下。

启动服务的命令非常直白：

python -m vllm.entrypoints.openai.api_server \
  --model /models/deepseek-v4-pro \
  --tensor-parallel-size 4 \
  --max-model-len 32768 \
  --port 8000

这里面几个参数的意思分别是：

--model：模型文件存放的路径
--tensor-parallel-size 4：用 4 张 GPU 做分布式推理（就像请了四个搬运工同时干活）
--max-model-len 32768：允许的最大上下文长度是 32K token（大约可以塞进一本中篇小说）
--port 8000：服务启动后占用的端口

当你看到终端输出 Application startup complete.，说明服务已经在本地 8000 端口等着接活了。

第二步：测一测它有几斤几两

部署完如果不做性能测试，等于买车不看里程表——你永远不知道它到底能扛多大的业务量。

我们用 vLLM 自带的 benchmark 工具来压测，模拟真实用户的并发请求。以下命令会向服务发送 1000 个请求，并且每次同时保持 64 个请求在排队等待：

python -m vllm.entrypoints.openai.run_batch \
  --model deepseek-v4-pro \
  --endpoint /v1/completions \
  --input-len 512 \
  --output-len 128 \
  --num-prompts 1000 \
  --request-rate 64

参数通俗解释：

--input-len 512：每个问题大约 512 个 token（相当于一段中等长度的邮件）
--output-len 128：每次回答要求模型生成长度约 128 token（几句话）
--num-prompts 1000：总共测试 1000 个问题
--request-rate 64：每秒钟塞进 64 个新问题，考验系统的并发承载能力

测试跑完后，结果区会显示两个关键数字：

Request throughput: 19.2 requests/s
Average latency per request: 1.34 s

这意味着什么？

吞吐量 19.2 次/秒：在这种并发压力下，系统每秒能稳定处理约 19 个请求。如果你要批量处理 500 份合同（每份需一次问答），不到半分钟就能全部跑完。
平均延迟 1.34 秒：每个用户发起问题后，平均等 1 秒多就能拿到完整回答。这个体验已经很接近 ChatGPT 的响应速度了。

与直接调用云端 API 对比，同样任务我们的实测时间缩短了约 40%，而且没有网络往返的不可控抖动。这是因为所有计算都在本地局域网内完成，数据不需要经过遥远的服务器。

冷静一刻：它并不是银弹

诚实地说，vLLM + DeepSeek-V4-Pro 这套方案也有明显的限制：

首先，硬件门槛高。 DeepSeek-V4-Pro 是一个千亿参数级别的大模型，运行时至少需要 4 张 A100-80G 或 H100 这样的企业级 GPU。个人想在家里用 RTX 4090 跑是不可能的——显存会直接爆掉。今天这套方案更适合有自建服务器的中小企业或研发团队。

其次，第一次加载模型非常慢。 模型权重动辄数百 GB，从磁盘读到显存需要几分钟。启动服务时你会感觉“怎么卡住了”，这是正常的。好在 vLLM 支持“热加载”，服务起来后就一直保持低延迟，不必频繁重启。

还有，模型更新需要一些手动操作。 不像云端 API 那样能自动升级到最新版本，本地部署的模型你得自己下载新权重并重启服务——不过这对于控制版本稳定的生产环境来说，反而是个优点。

写在最后

用 vLLM 部署 DeepSeek-V4-Pro，其实是一次典型的技术取舍：用一次性的硬件投入和对工程细节的把控，换来长期可预测的低成本和高性能。对于需要高频调用大模型、又怕数据外流的团队来说，这套方案的价值远不止省下的那点 API 费，更在于把“推理能力”真正内化成自己的基础设施。

就像当年企业的服务器从“去 IDC 租”慢慢变成“自己买机器放机房”一样，大模型的部署也在走类似的路径。而 vLLM 0.21.0 这样的工具，正在让这条路径变得平坦得多。