Gemma-4 多模态模型本地部署 – MindLynx开源模型探索站

你刚拍了一张会议白板上的手绘流程图，想让 AI 帮你整理成文字版。以前你得先花时间描述每根箭头、每个方框，现在不一样了——Gemma-4 这种既能读文字又能“看”图像的多模态模型，可以直接理解图片内容，甚至直接输出结构化的操作步骤。这篇文章会带你用最简单的方式，在本地电脑上把 Gemma-4 跑起来，不依赖云端，图片不出自己的机器，而且全程只需要几条命令。

为什么选 Gemma-4 而不是纯文字模型？

Gemma-4 是 Google 在 2026 年推出的多模态模型，它把图像编码器和语言模型融合在一起，让它像人一样，能同时处理画面和文字。比如给它一张菜品照片，它不但能告诉你这是什么菜，还能翻译菜单、估算热量——这些是纯文字模型做不到的。本地部署还意味着：

数据隐私：你的图片永远不离开你的电脑
离线可用：没网络也能用
零边际成本：不花 API 调用费

Gemma-4 有 31B 参数（310 亿）的版本，完全可以在消费级显卡上跑，只要你的显存够大。

1. 环境准备——硬件和软件底线

在开始安装前，确认一下你的机器能不能扛住。

操作系统：macOS（Apple Silicon 更好）或 Linux/Windows，这里以 macOS/Linux 为例
显存/统一内存：Gemma-4 31B 用 4-bit 量化后大约需要 20 GB 显存，一块 RTX 3090（24 GB）或 M2 Ultra（64 GB 统一内存）就能顺畅运行
内存：如果用 CPU 推理，需要 32 GB 以上，但会慢很多
硬盘：模型文件约 20 GB，留出至少 30 GB 空间

如果你没有独立显卡，也可以用 CPU 模式体验，只不过生成速度会像打字机一样慢，一颗 Ryzen 9 跑 31B 模型，每秒大概 1~2 个 token。下文会教你怎么切到 CPU 模式。

2. 安装 Ollama 0.24.0——多模态加速器

Ollama 就像大模型界的“应用商店”，一条命令安装模型、启动服务。这里用最新的 0.24.0 版本，它增强了直接从 Hugging Face 导入多模态模型的能力。

macOS 或 Linux 安装：

curl -fsSL https://ollama.com/install.sh | sh

安装后检查版本：

ollama --version
# 应显示 ollama version 0.24.0

如果版本较低，更新一下：

# Linux: 重新执行安装脚本即可覆盖
# macOS: brew upgrade ollama

3. 配置——写一个 Modelfile 把 Gemma-4 带回家

Ollama 用 Modelfile（类似 Dockerfile）来定义模型的下载源、量化方式、运行参数。我们直接指向 Hugging Face 上谷歌官方的 Gemma-4 31B 指令微调版。

新建一个文件叫 Modelfile.gemma4，内容如下：

FROM huggingface.co/google/gemma-4-31B-it
TEMPLATE """<start_of_turn>user
{{ .Prompt }}<end_of_turn>
<start_of_turn>model
"""
PARAMETER num_ctx 8192
PARAMETER stop <start_of_turn>
PARAMETER stop <end_of_turn>

解释一下每个字段：
– FROM huggingface.co/...：告诉 Ollama 去 Hugging Face 拉取这个仓库的模型文件，它会自动转换格式
– TEMPLATE：设定对话的提示词模板，因为 Gemma 系列有固定的 <start_of_turn>/<end_of_turn> 标记，不这么写模型回答会错乱
– num_ctx 8192：上下文窗口大小，就是模型一次能记住多少内容，8192 个 token 足够处理一整篇长文加一张图的描述
– PARAMETER stop：确保模型在正确位置停止生成

然后运行这条命令，Ollama 会开始下载模型并创建一个叫 gemma4 的本地实例：

ollama create gemma4 -f Modelfile.gemma4
# 等待下载完成，20 GB 左右，网络好大概 15 分钟

报错风险 1：下载卡住或报网络错误
如果 Hugging Face 连接不稳定，可以提前设置镜像环境变量，比如使用 hf-mirror.com：

——————bash代码开始——————
export HF_ENDPOINT=https://hf-mirror.com
ollama create gemma4 -f Modelfile.gemma4
——————bash代码结束——————

这条命令告诉 Ollama 用国内镜像下载，速度能翻好几倍。

4. 启动——用图像跟模型对话

模型准备好后，启动它：

ollama run gemma4

你会进入一个交互式终端。要测试多模态能力，得把图片传进去。比如你有一张 menu.jpg，拖进终端窗口（或者输入文件路径）：

>>> 请翻译这张菜单上的所有菜名，并加上简短的食材说明 [image: menu.jpg]

Ollama 支持直接在聊天消息中用 [image: 路径] 语法附上图片。Gemma-4 会读取图片中的文字和视觉信息，然后给出回应。如果想退出对话，按 Ctrl + D。

如果你没有放着图片的 GUI 终端，也可以用 API 方式调用，后面会讲。

5. 验证——确认多模态真的跑通了

为了确保模型确实在看图，而非瞎猜文件名，可以做一个“视觉推理”测试。用一张纯手绘的流程图拍下来（图里没有文字），问它：

>>> 这张图描述了一个什么流程？请一步步说明 [image: workflow.jpg]

如果模型能说出“第一步是一个方形，箭头指向一个菱形，可能表示判断节点……”那么恭喜，视觉通路完全正常。纯文字模型遇到这个问题只会回答“我看不到图片，请描述一下”。

6. 调优——让速度与效果平衡

31B 模型跑在 24 GB 显存上有时会爆内存（尤其是上下文较长的请求）。可以对 Modelfile 做几个调优：

只加载部分层到 GPU
如果显存只有 16 GB，可以只让前几十层跑在显卡上，剩下丢给 CPU：

FROM huggingface.co/google/gemma-4-31B-it
PARAMETER num_gpu 28
# 其余参数同上

num_gpu 表示把模型的前 28 个层加载到显存，其余用 CPU，虽然慢一些，但至少不会崩。

用 API 方式调用以方便做批量处理
启动一个常驻的 API 服务：

ollama serve &
# 另一个终端，发送多模态请求：
curl http://localhost:11434/api/chat -d '{
  "model": "gemma4",
  "messages": [
    {
      "role": "user",
      "content": "描述这张图片",
      "images": ["<base64编码的图片>"]
    }
  ]
}'

注意这里 images 字段接受 base64 编码的图片字节，你可以用 Python 等脚本先把图片转成 base64 字符串传入。这对自动批处理几十张产品图非常实用。

报错风险 2：显存不足 (CUDA out of memory)
如果启动时直接报 CUDA OOM，解决办法有两个：
1) 降低 num_gpu 的值，直到能正常加载；
2) 强制用纯 CPU 运行：设置 OLLAMA_NUM_GPU=0 环境变量后再启动服务。

——————bash代码开始——————
export OLLAMA_NUM_GPU=0
ollama run gemma4
——————bash代码结束——————

CPU 模式下速度会慢 5 倍以上，但能保证跑起来，适合“先试试能不能用”的场景。

这意味着什么

以前多模态模型要么是远程 API（数据发到别人服务器），要么需要自己折腾 transformers 库和 vision encoder 的配置，普通人根本搭不起来。现在 Ollama + Gemma-4 把门槛降到了“写一个 Modelfile + 一条启动命令”。如果你是一个做跨境电商的独立站卖家，可以用它自动给成百上千张产品图写英文描述；如果你是设计师，可以把原型手稿变成文字发给程序员。模型本身是开源的（Google 的许可证允许商用和个人使用），成本只是一台带显卡的电脑的电费。

最小可行配置——一条命令从零到上线

把前面的步骤压缩成一个可执行的 bash 块（前提是 Ollama 0.24.0 已安装）：

# 如果还没有启动 Ollama 服务，后台启动
ollama serve &
# 创建并运行 Gemma-4（一步到位）
ollama create gemma4 -f - <<EOF
FROM huggingface.co/google/gemma-4-31B-it
TEMPLATE """<start_of_turn>user
{{ .Prompt }}<end_of_turn>
<start_of_turn>model
"""
PARAMETER num_ctx 8192
PARAMETER stop <start_of_turn>
PARAMETER stop <end_of_turn>
EOF
ollama run gemma4

执行完后终端会进入交互对话，你可以立刻丢一张图看效果。

镜像加速版：如果网络慢，在前面加一行 export HF_ENDPOINT=https://hf-mirror.com。

这一步做完，你的电脑就变成了一个能“边看边聊”的私人 AI——没有云账单，没有数据泄露顾虑，还能随意调整参数玩出花来。