Gemma-4 多模态模型本地部署

你刚拍了一张会议白板上的手绘流程图,想让 AI 帮你整理成文字版。以前你得先花时间描述每根箭头、每个方框,现在不一样了——Gemma-4 这种既能读文字又能“看”图像的多模态模型,可以直接理解图片内容,甚至直接输出结构化的操作步骤。这篇文章会带你用最简单的方式,在本地电脑上把 Gemma-4 跑起来,不依赖云端,图片不出自己的机器,而且全程只需要几条命令。


为什么选 Gemma-4 而不是纯文字模型?

Gemma-4 是 Google 在 2026 年推出的多模态模型,它把图像编码器和语言模型融合在一起,让它像人一样,能同时处理画面和文字。比如给它一张菜品照片,它不但能告诉你这是什么菜,还能翻译菜单、估算热量——这些是纯文字模型做不到的。本地部署还意味着:

  • 数据隐私:你的图片永远不离开你的电脑
  • 离线可用:没网络也能用
  • 零边际成本:不花 API 调用费

Gemma-4 有 31B 参数(310 亿)的版本,完全可以在消费级显卡上跑,只要你的显存够大。


1. 环境准备——硬件和软件底线

在开始安装前,确认一下你的机器能不能扛住。

  • 操作系统:macOS(Apple Silicon 更好)或 Linux/Windows,这里以 macOS/Linux 为例
  • 显存/统一内存:Gemma-4 31B 用 4-bit 量化后大约需要 20 GB 显存,一块 RTX 3090(24 GB)或 M2 Ultra(64 GB 统一内存)就能顺畅运行
  • 内存:如果用 CPU 推理,需要 32 GB 以上,但会慢很多
  • 硬盘:模型文件约 20 GB,留出至少 30 GB 空间

如果你没有独立显卡,也可以用 CPU 模式体验,只不过生成速度会像打字机一样慢,一颗 Ryzen 9 跑 31B 模型,每秒大概 1~2 个 token。下文会教你怎么切到 CPU 模式。


2. 安装 Ollama 0.24.0——多模态加速器

Ollama 就像大模型界的“应用商店”,一条命令安装模型、启动服务。这里用最新的 0.24.0 版本,它增强了直接从 Hugging Face 导入多模态模型的能力。

macOS 或 Linux 安装

curl -fsSL https://ollama.com/install.sh | sh

安装后检查版本:

ollama --version
# 应显示 ollama version 0.24.0

如果版本较低,更新一下:

# Linux: 重新执行安装脚本即可覆盖
# macOS: brew upgrade ollama

3. 配置——写一个 Modelfile 把 Gemma-4 带回家

Ollama 用 Modelfile(类似 Dockerfile)来定义模型的下载源、量化方式、运行参数。我们直接指向 Hugging Face 上谷歌官方的 Gemma-4 31B 指令微调版。

新建一个文件叫 Modelfile.gemma4,内容如下:

FROM huggingface.co/google/gemma-4-31B-it
TEMPLATE """<start_of_turn>user
{{ .Prompt }}<end_of_turn>
<start_of_turn>model
"""
PARAMETER num_ctx 8192
PARAMETER stop <start_of_turn>
PARAMETER stop <end_of_turn>

解释一下每个字段:
FROM huggingface.co/...:告诉 Ollama 去 Hugging Face 拉取这个仓库的模型文件,它会自动转换格式
TEMPLATE:设定对话的提示词模板,因为 Gemma 系列有固定的 <start_of_turn>/<end_of_turn> 标记,不这么写模型回答会错乱
num_ctx 8192:上下文窗口大小,就是模型一次能记住多少内容,8192 个 token 足够处理一整篇长文加一张图的描述
PARAMETER stop:确保模型在正确位置停止生成

然后运行这条命令,Ollama 会开始下载模型并创建一个叫 gemma4 的本地实例:

ollama create gemma4 -f Modelfile.gemma4
# 等待下载完成,20 GB 左右,网络好大概 15 分钟

报错风险 1:下载卡住或报网络错误
如果 Hugging Face 连接不稳定,可以提前设置镜像环境变量,比如使用 hf-mirror.com:

——————bash代码开始——————
export HF_ENDPOINT=https://hf-mirror.com
ollama create gemma4 -f Modelfile.gemma4
——————bash代码结束——————

这条命令告诉 Ollama 用国内镜像下载,速度能翻好几倍。


4. 启动——用图像跟模型对话

模型准备好后,启动它:

ollama run gemma4

你会进入一个交互式终端。要测试多模态能力,得把图片传进去。比如你有一张 menu.jpg,拖进终端窗口(或者输入文件路径):

>>> 请翻译这张菜单上的所有菜名,并加上简短的食材说明 [image: menu.jpg]

Ollama 支持直接在聊天消息中用 [image: 路径] 语法附上图片。Gemma-4 会读取图片中的文字和视觉信息,然后给出回应。如果想退出对话,按 Ctrl + D

如果你没有放着图片的 GUI 终端,也可以用 API 方式调用,后面会讲。


5. 验证——确认多模态真的跑通了

为了确保模型确实在看图,而非瞎猜文件名,可以做一个“视觉推理”测试。用一张纯手绘的流程图拍下来(图里没有文字),问它:

>>> 这张图描述了一个什么流程?请一步步说明 [image: workflow.jpg]

如果模型能说出“第一步是一个方形,箭头指向一个菱形,可能表示判断节点……”那么恭喜,视觉通路完全正常。纯文字模型遇到这个问题只会回答“我看不到图片,请描述一下”。


6. 调优——让速度与效果平衡

31B 模型跑在 24 GB 显存上有时会爆内存(尤其是上下文较长的请求)。可以对 Modelfile 做几个调优:

只加载部分层到 GPU
如果显存只有 16 GB,可以只让前几十层跑在显卡上,剩下丢给 CPU:

FROM huggingface.co/google/gemma-4-31B-it
PARAMETER num_gpu 28
# 其余参数同上

num_gpu 表示把模型的前 28 个层加载到显存,其余用 CPU,虽然慢一些,但至少不会崩。

用 API 方式调用以方便做批量处理
启动一个常驻的 API 服务:

ollama serve &
# 另一个终端,发送多模态请求:
curl http://localhost:11434/api/chat -d '{
  "model": "gemma4",
  "messages": [
    {
      "role": "user",
      "content": "描述这张图片",
      "images": ["<base64编码的图片>"]
    }
  ]
}'

注意这里 images 字段接受 base64 编码的图片字节,你可以用 Python 等脚本先把图片转成 base64 字符串传入。这对自动批处理几十张产品图非常实用。

报错风险 2:显存不足 (CUDA out of memory)
如果启动时直接报 CUDA OOM,解决办法有两个:
1) 降低 num_gpu 的值,直到能正常加载;
2) 强制用纯 CPU 运行:设置 OLLAMA_NUM_GPU=0 环境变量后再启动服务。

——————bash代码开始——————
export OLLAMA_NUM_GPU=0
ollama run gemma4
——————bash代码结束——————

CPU 模式下速度会慢 5 倍以上,但能保证跑起来,适合“先试试能不能用”的场景。


这意味着什么

以前多模态模型要么是远程 API(数据发到别人服务器),要么需要自己折腾 transformers 库和 vision encoder 的配置,普通人根本搭不起来。现在 Ollama + Gemma-4 把门槛降到了“写一个 Modelfile + 一条启动命令”。如果你是一个做跨境电商的独立站卖家,可以用它自动给成百上千张产品图写英文描述;如果你是设计师,可以把原型手稿变成文字发给程序员。模型本身是开源的(Google 的许可证允许商用和个人使用),成本只是一台带显卡的电脑的电费。


最小可行配置——一条命令从零到上线

把前面的步骤压缩成一个可执行的 bash 块(前提是 Ollama 0.24.0 已安装):

# 如果还没有启动 Ollama 服务,后台启动
ollama serve &
# 创建并运行 Gemma-4(一步到位)
ollama create gemma4 -f - <<EOF
FROM huggingface.co/google/gemma-4-31B-it
TEMPLATE """<start_of_turn>user
{{ .Prompt }}<end_of_turn>
<start_of_turn>model
"""
PARAMETER num_ctx 8192
PARAMETER stop <start_of_turn>
PARAMETER stop <end_of_turn>
EOF
ollama run gemma4

执行完后终端会进入交互对话,你可以立刻丢一张图看效果。

镜像加速版:如果网络慢,在前面加一行 export HF_ENDPOINT=https://hf-mirror.com

这一步做完,你的电脑就变成了一个能“边看边聊”的私人 AI——没有云账单,没有数据泄露顾虑,还能随意调整参数玩出花来。


皖ICP备2025105865号-2|皖公网安备34010402704739号