你刚拍了一张会议白板上的手绘流程图,想让 AI 帮你整理成文字版。以前你得先花时间描述每根箭头、每个方框,现在不一样了——Gemma-4 这种既能读文字又能“看”图像的多模态模型,可以直接理解图片内容,甚至直接输出结构化的操作步骤。这篇文章会带你用最简单的方式,在本地电脑上把 Gemma-4 跑起来,不依赖云端,图片不出自己的机器,而且全程只需要几条命令。
为什么选 Gemma-4 而不是纯文字模型?
Gemma-4 是 Google 在 2026 年推出的多模态模型,它把图像编码器和语言模型融合在一起,让它像人一样,能同时处理画面和文字。比如给它一张菜品照片,它不但能告诉你这是什么菜,还能翻译菜单、估算热量——这些是纯文字模型做不到的。本地部署还意味着:
- 数据隐私:你的图片永远不离开你的电脑
- 离线可用:没网络也能用
- 零边际成本:不花 API 调用费
Gemma-4 有 31B 参数(310 亿)的版本,完全可以在消费级显卡上跑,只要你的显存够大。
1. 环境准备——硬件和软件底线
在开始安装前,确认一下你的机器能不能扛住。
- 操作系统:macOS(Apple Silicon 更好)或 Linux/Windows,这里以 macOS/Linux 为例
- 显存/统一内存:Gemma-4 31B 用 4-bit 量化后大约需要 20 GB 显存,一块 RTX 3090(24 GB)或 M2 Ultra(64 GB 统一内存)就能顺畅运行
- 内存:如果用 CPU 推理,需要 32 GB 以上,但会慢很多
- 硬盘:模型文件约 20 GB,留出至少 30 GB 空间
如果你没有独立显卡,也可以用 CPU 模式体验,只不过生成速度会像打字机一样慢,一颗 Ryzen 9 跑 31B 模型,每秒大概 1~2 个 token。下文会教你怎么切到 CPU 模式。
2. 安装 Ollama 0.24.0——多模态加速器
Ollama 就像大模型界的“应用商店”,一条命令安装模型、启动服务。这里用最新的 0.24.0 版本,它增强了直接从 Hugging Face 导入多模态模型的能力。
macOS 或 Linux 安装:
curl -fsSL https://ollama.com/install.sh | sh
安装后检查版本:
ollama --version
# 应显示 ollama version 0.24.0
如果版本较低,更新一下:
# Linux: 重新执行安装脚本即可覆盖
# macOS: brew upgrade ollama
3. 配置——写一个 Modelfile 把 Gemma-4 带回家
Ollama 用 Modelfile(类似 Dockerfile)来定义模型的下载源、量化方式、运行参数。我们直接指向 Hugging Face 上谷歌官方的 Gemma-4 31B 指令微调版。
新建一个文件叫 Modelfile.gemma4,内容如下:
FROM huggingface.co/google/gemma-4-31B-it
TEMPLATE """<start_of_turn>user
{{ .Prompt }}<end_of_turn>
<start_of_turn>model
"""
PARAMETER num_ctx 8192
PARAMETER stop <start_of_turn>
PARAMETER stop <end_of_turn>
解释一下每个字段:
– FROM huggingface.co/...:告诉 Ollama 去 Hugging Face 拉取这个仓库的模型文件,它会自动转换格式
– TEMPLATE:设定对话的提示词模板,因为 Gemma 系列有固定的 <start_of_turn>/<end_of_turn> 标记,不这么写模型回答会错乱
– num_ctx 8192:上下文窗口大小,就是模型一次能记住多少内容,8192 个 token 足够处理一整篇长文加一张图的描述
– PARAMETER stop:确保模型在正确位置停止生成
然后运行这条命令,Ollama 会开始下载模型并创建一个叫 gemma4 的本地实例:
ollama create gemma4 -f Modelfile.gemma4
# 等待下载完成,20 GB 左右,网络好大概 15 分钟
报错风险 1:下载卡住或报网络错误
如果 Hugging Face 连接不稳定,可以提前设置镜像环境变量,比如使用 hf-mirror.com:——————bash代码开始——————
export HF_ENDPOINT=https://hf-mirror.com
ollama create gemma4 -f Modelfile.gemma4
——————bash代码结束——————这条命令告诉 Ollama 用国内镜像下载,速度能翻好几倍。
4. 启动——用图像跟模型对话
模型准备好后,启动它:
ollama run gemma4
你会进入一个交互式终端。要测试多模态能力,得把图片传进去。比如你有一张 menu.jpg,拖进终端窗口(或者输入文件路径):
>>> 请翻译这张菜单上的所有菜名,并加上简短的食材说明 [image: menu.jpg]
Ollama 支持直接在聊天消息中用 [image: 路径] 语法附上图片。Gemma-4 会读取图片中的文字和视觉信息,然后给出回应。如果想退出对话,按 Ctrl + D。
如果你没有放着图片的 GUI 终端,也可以用 API 方式调用,后面会讲。
5. 验证——确认多模态真的跑通了
为了确保模型确实在看图,而非瞎猜文件名,可以做一个“视觉推理”测试。用一张纯手绘的流程图拍下来(图里没有文字),问它:
>>> 这张图描述了一个什么流程?请一步步说明 [image: workflow.jpg]
如果模型能说出“第一步是一个方形,箭头指向一个菱形,可能表示判断节点……”那么恭喜,视觉通路完全正常。纯文字模型遇到这个问题只会回答“我看不到图片,请描述一下”。
6. 调优——让速度与效果平衡
31B 模型跑在 24 GB 显存上有时会爆内存(尤其是上下文较长的请求)。可以对 Modelfile 做几个调优:
只加载部分层到 GPU
如果显存只有 16 GB,可以只让前几十层跑在显卡上,剩下丢给 CPU:
FROM huggingface.co/google/gemma-4-31B-it
PARAMETER num_gpu 28
# 其余参数同上
num_gpu 表示把模型的前 28 个层加载到显存,其余用 CPU,虽然慢一些,但至少不会崩。
用 API 方式调用以方便做批量处理
启动一个常驻的 API 服务:
ollama serve &
# 另一个终端,发送多模态请求:
curl http://localhost:11434/api/chat -d '{
"model": "gemma4",
"messages": [
{
"role": "user",
"content": "描述这张图片",
"images": ["<base64编码的图片>"]
}
]
}'
注意这里 images 字段接受 base64 编码的图片字节,你可以用 Python 等脚本先把图片转成 base64 字符串传入。这对自动批处理几十张产品图非常实用。
报错风险 2:显存不足 (CUDA out of memory)
如果启动时直接报 CUDA OOM,解决办法有两个:
1) 降低num_gpu的值,直到能正常加载;
2) 强制用纯 CPU 运行:设置OLLAMA_NUM_GPU=0环境变量后再启动服务。——————bash代码开始——————
export OLLAMA_NUM_GPU=0
ollama run gemma4
——————bash代码结束——————CPU 模式下速度会慢 5 倍以上,但能保证跑起来,适合“先试试能不能用”的场景。
这意味着什么
以前多模态模型要么是远程 API(数据发到别人服务器),要么需要自己折腾 transformers 库和 vision encoder 的配置,普通人根本搭不起来。现在 Ollama + Gemma-4 把门槛降到了“写一个 Modelfile + 一条启动命令”。如果你是一个做跨境电商的独立站卖家,可以用它自动给成百上千张产品图写英文描述;如果你是设计师,可以把原型手稿变成文字发给程序员。模型本身是开源的(Google 的许可证允许商用和个人使用),成本只是一台带显卡的电脑的电费。
最小可行配置——一条命令从零到上线
把前面的步骤压缩成一个可执行的 bash 块(前提是 Ollama 0.24.0 已安装):
# 如果还没有启动 Ollama 服务,后台启动
ollama serve &
# 创建并运行 Gemma-4(一步到位)
ollama create gemma4 -f - <<EOF
FROM huggingface.co/google/gemma-4-31B-it
TEMPLATE """<start_of_turn>user
{{ .Prompt }}<end_of_turn>
<start_of_turn>model
"""
PARAMETER num_ctx 8192
PARAMETER stop <start_of_turn>
PARAMETER stop <end_of_turn>
EOF
ollama run gemma4
执行完后终端会进入交互对话,你可以立刻丢一张图看效果。
镜像加速版:如果网络慢,在前面加一行
export HF_ENDPOINT=https://hf-mirror.com。
这一步做完,你的电脑就变成了一个能“边看边聊”的私人 AI——没有云账单,没有数据泄露顾虑,还能随意调整参数玩出花来。
