OpenClaw + Ollama 在 Mac mini M4 上运行本地大模型:完整配置指南 2026
在 VpsGona Mac mini M4 节点上使用 OpenClaw 的开发者,现在可以接入 Ollama 运行完全本地的大语言模型——零 API 费用、数据不出机器,Metal GPU 加速在 7–14B 模型上实现 20–45 token/s 的推理速度。本文涵盖 16 GB 统一内存的模型选型、分步安装流程、OpenClaw 配置方法、实测性能数据,以及首次配置时最常遇到的五类问题的解决方案。
为什么在 Mac mini M4 上用 Ollama 驱动 OpenClaw?
大多数 OpenClaw 用户一开始使用云端 LLM 后端——OpenAI、Anthropic 或类似 API。这在通用任务上运行良好,但以下三种场景会驱动团队转向本地模型方案:
- 代码隐私要求——专有源代码、内部工具或客户知识产权无法传输到第三方 API 端点
- 规模化成本控制——每天运行数千次补全的 AI 智能体,2–3天的 API 费用就会超过 VpsGona 节点月租费
- 低延迟与离线运行——本地 Ollama 服务器响应时间以毫秒计,无网络往返;对于多工具调用的紧密 AI 循环场景,这一差异十分显著
Ollama 是在 macOS 上运行量化开源 LLM 最简单的工具。它负责模型下载、量化格式选择、服务进程管理,以及 OpenClaw 已经支持的 OpenAI 兼容 REST API。Mac mini M4 的统一内存架构——CPU 和 GPU 共享同一块物理 DRAM——意味着 Ollama 可以将大模型完全加载到 GPU 可寻址内存中,无需 PCIe 带宽瓶颈,比独显 PC 上的 Ollama 实质性更快。
16 GB 统一内存模型选型指南
配置失败最常见的原因是选择了超出内存容量的模型。16 GB 节点上,macOS 本身约占用 3–4 GB,OpenClaw UI 和智能体运行时约占 300–600 MB,实际可分配给模型的约为 11–12 GB。以下选型矩阵供参考:
| 模型 | 量化格式 | 磁盘大小 | 内存占用 | 速度(M4 实测) | 最适合场景 |
|---|---|---|---|---|---|
| Qwen2.5:14b | Q4_K_M | 8.9 GB | 约 9.8 GB | 22–28 token/s | 代码生成、推理、长上下文 |
| Llama3.2:8b | Q4_K_M | 4.7 GB | 约 5.2 GB | 38–45 token/s | 快速编码智能体、对话 |
| Mistral:7b | Q4_0 | 4.1 GB | 约 4.6 GB | 40–48 token/s | 函数调用、工具使用 |
| Gemma3:9b | Q4_K_M | 5.4 GB | 约 5.9 GB | 32–38 token/s | 指令遵循 |
| DeepSeek-Coder-V2:16b | Q4_K_M | 9.1 GB | 约 10.2 GB | 18–24 token/s | 复杂代码生成 |
| Qwen2.5:32b | Q4_K_M | 19.8 GB | >20 GB | — (严重 swap) | 16 GB 节点不推荐 |
OpenClaw 智能体使用推荐:配置阶段先用 llama3.2:8b 快速验证,确认工作后切换到 qwen2.5:14b 用于生产智能体任务——后者推理能力更强、上下文窗口更长,两者都能舒适地运行在 16 GB 内存中。
分步安装:在 VpsGona Mac mini M4 节点上安装 Ollama
第一步:安装 Ollama
通过 SSH 连接 VpsGona 节点,使用官方一键安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后 Ollama 二进制位于 /usr/local/bin/ollama,并注册为 launchd 服务,登录后自动启动。验证安装:
ollama --version
# 预期输出:ollama version 0.7.x
第二步:拉取模型
拉取上文选定的模型,下载时间视模型大小和节点网络速度,通常为 5–15 分钟:
ollama pull qwen2.5:14b
# 或快速启动选项:
ollama pull llama3.2:8b
拉取完成后,验证本地模型列表:
ollama list
# NAME ID SIZE MODIFIED
# qwen2.5:14b ... 8.9 GB ...
# llama3.2:8b ... 4.7 GB ...
第三步:验证 API 服务正常运行
Ollama 默认在端口 11434 启动本地 HTTP 服务。验证响应:
curl http://localhost:11434/api/tags
# 应返回包含已拉取模型的 JSON
快速推理测试,确认 GPU 加速正常:
ollama run llama3.2:8b "仅回复:GPU 正常"
# M4 上应在 2 秒内响应
第四步:暴露 Ollama 供远程 OpenClaw 访问(可选)
如果你想在本地 Mac 上运行 OpenClaw,但把推理计算放在 VpsGona 节点上,设置 Ollama 监听所有接口并建立 SSH 隧道:
# 在 VpsGona 节点上(加入 tmux session 或 launchd):
OLLAMA_HOST=0.0.0.0 ollama serve
# 在本地机器上建立隧道:
ssh -L 11434:localhost:11434 -p {端口} user@{节点IP} -N
建立隧道后,OpenClaw 将 http://localhost:11434 视为本地 Ollama 服务,但实际推理在 M4 节点上运行。
在 OpenClaw 中配置本地 Ollama 端点
OpenClaw 从 2.2.0 版本起将 Ollama 作为一等公民 LLM 提供商支持。配置需要三个参数:
- 打开 OpenClaw → 设置 → LLM 提供商
- 点击添加提供商 → 选择 Ollama
- 将基础 URL设置为
http://localhost:11434(或 SSH 隧道地址) - 将模型设置为
ollama list中显示的精确名称(如qwen2.5:14b) - API Key 留空——Ollama 不需要 Key
- 点击测试连接——绿色对勾代表智能体可以访问模型
ollama list 输出完全一致,包括冒号和 tag(如 qwen2.5:14b 而非 qwen2.5-14b)。
支持工具调用的模型
OpenClaw 的智能体功能(文件操作、网络搜索、终端命令)依赖 LLM 支持结构化工具/函数调用。并非所有 Ollama 模型都支持。以下模型可与 OpenClaw 智能体可靠配合:
llama3.2:8b——工具调用能力强,M4 上速度最快qwen2.5:14b——优秀的工具调用和代码生成mistral:7b——结构化任务的函数调用可靠性高deepseek-coder-v2:16b——代码密集型智能体流水线首选
性能实测:OpenClaw + Ollama 在 Mac mini M4 上
以下数据在 VpsGona Mac mini M4 基础款(16 GB / 256 GB)、Ollama 0.7.2 上实测,每项为 5 次运行均值(排除第一次冷启动首 token 延迟):
| 任务类型 | 使用模型 | 生成 Token 数 | 耗时 | 实测 token/s |
|---|---|---|---|---|
| 代码审查(200行 Swift 文件) | qwen2.5:14b | 约 420 | 18.2 秒 | 23.1 t/s |
| 单元测试生成(Python 类) | llama3.2:8b | 约 280 | 7.0 秒 | 40.0 t/s |
| 多步骤智能体规划(5次工具调用) | qwen2.5:14b | 约 650 | 28.5 秒 | 22.8 t/s |
| 文档摘要(10页) | mistral:7b | 约 380 | 8.4 秒 | 45.2 t/s |
| 从描述生成 Shell 命令 | llama3.2:8b | 约 90 | 2.2 秒 | 40.9 t/s |
参考基准:23 token/s 约等于人类快速阅读速度——200 token 以内的输出用户几乎感觉即时响应。对于较长的智能体输出(400–800 token),20–25 秒的等待对批量自动化任务可以接受;交互式对话场景建议使用 llama3.2:8b 以获得 40 t/s 的更快体验。
实际工作流案例
案例一:自动 PR 代码审查智能体
配置 qwen2.5:14b 的 OpenClaw 智能体可以读取 Git diff、识别潜在问题、将审查意见写入文件——全程不向外部 API 发送一行代码。使用以下任务模板设置智能体:
使用终端工具读取 /path/to/project 中的 git diff。
识别:1)潜在空指针解引用,2)缺失错误处理,
3)与提交信息意图不符的逻辑。
将结构化审查报告写入 /tmp/review-output.md
对 300 行 diff,该智能体在 M4 节点上约 45–60 秒完成,零 API 费用,代码不出机器。
案例二:文档自动生成
使用速度更快、结构化输出更可靠的 mistral:7b,OpenClaw TaskFlow 可以遍历源文件,生成 JSDoc 或 Swift DocC 注释,并写回文件。典型的 20 个文件模块在 45 t/s 的速度下约 8 分钟完成,生成符合代码风格规范的文档,无需手动逐一编写。
案例三:测试脚手架生成
对 Python 或 TypeScript 项目中的每个源文件,使用 llama3.2:8b 的 OpenClaw 智能体可以读取公共接口,生成 pytest 或 Jest 测试文件骨架,并保存在源文件旁边。该工作流在新模块开发阶段尤其有价值:每个文件约 10–15 秒的脚手架生成,大幅降低从零开始编写测试的心理负担。
常见问题与解决方案
问题:模型推理速度极慢(低于 5 token/s)
原因:模型过大导致 macOS 换页到磁盘。解决:运行 ollama list 查看模型大小,切换到更小的量化版本(如从 Q8 换到 Q4_K_M)。用 memory_pressure 或"活动监视器"查看内存压力——指示器变红则模型一定在 swap。
问题:OpenClaw 显示"model not found",即使已经 pull 了
原因:OpenClaw 配置中的模型名与 Ollama 本地名称不匹配。解决:从 ollama list 精确复制模型名——必须包含 tag(如 qwen2.5:14b)。部分模型在 Ollama 注册表用连字符,本地用冒号——始终以 ollama list 显示为准。
问题:OpenClaw 智能体工具调用失败
原因:所选模型不支持 OpenClaw 发送的工具/函数调用格式。解决:切换到上文列出的已验证工具调用模型之一。可在 ollama.com/library 对应模型页确认是否列出"tools"能力。
问题:OpenClaw 无法连接 Ollama("connection refused")
原因:Ollama 服务未运行,或仅绑定 127.0.0.1 而你从其他进程/隧道访问。解决:运行 curl http://localhost:11434 验证。服务未运行则执行 ollama serve。使用远程节点时,用 lsof -i :11434 确认本地 SSH 隧道已建立。
问题:处理长文档时智能体在任务中途丢失上下文
原因:文档超出模型上下文窗口。大多数 7–14B 模型上下文为 4K–32K token。解决:改用 qwen2.5:14b(32K 上下文),或通过 OpenClaw TaskFlow 多步拆分任务。也可启用 Ollama 的 num_ctx 参数:ollama run qwen2.5:14b --ctx-size 16384(会占用更多内存)。
Mac mini M4 为什么是 OpenClaw 本地 AI 服务器的最优选择
持续运行本地 LLM 服务器需要:速度足够快、噪音足够小(适合办公环境)、能耗足够低(不会成为显著成本项)。Mac mini M4 在三个维度上超越同价位 x86 工作站和 ARM 单板机的组合。
统一内存架构是根本性差异:Mac mini M4 上的 16 GB 同时对 CPU、GPU 和模型层可见。这意味着 Ollama 在 macOS、OpenClaw 和浏览器并发运行时,仍能将 9 GB 模型完整保留在 GPU 内存中——不会像 PC 独显那样在内存不足时将模型层在 CPU/GPU 之间切换。结果是:模型加载后推理速度稳定可预测,无"冷启动"退化。
VpsGona 在香港、日本、韩国、新加坡和美东五个区域提供 Mac mini M4 物理节点,AI 团队可以在目标市场就近部署推理服务器——例如东京的研发团队使用日本节点,OpenClaw + Ollama 栈的 API 延迟低于 10ms;美国业务团队使用美东节点。每台节点是独立物理机,无虚拟化邻居干扰推理速度。访问定价页面对比配置和价格,或查阅帮助文档了解首次接入指南。
搭建专属私有 AI 智能体沙盒
租用 Mac mini M4 节点,几分钟内部署 OpenClaw + Ollama。零 API 费用、数据不出机器,Apple Silicon GPU 加速本地推理。