OpenClaw + Ollama 在 Mac mini M4 上執行本地大模型:完整設定指南 2026
在 VpsGona Mac mini M4 節點上使用 OpenClaw 的開發者,現在可以搭配 Ollama 執行完全本地的大語言模型——零 API 費用、資料不出機器,Metal GPU 加速在 7–14B 模型上實現 20–45 token/s 的推理速度。本文涵蓋 16 GB 統一記憶體的模型選型、分步安裝流程、OpenClaw 設定方法、實測效能數據,以及首次設定時最常遇到的五類問題的解決方案。
為何在 Mac mini M4 上用 Ollama 驅動 OpenClaw?
大多數 OpenClaw 用戶一開始使用雲端 LLM 後端——OpenAI、Anthropic 或類似 API。這在通用任務上運行良好,但以下三種場景會驅動團隊轉向本地模型方案:
- 程式碼隱私要求——專有原始碼、內部工具或客戶智慧財產無法傳輸到第三方 API 端點
- 規模化成本控制——每天執行數千次補全的 AI 智能體,2–3天的 API 費用就會超過 VpsGona 節點月租費
- 低延遲與離線執行——本地 Ollama 伺服器回應時間以毫秒計,無網路往返;對於多工具調用的緊密 AI 迴圈場景,這一差異十分顯著
Ollama 是在 macOS 上執行量化開源 LLM 最簡單的工具。它負責模型下載、量化格式選擇、服務程序管理,以及 OpenClaw 已支援的 OpenAI 相容 REST API。Mac mini M4 的統一記憶體架構——CPU 和 GPU 共享同一塊實體 DRAM——意味著 Ollama 可以將大模型完全載入 GPU 可定址記憶體,無 PCIe 帶寬瓶頸,比獨顯 PC 上的 Ollama 實質性更快。
16 GB 統一記憶體模型選型指南
設定失敗最常見的原因是選擇了超出記憶體容量的模型。16 GB 節點上,macOS 本身約佔用 3–4 GB,OpenClaw UI 和智能體執行時約佔 300–600 MB,實際可分配給模型的約為 11–12 GB。
| 模型 | 量化格式 | 磁碟大小 | 記憶體佔用 | 速度(M4 實測) | 最適合場景 |
|---|---|---|---|---|---|
| Qwen2.5:14b | Q4_K_M | 8.9 GB | 約 9.8 GB | 22–28 token/s | 程式碼生成、推理、長上下文 |
| Llama3.2:8b | Q4_K_M | 4.7 GB | 約 5.2 GB | 38–45 token/s | 快速編碼智能體、對話 |
| Mistral:7b | Q4_0 | 4.1 GB | 約 4.6 GB | 40–48 token/s | 函式調用、工具使用 |
| Gemma3:9b | Q4_K_M | 5.4 GB | 約 5.9 GB | 32–38 token/s | 指令遵循 |
| DeepSeek-Coder-V2:16b | Q4_K_M | 9.1 GB | 約 10.2 GB | 18–24 token/s | 複雜程式碼生成 |
| Qwen2.5:32b | Q4_K_M | 19.8 GB | >20 GB | — (嚴重 swap) | 16 GB 節點不推薦 |
OpenClaw 智能體使用推薦:設定階段先用 llama3.2:8b 快速驗證,確認正常後切換到 qwen2.5:14b 用於生產智能體任務——後者推理能力更強、上下文視窗更長,兩者都能舒適地運行在 16 GB 記憶體中。
分步安裝:在 VpsGona Mac mini M4 節點上安裝 Ollama
第一步:安裝 Ollama
透過 SSH 連接 VpsGona 節點,使用官方一鍵安裝指令碼:
curl -fsSL https://ollama.com/install.sh | sh
驗證安裝:
ollama --version
# 預期輸出:ollama version 0.7.x
第二步:拉取模型
ollama pull qwen2.5:14b
# 或快速啟動選項:
ollama pull llama3.2:8b
驗證本地模型清單:
ollama list
第三步:驗證 API 服務正常執行
Ollama 預設在埠號 11434 啟動本地 HTTP 服務:
curl http://localhost:11434/api/tags
# 應回傳包含已拉取模型的 JSON
第四步:暴露 Ollama 供遠端 OpenClaw 存取(選用)
如果你想在本地 Mac 上執行 OpenClaw,但把推理計算放在 VpsGona 節點上:
# 在 VpsGona 節點上:
OLLAMA_HOST=0.0.0.0 ollama serve
# 在本地機器上建立隧道:
ssh -L 11434:localhost:11434 -p {埠號} user@{節點IP} -N
在 OpenClaw 中設定本地 Ollama 端點
- 開啟 OpenClaw → 設定 → LLM 提供商
- 點擊新增提供商 → 選擇 Ollama
- 將基礎 URL設定為
http://localhost:11434 - 將模型設定為
ollama list中顯示的精確名稱(如qwen2.5:14b) - API Key 留空——Ollama 不需要 Key
- 點擊測試連線——綠色打勾代表智能體可以存取模型
ollama list 輸出完全一致,包括冒號和 tag(如 qwen2.5:14b 而非 qwen2.5-14b)。
支援工具調用的模型
OpenClaw 智能體功能依賴 LLM 支援結構化工具/函式調用。以下模型可與 OpenClaw 智能體可靠配合:
llama3.2:8b——工具調用能力強,M4 上速度最快qwen2.5:14b——優秀的工具調用和程式碼生成mistral:7b——結構化任務的函式調用可靠性高deepseek-coder-v2:16b——程式碼密集型智能體流水線首選
效能實測:OpenClaw + Ollama 在 Mac mini M4 上
| 任務類型 | 使用模型 | 生成 Token 數 | 耗時 | 實測 token/s |
|---|---|---|---|---|
| 程式碼審查(200行 Swift 檔案) | qwen2.5:14b | 約 420 | 18.2 秒 | 23.1 t/s |
| 單元測試生成(Python 類別) | llama3.2:8b | 約 280 | 7.0 秒 | 40.0 t/s |
| 多步驟智能體規劃(5次工具調用) | qwen2.5:14b | 約 650 | 28.5 秒 | 22.8 t/s |
| 文件摘要(10頁) | mistral:7b | 約 380 | 8.4 秒 | 45.2 t/s |
| 從描述生成 Shell 指令 | llama3.2:8b | 約 90 | 2.2 秒 | 40.9 t/s |
實際工作流案例
案例一:自動 PR 程式碼審查智能體
設定 qwen2.5:14b 的 OpenClaw 智能體可以讀取 Git diff、識別潛在問題、將審查意見寫入文件——全程不向外部 API 傳送一行程式碼。對 300 行 diff,該智能體在 M4 節點上約 45–60 秒完成,零 API 費用,資料不出機器。
案例二:文件自動生成
使用速度更快的 mistral:7b,OpenClaw TaskFlow 可以遍歷原始檔案,生成 JSDoc 或 Swift DocC 注解,並寫回文件。典型的 20 個文件模組在約 8 分鐘內完成,生成符合程式碼風格規範的文件。
案例三:測試腳手架生成
對 Python 或 TypeScript 專案中的每個源檔案,使用 llama3.2:8b 的 OpenClaw 智能體可以讀取公開介面,生成 pytest 或 Jest 測試文件骨架,並儲存在源檔案旁邊。每個文件約 10–15 秒的腳手架生成,大幅降低從零開始編寫測試的心理負擔。
常見問題與解決方案
問題:模型推理速度極慢(低於 5 token/s)
原因:模型過大導致 macOS 換頁到磁碟。解決:切換到更小的量化版本(如從 Q8 換到 Q4_K_M)。用「活動監視器」查看記憶體壓力——指示器變紅則模型一定在 swap。
問題:OpenClaw 顯示「model not found」
原因:OpenClaw 設定中的模型名與 Ollama 本地名稱不匹配。解決:從 ollama list 精確複製模型名,包含冒號和 tag。
問題:OpenClaw 智能體工具調用失敗
原因:所選模型不支援 OpenClaw 傳送的工具/函式調用格式。解決:切換到上文列出的已驗證工具調用模型之一。
問題:OpenClaw 無法連接 Ollama(「connection refused」)
原因:Ollama 服務未執行,或僅繫結 127.0.0.1。解決:執行 curl http://localhost:11434 驗證。服務未執行則執行 ollama serve。
問題:處理長文件時智能體在任務中途遺失上下文
原因:文件超出模型上下文視窗。解決:改用 qwen2.5:14b(32K 上下文),或透過 OpenClaw TaskFlow 多步拆分任務。
Mac mini M4 為何是 OpenClaw 本地 AI 伺服器的最優選擇
持續執行本地 LLM 伺服器需要:速度足夠快、噪音足夠小(適合辦公環境)、能耗足夠低(不會成為顯著成本項)。Mac mini M4 在三個維度上超越同價位 x86 工作站和 ARM 單板機。
統一記憶體架構是根本性差異:Mac mini M4 上的 16 GB 同時對 CPU、GPU 和模型層可見。這意味著 Ollama 在 macOS、OpenClaw 和瀏覽器並行執行時,仍能將 9 GB 模型完整保留在 GPU 記憶體中,結果是:模型載入後推理速度穩定可預測,無「冷啟動」退化。
VpsGona 在香港、日本、韓國、新加坡和美東五個地區提供 Mac mini M4 實體節點,AI 團隊可以在目標市場就近部署推理伺服器——例如東京的研發團隊使用日本節點,OpenClaw + Ollama 堆疊的 API 延遲低於 10ms;美國業務團隊使用美東節點。每台節點是獨立實體機,無虛擬化鄰居干擾推理速度。訪問定價頁面對比設定和價格,或查閱說明文件了解首次接入指南。
搭建專屬私有 AI 智能體沙盒
租用 Mac mini M4 節點,幾分鐘內部署 OpenClaw + Ollama。零 API 費用、資料不出機器,Apple Silicon GPU 加速本地推理。