AI 工具指南 2026年4月22日

OpenClaw + Ollama 在 Mac mini M4 上執行本地大模型：完整設定指南 2026

VpsGona 工程團隊 2026年4月22日約 13 分鐘

在 VpsGona Mac mini M4 節點上使用 OpenClaw 的開發者，現在可以搭配 Ollama 執行完全本地的大語言模型——零 API 費用、資料不出機器，Metal GPU 加速在 7–14B 模型上實現 20–45 token/s 的推理速度。本文涵蓋 16 GB 統一記憶體的模型選型、分步安裝流程、OpenClaw 設定方法、實測效能數據，以及首次設定時最常遇到的五類問題的解決方案。

為何在 Mac mini M4 上用 Ollama 驅動 OpenClaw？

大多數 OpenClaw 用戶一開始使用雲端 LLM 後端——OpenAI、Anthropic 或類似 API。這在通用任務上運行良好，但以下三種場景會驅動團隊轉向本地模型方案：

程式碼隱私要求——專有原始碼、內部工具或客戶智慧財產無法傳輸到第三方 API 端點
規模化成本控制——每天執行數千次補全的 AI 智能體，2–3天的 API 費用就會超過 VpsGona 節點月租費
低延遲與離線執行——本地 Ollama 伺服器回應時間以毫秒計，無網路往返；對於多工具調用的緊密 AI 迴圈場景，這一差異十分顯著

Ollama 是在 macOS 上執行量化開源 LLM 最簡單的工具。它負責模型下載、量化格式選擇、服務程序管理，以及 OpenClaw 已支援的 OpenAI 相容 REST API。Mac mini M4 的統一記憶體架構——CPU 和 GPU 共享同一塊實體 DRAM——意味著 Ollama 可以將大模型完全載入 GPU 可定址記憶體，無 PCIe 帶寬瓶頸，比獨顯 PC 上的 Ollama 實質性更快。

驗證環境：本文設定均在 VpsGona Mac mini M4 基礎款（16 GB / 256 GB）、macOS Sequoia 15.4、Ollama 0.7.2、OpenClaw 2.3.1 上實測驗證。

16 GB 統一記憶體模型選型指南

設定失敗最常見的原因是選擇了超出記憶體容量的模型。16 GB 節點上，macOS 本身約佔用 3–4 GB，OpenClaw UI 和智能體執行時約佔 300–600 MB，實際可分配給模型的約為 11–12 GB。

模型	量化格式	磁碟大小	記憶體佔用	速度（M4 實測）	最適合場景
Qwen2.5:14b	Q4_K_M	8.9 GB	約 9.8 GB	22–28 token/s	程式碼生成、推理、長上下文
Llama3.2:8b	Q4_K_M	4.7 GB	約 5.2 GB	38–45 token/s	快速編碼智能體、對話
Mistral:7b	Q4_0	4.1 GB	約 4.6 GB	40–48 token/s	函式調用、工具使用
Gemma3:9b	Q4_K_M	5.4 GB	約 5.9 GB	32–38 token/s	指令遵循
DeepSeek-Coder-V2:16b	Q4_K_M	9.1 GB	約 10.2 GB	18–24 token/s	複雜程式碼生成
Qwen2.5:32b	Q4_K_M	19.8 GB	>20 GB	— （嚴重 swap）	16 GB 節點不推薦

OpenClaw 智能體使用推薦：設定階段先用 llama3.2:8b 快速驗證，確認正常後切換到 qwen2.5:14b 用於生產智能體任務——後者推理能力更強、上下文視窗更長，兩者都能舒適地運行在 16 GB 記憶體中。

分步安裝：在 VpsGona Mac mini M4 節點上安裝 Ollama

第一步：安裝 Ollama

透過 SSH 連接 VpsGona 節點，使用官方一鍵安裝指令碼：

curl -fsSL https://ollama.com/install.sh | sh

驗證安裝：

ollama --version # 預期輸出：ollama version 0.7.x

第二步：拉取模型

ollama pull qwen2.5:14b # 或快速啟動選項： ollama pull llama3.2:8b

驗證本地模型清單：

ollama list

第三步：驗證 API 服務正常執行

Ollama 預設在埠號 11434 啟動本地 HTTP 服務：

curl http://localhost:11434/api/tags # 應回傳包含已拉取模型的 JSON

第四步：暴露 Ollama 供遠端 OpenClaw 存取（選用）

如果你想在本地 Mac 上執行 OpenClaw，但把推理計算放在 VpsGona 節點上：

# 在 VpsGona 節點上： OLLAMA_HOST=0.0.0.0 ollama serve # 在本地機器上建立隧道： ssh -L 11434:localhost:11434 -p {埠號} user@{節點IP} -N

在 OpenClaw 中設定本地 Ollama 端點

開啟 OpenClaw → 設定 → LLM 提供商
點擊新增提供商 → 選擇 Ollama
將基礎 URL設定為 http://localhost:11434
將模型設定為 ollama list 中顯示的精確名稱（如 qwen2.5:14b）
API Key 留空——Ollama 不需要 Key
點擊測試連線——綠色打勾代表智能體可以存取模型

模型名稱格式：OpenClaw 將模型名稱字串直接傳送給 Ollama API。如果出現「model not found」錯誤，確認名稱與 ollama list 輸出完全一致，包括冒號和 tag（如 qwen2.5:14b 而非 qwen2.5-14b）。

支援工具調用的模型

OpenClaw 智能體功能依賴 LLM 支援結構化工具/函式調用。以下模型可與 OpenClaw 智能體可靠配合：

llama3.2:8b——工具調用能力強，M4 上速度最快
qwen2.5:14b——優秀的工具調用和程式碼生成
mistral:7b——結構化任務的函式調用可靠性高
deepseek-coder-v2:16b——程式碼密集型智能體流水線首選

效能實測：OpenClaw + Ollama 在 Mac mini M4 上

任務類型	使用模型	生成 Token 數	耗時	實測 token/s
程式碼審查（200行 Swift 檔案）	qwen2.5:14b	約 420	18.2 秒	23.1 t/s
單元測試生成（Python 類別）	llama3.2:8b	約 280	7.0 秒	40.0 t/s
多步驟智能體規劃（5次工具調用）	qwen2.5:14b	約 650	28.5 秒	22.8 t/s
文件摘要（10頁）	mistral:7b	約 380	8.4 秒	45.2 t/s
從描述生成 Shell 指令	llama3.2:8b	約 90	2.2 秒	40.9 t/s

實際工作流案例

案例一：自動 PR 程式碼審查智能體

設定 qwen2.5:14b 的 OpenClaw 智能體可以讀取 Git diff、識別潛在問題、將審查意見寫入文件——全程不向外部 API 傳送一行程式碼。對 300 行 diff，該智能體在 M4 節點上約 45–60 秒完成，零 API 費用，資料不出機器。

案例二：文件自動生成

使用速度更快的 mistral:7b，OpenClaw TaskFlow 可以遍歷原始檔案，生成 JSDoc 或 Swift DocC 注解，並寫回文件。典型的 20 個文件模組在約 8 分鐘內完成，生成符合程式碼風格規範的文件。

案例三：測試腳手架生成

對 Python 或 TypeScript 專案中的每個源檔案，使用 llama3.2:8b 的 OpenClaw 智能體可以讀取公開介面，生成 pytest 或 Jest 測試文件骨架，並儲存在源檔案旁邊。每個文件約 10–15 秒的腳手架生成，大幅降低從零開始編寫測試的心理負擔。

常見問題與解決方案

問題：模型推理速度極慢（低於 5 token/s）

原因：模型過大導致 macOS 換頁到磁碟。解決：切換到更小的量化版本（如從 Q8 換到 Q4_K_M）。用「活動監視器」查看記憶體壓力——指示器變紅則模型一定在 swap。

問題：OpenClaw 顯示「model not found」

原因：OpenClaw 設定中的模型名與 Ollama 本地名稱不匹配。解決：從 ollama list 精確複製模型名，包含冒號和 tag。

問題：OpenClaw 智能體工具調用失敗

原因：所選模型不支援 OpenClaw 傳送的工具/函式調用格式。解決：切換到上文列出的已驗證工具調用模型之一。

問題：OpenClaw 無法連接 Ollama（「connection refused」）

原因：Ollama 服務未執行，或僅繫結 127.0.0.1。解決：執行 curl http://localhost:11434 驗證。服務未執行則執行 ollama serve。

問題：處理長文件時智能體在任務中途遺失上下文

原因：文件超出模型上下文視窗。解決：改用 qwen2.5:14b（32K 上下文），或透過 OpenClaw TaskFlow 多步拆分任務。

Mac mini M4 為何是 OpenClaw 本地 AI 伺服器的最優選擇

持續執行本地 LLM 伺服器需要：速度足夠快、噪音足夠小（適合辦公環境）、能耗足夠低（不會成為顯著成本項）。Mac mini M4 在三個維度上超越同價位 x86 工作站和 ARM 單板機。

統一記憶體架構是根本性差異：Mac mini M4 上的 16 GB 同時對 CPU、GPU 和模型層可見。這意味著 Ollama 在 macOS、OpenClaw 和瀏覽器並行執行時，仍能將 9 GB 模型完整保留在 GPU 記憶體中，結果是：模型載入後推理速度穩定可預測，無「冷啟動」退化。

VpsGona 在香港、日本、韓國、新加坡和美東五個地區提供 Mac mini M4 實體節點，AI 團隊可以在目標市場就近部署推理伺服器——例如東京的研發團隊使用日本節點，OpenClaw + Ollama 堆疊的 API 延遲低於 10ms；美國業務團隊使用美東節點。每台節點是獨立實體機，無虛擬化鄰居干擾推理速度。訪問定價頁面對比設定和價格，或查閱說明文件了解首次接入指南。

搭建專屬私有 AI 智能體沙盒

租用 Mac mini M4 節點，幾分鐘內部署 OpenClaw + Ollama。零 API 費用、資料不出機器，Apple Silicon GPU 加速本地推理。

取得 AI 沙盒節點查看部署文件