AI 工具指南 2026年4月22日

OpenClaw + Ollama 在 Mac mini M4 上執行本地大模型:完整設定指南 2026

VpsGona 工程團隊 2026年4月22日 約 13 分鐘

在 VpsGona Mac mini M4 節點上使用 OpenClaw 的開發者,現在可以搭配 Ollama 執行完全本地的大語言模型——零 API 費用、資料不出機器,Metal GPU 加速在 7–14B 模型上實現 20–45 token/s 的推理速度。本文涵蓋 16 GB 統一記憶體的模型選型、分步安裝流程、OpenClaw 設定方法、實測效能數據,以及首次設定時最常遇到的五類問題的解決方案。

為何在 Mac mini M4 上用 Ollama 驅動 OpenClaw?

大多數 OpenClaw 用戶一開始使用雲端 LLM 後端——OpenAI、Anthropic 或類似 API。這在通用任務上運行良好,但以下三種場景會驅動團隊轉向本地模型方案:

  • 程式碼隱私要求——專有原始碼、內部工具或客戶智慧財產無法傳輸到第三方 API 端點
  • 規模化成本控制——每天執行數千次補全的 AI 智能體,2–3天的 API 費用就會超過 VpsGona 節點月租費
  • 低延遲與離線執行——本地 Ollama 伺服器回應時間以毫秒計,無網路往返;對於多工具調用的緊密 AI 迴圈場景,這一差異十分顯著

Ollama 是在 macOS 上執行量化開源 LLM 最簡單的工具。它負責模型下載、量化格式選擇、服務程序管理,以及 OpenClaw 已支援的 OpenAI 相容 REST API。Mac mini M4 的統一記憶體架構——CPU 和 GPU 共享同一塊實體 DRAM——意味著 Ollama 可以將大模型完全載入 GPU 可定址記憶體,無 PCIe 帶寬瓶頸,比獨顯 PC 上的 Ollama 實質性更快。

驗證環境:本文設定均在 VpsGona Mac mini M4 基礎款(16 GB / 256 GB)、macOS Sequoia 15.4、Ollama 0.7.2、OpenClaw 2.3.1 上實測驗證。

16 GB 統一記憶體模型選型指南

設定失敗最常見的原因是選擇了超出記憶體容量的模型。16 GB 節點上,macOS 本身約佔用 3–4 GB,OpenClaw UI 和智能體執行時約佔 300–600 MB,實際可分配給模型的約為 11–12 GB

模型 量化格式 磁碟大小 記憶體佔用 速度(M4 實測) 最適合場景
Qwen2.5:14b Q4_K_M 8.9 GB 約 9.8 GB 22–28 token/s 程式碼生成、推理、長上下文
Llama3.2:8b Q4_K_M 4.7 GB 約 5.2 GB 38–45 token/s 快速編碼智能體、對話
Mistral:7b Q4_0 4.1 GB 約 4.6 GB 40–48 token/s 函式調用、工具使用
Gemma3:9b Q4_K_M 5.4 GB 約 5.9 GB 32–38 token/s 指令遵循
DeepSeek-Coder-V2:16b Q4_K_M 9.1 GB 約 10.2 GB 18–24 token/s 複雜程式碼生成
Qwen2.5:32b Q4_K_M 19.8 GB >20 GB — (嚴重 swap) 16 GB 節點不推薦

OpenClaw 智能體使用推薦:設定階段先用 llama3.2:8b 快速驗證,確認正常後切換到 qwen2.5:14b 用於生產智能體任務——後者推理能力更強、上下文視窗更長,兩者都能舒適地運行在 16 GB 記憶體中。

分步安裝:在 VpsGona Mac mini M4 節點上安裝 Ollama

第一步:安裝 Ollama

透過 SSH 連接 VpsGona 節點,使用官方一鍵安裝指令碼:

curl -fsSL https://ollama.com/install.sh | sh

驗證安裝:

ollama --version # 預期輸出:ollama version 0.7.x

第二步:拉取模型

ollama pull qwen2.5:14b # 或快速啟動選項: ollama pull llama3.2:8b

驗證本地模型清單:

ollama list

第三步:驗證 API 服務正常執行

Ollama 預設在埠號 11434 啟動本地 HTTP 服務:

curl http://localhost:11434/api/tags # 應回傳包含已拉取模型的 JSON

第四步:暴露 Ollama 供遠端 OpenClaw 存取(選用)

如果你想在本地 Mac 上執行 OpenClaw,但把推理計算放在 VpsGona 節點上:

# 在 VpsGona 節點上: OLLAMA_HOST=0.0.0.0 ollama serve # 在本地機器上建立隧道: ssh -L 11434:localhost:11434 -p {埠號} user@{節點IP} -N

在 OpenClaw 中設定本地 Ollama 端點

  1. 開啟 OpenClaw → 設定LLM 提供商
  2. 點擊新增提供商 → 選擇 Ollama
  3. 基礎 URL設定為 http://localhost:11434
  4. 模型設定為 ollama list 中顯示的精確名稱(如 qwen2.5:14b
  5. API Key 留空——Ollama 不需要 Key
  6. 點擊測試連線——綠色打勾代表智能體可以存取模型
模型名稱格式:OpenClaw 將模型名稱字串直接傳送給 Ollama API。如果出現「model not found」錯誤,確認名稱與 ollama list 輸出完全一致,包括冒號和 tag(如 qwen2.5:14b 而非 qwen2.5-14b)。

支援工具調用的模型

OpenClaw 智能體功能依賴 LLM 支援結構化工具/函式調用。以下模型可與 OpenClaw 智能體可靠配合:

  • llama3.2:8b——工具調用能力強,M4 上速度最快
  • qwen2.5:14b——優秀的工具調用和程式碼生成
  • mistral:7b——結構化任務的函式調用可靠性高
  • deepseek-coder-v2:16b——程式碼密集型智能體流水線首選

效能實測:OpenClaw + Ollama 在 Mac mini M4 上

任務類型 使用模型 生成 Token 數 耗時 實測 token/s
程式碼審查(200行 Swift 檔案) qwen2.5:14b 約 420 18.2 秒 23.1 t/s
單元測試生成(Python 類別) llama3.2:8b 約 280 7.0 秒 40.0 t/s
多步驟智能體規劃(5次工具調用) qwen2.5:14b 約 650 28.5 秒 22.8 t/s
文件摘要(10頁) mistral:7b 約 380 8.4 秒 45.2 t/s
從描述生成 Shell 指令 llama3.2:8b 約 90 2.2 秒 40.9 t/s

實際工作流案例

案例一:自動 PR 程式碼審查智能體

設定 qwen2.5:14b 的 OpenClaw 智能體可以讀取 Git diff、識別潛在問題、將審查意見寫入文件——全程不向外部 API 傳送一行程式碼。對 300 行 diff,該智能體在 M4 節點上約 45–60 秒完成,零 API 費用,資料不出機器。

案例二:文件自動生成

使用速度更快的 mistral:7b,OpenClaw TaskFlow 可以遍歷原始檔案,生成 JSDoc 或 Swift DocC 注解,並寫回文件。典型的 20 個文件模組在約 8 分鐘內完成,生成符合程式碼風格規範的文件。

案例三:測試腳手架生成

對 Python 或 TypeScript 專案中的每個源檔案,使用 llama3.2:8b 的 OpenClaw 智能體可以讀取公開介面,生成 pytest 或 Jest 測試文件骨架,並儲存在源檔案旁邊。每個文件約 10–15 秒的腳手架生成,大幅降低從零開始編寫測試的心理負擔。

常見問題與解決方案

問題:模型推理速度極慢(低於 5 token/s)

原因:模型過大導致 macOS 換頁到磁碟。解決:切換到更小的量化版本(如從 Q8 換到 Q4_K_M)。用「活動監視器」查看記憶體壓力——指示器變紅則模型一定在 swap。

問題:OpenClaw 顯示「model not found」

原因:OpenClaw 設定中的模型名與 Ollama 本地名稱不匹配。解決:ollama list 精確複製模型名,包含冒號和 tag。

問題:OpenClaw 智能體工具調用失敗

原因:所選模型不支援 OpenClaw 傳送的工具/函式調用格式。解決:切換到上文列出的已驗證工具調用模型之一。

問題:OpenClaw 無法連接 Ollama(「connection refused」)

原因:Ollama 服務未執行,或僅繫結 127.0.0.1。解決:執行 curl http://localhost:11434 驗證。服務未執行則執行 ollama serve

問題:處理長文件時智能體在任務中途遺失上下文

原因:文件超出模型上下文視窗。解決:改用 qwen2.5:14b(32K 上下文),或透過 OpenClaw TaskFlow 多步拆分任務。

Mac mini M4 為何是 OpenClaw 本地 AI 伺服器的最優選擇

持續執行本地 LLM 伺服器需要:速度足夠快、噪音足夠小(適合辦公環境)、能耗足夠低(不會成為顯著成本項)。Mac mini M4 在三個維度上超越同價位 x86 工作站和 ARM 單板機。

統一記憶體架構是根本性差異:Mac mini M4 上的 16 GB 同時對 CPU、GPU 和模型層可見。這意味著 Ollama 在 macOS、OpenClaw 和瀏覽器並行執行時,仍能將 9 GB 模型完整保留在 GPU 記憶體中,結果是:模型載入後推理速度穩定可預測,無「冷啟動」退化。

VpsGona 在香港、日本、韓國、新加坡和美東五個地區提供 Mac mini M4 實體節點,AI 團隊可以在目標市場就近部署推理伺服器——例如東京的研發團隊使用日本節點,OpenClaw + Ollama 堆疊的 API 延遲低於 10ms;美國業務團隊使用美東節點。每台節點是獨立實體機,無虛擬化鄰居干擾推理速度。訪問定價頁面對比設定和價格,或查閱說明文件了解首次接入指南。

搭建專屬私有 AI 智能體沙盒

租用 Mac mini M4 節點,幾分鐘內部署 OpenClaw + Ollama。零 API 費用、資料不出機器,Apple Silicon GPU 加速本地推理。