OpenClaw + Ollama で Mac mini M4 にローカルLLMを構築:完全設定ガイド 2026
VpsGonaのMac mini M4ノードでOpenClawを使用している開発者は、OllamaをペアリングすることでローカルLLMを実行できます——APIコストゼロ、データはマシンから出ず、Metal GPU加速により7〜14Bモデルで20〜45 token/sの推論速度を実現します。本ガイドでは、16GB統合メモリ向けのモデル選定、ステップバイステップのインストール手順、OpenClaw設定、実測パフォーマンス、そして初回設定時に最もよく遭遇する5種類の問題の解決策を解説します。
Mac mini M4でOllamaをOpenClawと組み合わせる理由
多くのOpenClawユーザーはクラウドLLMバックエンド(OpenAI、Anthropicなど)から始めます。一般的なタスクには問題ありませんが、次の3つのシナリオがローカルモデルへの移行を促します:
- コードプライバシー要件——独自ソースコード・内部ツール・クライアントのIPを第三者APIエンドポイントに送信できない
- スケール時のコスト制御——1日に何千回もの補完を実行するエージェントは、2〜3日のAPI費用がVpsGonaノードの月額賃貸料を超える
- 低レイテンシとオフライン動作——ローカルOllamaサーバーはミリ秒単位で応答し、ネットワーク往復がない;多数のツール呼び出しを含む密なエージェントループでは大きな差となる
OllamaはmacOSで量子化オープンソースLLMを実行する最も簡単な方法です。モデルのダウンロード・量子化形式の選択・サーバーのライフサイクル管理、そしてOpenClawが既にサポートするOpenAI互換REST APIを提供します。Mac mini M4の統合メモリアーキテクチャ——CPUとGPUが同じ物理DRAMを共有——により、OllamaはPCIe帯域幅のボトルネックなしに大規模モデルをGPUアドレス可能なメモリに完全に読み込めます。
16GB統合メモリ向けモデル選定ガイド
最も一般的な設定ミスは、メモリ容量を超えるモデルを選ぶことです。16GBノードでは、macOS自体が約3〜4GB、OpenClawのUIとエージェントランタイムが約300〜600MBを消費します。モデルに割り当て可能なメモリは約11〜12GBです。
| モデル | 量子化 | ディスクサイズ | メモリ使用量 | 速度(M4実測) | 最適シナリオ |
|---|---|---|---|---|---|
| Qwen2.5:14b | Q4_K_M | 8.9 GB | 約9.8 GB | 22〜28 t/s | コード生成・推論・長文脈 |
| Llama3.2:8b | Q4_K_M | 4.7 GB | 約5.2 GB | 38〜45 t/s | 高速コーディングエージェント・チャット |
| Mistral:7b | Q4_0 | 4.1 GB | 約4.6 GB | 40〜48 t/s | ファンクション呼び出し・ツール使用 |
| Gemma3:9b | Q4_K_M | 5.4 GB | 約5.9 GB | 32〜38 t/s | 命令遵守 |
| DeepSeek-Coder-V2:16b | Q4_K_M | 9.1 GB | 約10.2 GB | 18〜24 t/s | 複雑なコード生成 |
| Qwen2.5:32b | Q4_K_M | 19.8 GB | >20 GB | — (重度スワップ) | 16GBノードには非推奨 |
OpenClawエージェント向け推奨:セットアップ中はllama3.2:8bで素早く検証し、本番エージェントタスクにはqwen2.5:14bに切り替えてください。いずれも16GBメモリに余裕を持って収まります。
ステップバイステップ:VpsGona Mac mini M4 ノードにOllamaをインストール
ステップ1 — Ollamaのインストール
SSHでVpsGonaノードに接続し、公式ワンラインインストーラーを実行します:
curl -fsSL https://ollama.com/install.sh | sh
インストール確認:
ollama --version
# 期待出力:ollama version 0.7.x
ステップ2 — モデルをプル
ollama pull qwen2.5:14b
# または高速スタート:
ollama pull llama3.2:8b
プル後にローカルモデル一覧を確認:
ollama list
ステップ3 — Ollama APIが正常動作していることを確認
Ollamaはデフォルトでポート11434にHTTPサーバーを起動します:
curl http://localhost:11434/api/tags
# プルしたモデルのJSON一覧が返るはず
GPU加速の確認:
ollama run llama3.2:8b "GPU正常と一言だけ答えてください"
# M4では2秒以内に応答するはず
ステップ4 — リモートOpenClaw向けにOllamaを公開(オプション)
ローカルMacでOpenClawを実行しつつ、VpsGonaノードで推論を行う場合:
# VpsGonaノード上(tmuxセッションかlaunchdで実行):
OLLAMA_HOST=0.0.0.0 ollama serve
# ローカルマシンでSSHトンネルを作成:
ssh -L 11434:localhost:11434 -p {ポート番号} user@{ノードIP} -N
OpenClawでローカルOllamaエンドポイントを設定
- OpenClaw → 設定 → LLMプロバイダーを開く
- プロバイダーを追加 → Ollamaを選択
- ベースURLを
http://localhost:11434(またはSSHトンネルアドレス)に設定 - モデルを
ollama listに表示される正確な名前(例:qwen2.5:14b)に設定 - APIキーは空欄のまま——Ollamaにキーは不要
- 接続テストをクリック——緑のチェックマークで接続確認
ollama listの出力と完全に一致しているか確認してください(コロンとタグを含む:例qwen2.5:14b)。
ツール呼び出しに対応したモデル
OpenClawのエージェント機能(ファイル操作・Web検索・ターミナルコマンド)はLLMが構造化ツール/ファンクション呼び出しをサポートすることに依存します。OpenClawのエージェントと信頼性高く動作するモデル:
llama3.2:8b——ツール呼び出し能力が高く、M4で最速qwen2.5:14b——優れたツール呼び出しとコード生成mistral:7b——構造化タスクのファンクション呼び出しが信頼性高いdeepseek-coder-v2:16b——コード集約型エージェントパイプラインに最適
速度実測:OpenClaw + Ollama on Mac mini M4
| タスク | 使用モデル | 生成トークン数 | 所要時間 | 実測 t/s |
|---|---|---|---|---|
| コードレビュー(Swift 200行) | qwen2.5:14b | 約420 | 18.2 秒 | 23.1 t/s |
| ユニットテスト生成(Pythonクラス) | llama3.2:8b | 約280 | 7.0 秒 | 40.0 t/s |
| マルチステップエージェント計画(5回ツール呼び出し) | qwen2.5:14b | 約650 | 28.5 秒 | 22.8 t/s |
| ドキュメント要約(10ページ) | mistral:7b | 約380 | 8.4 秒 | 45.2 t/s |
| 説明からシェルコマンド生成 | llama3.2:8b | 約90 | 2.2 秒 | 40.9 t/s |
ワークフロー事例
事例1:自動PRコードレビューエージェント
qwen2.5:14bを設定したOpenClawエージェントは、Gitのdiffを読み込み、潜在的なバグを特定し、レビューコメントをファイルに書き込みます——外部APIにコードを1行も送らずに。300行のdiffでは、M4ノード上で約45〜60秒で完了します。APIコストゼロ、コードはマシンの外に出ません。
事例2:ドキュメント自動生成
速度と構造化出力の信頼性が高いmistral:7bを使用したOpenClaw TaskFlowは、ソースファイルを順番に処理し、JSDocまたはSwift DocCコメントを生成してファイルに書き戻します。20ファイルのモジュールなら約8分で完了し、スタイルガイドに準拠した一貫したドキュメントを生成します。
事例3:テストスキャフォールディング生成
PythonまたはTypeScriptプロジェクトの各ソースファイルに対し、llama3.2:8bを使用したOpenClawエージェントはパブリックインターフェースを読み込み、pytestまたはJestのテストファイルスケルトンを生成してソースファイルの隣に保存します。各ファイル約10〜15秒で生成されるスキャフォールディングは、ゼロからテストを書く際の「空白ページ問題」を大幅に軽減します。
トラブルシューティング:よくある問題と解決策
問題:推論速度が非常に遅い(5 t/s未満)
原因:モデルが大きすぎてmacOSがディスクにスワップしている。解決策:ollama listでモデルサイズを確認し、より小さな量子化に切り替える(Q8からQ4_K_Mなど)。アクティビティモニターでメモリプレッシャーを確認——赤になっているとスワップが発生しています。
問題:ollama pullした後もOpenClawが「model not found」を表示する
原因:OpenClaw設定のモデル名とOllamaのローカル名が一致しない。解決策:ollama listからモデル名を正確にコピーする——タグ(コロン)を含む完全な形で(例:qwen2.5:14b)。
問題:OpenClawエージェントのツール呼び出しが失敗する
原因:選択したモデルがOpenClawが送信するツール/ファンクション呼び出しスキーマをサポートしていない。解決策:上記の動作確認済みツール呼び出し対応モデルに切り替える。
問題:OpenClawがOllamaに接続できない(「connection refused」)
原因:Ollamaサーバーが動作していないか、127.0.0.1のみにバインドされている。解決策:curl http://localhost:11434で確認。動作していなければollama serveで起動。リモートノード使用時はlsof -i :11434でSSHトンネルが確立しているか確認。
問題:長いドキュメント処理中にエージェントがコンテキストを失う
原因:ドキュメントがモデルのコンテキストウィンドウを超えている。解決策:qwen2.5:14b(32Kコンテキスト)に切り替えるか、OpenClaw TaskFlowでタスクをチャンクに分割する。
Mac mini M4がOpenClawローカルAIサーバーに最適な理由
ローカルLLMサーバーを24時間稼働させるには、十分な速度・オフィス環境で問題ない静音性・コストに見合う省電力性が必要です。Mac mini M4はこれらすべての条件で、同価格帯のx86ワークステーションとARMシングルボードコンピューターの組み合わせを凌駕します。
統合メモリアーキテクチャが根本的な差別化要因です:Mac mini M4の16GBはCPU・GPU・モデルレイヤーすべてが同時にアクセス可能です。これにより、Ollama、macOS、OpenClaw、ブラウザが並列実行していても、9GBのモデルをGPUメモリに完全保持し続けることができます——独立型GPUを持つPCのように、メモリが不足してCPU/GPU間でモデルを分割する必要がありません。結果として、モデルロード後の推論速度は安定しており、「コールドスタート」による劣化がありません。
VpsGonaは香港・日本・韓国・シンガポール・米国東部の5地域にMac mini M4物理ノードを提供しており、AIチームはターゲット市場に近い場所に推論サーバーを配置できます——例えば東京ベースの開発チームが日本ノードを使用すると、OpenClaw + OllamaスタックへのAPIレイテンシは10ms未満になります。各ノードは専用物理マシンであり、仮想化による隣人問題の影響を受けません。料金ページで構成と価格を比較するか、ヘルプドキュメントで初回セットアップガイドをご確認ください。
プライベートAIエージェントサンドボックスを構築
Mac mini M4ノードを借りて、OpenClaw + Ollamaを数分でデプロイ。APIコストゼロ、データ漏洩なし、Apple Silicon GPU加速によるローカル推論。