AIツールガイド 2026年4月22日

OpenClaw + Ollama で Mac mini M4 にローカルLLMを構築:完全設定ガイド 2026

VpsGona エンジニアリングチーム 2026年4月22日 約 13 分

VpsGonaのMac mini M4ノードでOpenClawを使用している開発者は、OllamaをペアリングすることでローカルLLMを実行できます——APIコストゼロ、データはマシンから出ず、Metal GPU加速により7〜14Bモデルで20〜45 token/sの推論速度を実現します。本ガイドでは、16GB統合メモリ向けのモデル選定、ステップバイステップのインストール手順、OpenClaw設定、実測パフォーマンス、そして初回設定時に最もよく遭遇する5種類の問題の解決策を解説します。

Mac mini M4でOllamaをOpenClawと組み合わせる理由

多くのOpenClawユーザーはクラウドLLMバックエンド(OpenAI、Anthropicなど)から始めます。一般的なタスクには問題ありませんが、次の3つのシナリオがローカルモデルへの移行を促します:

  • コードプライバシー要件——独自ソースコード・内部ツール・クライアントのIPを第三者APIエンドポイントに送信できない
  • スケール時のコスト制御——1日に何千回もの補完を実行するエージェントは、2〜3日のAPI費用がVpsGonaノードの月額賃貸料を超える
  • 低レイテンシとオフライン動作——ローカルOllamaサーバーはミリ秒単位で応答し、ネットワーク往復がない;多数のツール呼び出しを含む密なエージェントループでは大きな差となる

OllamaはmacOSで量子化オープンソースLLMを実行する最も簡単な方法です。モデルのダウンロード・量子化形式の選択・サーバーのライフサイクル管理、そしてOpenClawが既にサポートするOpenAI互換REST APIを提供します。Mac mini M4の統合メモリアーキテクチャ——CPUとGPUが同じ物理DRAMを共有——により、OllamaはPCIe帯域幅のボトルネックなしに大規模モデルをGPUアドレス可能なメモリに完全に読み込めます。

検証環境:本ガイドの設定はVpsGona Mac mini M4ベースモデル(16 GB / 256 GB)、macOS Sequoia 15.4、Ollama 0.7.2、OpenClaw 2.3.1で実測検証済みです。

16GB統合メモリ向けモデル選定ガイド

最も一般的な設定ミスは、メモリ容量を超えるモデルを選ぶことです。16GBノードでは、macOS自体が約3〜4GB、OpenClawのUIとエージェントランタイムが約300〜600MBを消費します。モデルに割り当て可能なメモリは約11〜12GBです。

モデル 量子化 ディスクサイズ メモリ使用量 速度(M4実測) 最適シナリオ
Qwen2.5:14b Q4_K_M 8.9 GB 約9.8 GB 22〜28 t/s コード生成・推論・長文脈
Llama3.2:8b Q4_K_M 4.7 GB 約5.2 GB 38〜45 t/s 高速コーディングエージェント・チャット
Mistral:7b Q4_0 4.1 GB 約4.6 GB 40〜48 t/s ファンクション呼び出し・ツール使用
Gemma3:9b Q4_K_M 5.4 GB 約5.9 GB 32〜38 t/s 命令遵守
DeepSeek-Coder-V2:16b Q4_K_M 9.1 GB 約10.2 GB 18〜24 t/s 複雑なコード生成
Qwen2.5:32b Q4_K_M 19.8 GB >20 GB — (重度スワップ) 16GBノードには非推奨

OpenClawエージェント向け推奨:セットアップ中はllama3.2:8bで素早く検証し、本番エージェントタスクにはqwen2.5:14bに切り替えてください。いずれも16GBメモリに余裕を持って収まります。

ステップバイステップ:VpsGona Mac mini M4 ノードにOllamaをインストール

ステップ1 — Ollamaのインストール

SSHでVpsGonaノードに接続し、公式ワンラインインストーラーを実行します:

curl -fsSL https://ollama.com/install.sh | sh

インストール確認:

ollama --version # 期待出力:ollama version 0.7.x

ステップ2 — モデルをプル

ollama pull qwen2.5:14b # または高速スタート: ollama pull llama3.2:8b

プル後にローカルモデル一覧を確認:

ollama list

ステップ3 — Ollama APIが正常動作していることを確認

Ollamaはデフォルトでポート11434にHTTPサーバーを起動します:

curl http://localhost:11434/api/tags # プルしたモデルのJSON一覧が返るはず

GPU加速の確認:

ollama run llama3.2:8b "GPU正常と一言だけ答えてください" # M4では2秒以内に応答するはず

ステップ4 — リモートOpenClaw向けにOllamaを公開(オプション)

ローカルMacでOpenClawを実行しつつ、VpsGonaノードで推論を行う場合:

# VpsGonaノード上(tmuxセッションかlaunchdで実行): OLLAMA_HOST=0.0.0.0 ollama serve # ローカルマシンでSSHトンネルを作成: ssh -L 11434:localhost:11434 -p {ポート番号} user@{ノードIP} -N

OpenClawでローカルOllamaエンドポイントを設定

  1. OpenClaw → 設定LLMプロバイダーを開く
  2. プロバイダーを追加Ollamaを選択
  3. ベースURLhttp://localhost:11434(またはSSHトンネルアドレス)に設定
  4. モデルollama listに表示される正確な名前(例:qwen2.5:14b)に設定
  5. APIキーは空欄のまま——Ollamaにキーは不要
  6. 接続テストをクリック——緑のチェックマークで接続確認
モデル名の形式:OpenClawはモデル名の文字列をOllama APIにそのまま送信します。「model not found」エラーが発生した場合、ollama listの出力と完全に一致しているか確認してください(コロンとタグを含む:例qwen2.5:14b)。

ツール呼び出しに対応したモデル

OpenClawのエージェント機能(ファイル操作・Web検索・ターミナルコマンド)はLLMが構造化ツール/ファンクション呼び出しをサポートすることに依存します。OpenClawのエージェントと信頼性高く動作するモデル:

  • llama3.2:8b——ツール呼び出し能力が高く、M4で最速
  • qwen2.5:14b——優れたツール呼び出しとコード生成
  • mistral:7b——構造化タスクのファンクション呼び出しが信頼性高い
  • deepseek-coder-v2:16b——コード集約型エージェントパイプラインに最適

速度実測:OpenClaw + Ollama on Mac mini M4

タスク 使用モデル 生成トークン数 所要時間 実測 t/s
コードレビュー(Swift 200行) qwen2.5:14b 約420 18.2 秒 23.1 t/s
ユニットテスト生成(Pythonクラス) llama3.2:8b 約280 7.0 秒 40.0 t/s
マルチステップエージェント計画(5回ツール呼び出し) qwen2.5:14b 約650 28.5 秒 22.8 t/s
ドキュメント要約(10ページ) mistral:7b 約380 8.4 秒 45.2 t/s
説明からシェルコマンド生成 llama3.2:8b 約90 2.2 秒 40.9 t/s

ワークフロー事例

事例1:自動PRコードレビューエージェント

qwen2.5:14bを設定したOpenClawエージェントは、Gitのdiffを読み込み、潜在的なバグを特定し、レビューコメントをファイルに書き込みます——外部APIにコードを1行も送らずに。300行のdiffでは、M4ノード上で約45〜60秒で完了します。APIコストゼロ、コードはマシンの外に出ません。

事例2:ドキュメント自動生成

速度と構造化出力の信頼性が高いmistral:7bを使用したOpenClaw TaskFlowは、ソースファイルを順番に処理し、JSDocまたはSwift DocCコメントを生成してファイルに書き戻します。20ファイルのモジュールなら約8分で完了し、スタイルガイドに準拠した一貫したドキュメントを生成します。

事例3:テストスキャフォールディング生成

PythonまたはTypeScriptプロジェクトの各ソースファイルに対し、llama3.2:8bを使用したOpenClawエージェントはパブリックインターフェースを読み込み、pytestまたはJestのテストファイルスケルトンを生成してソースファイルの隣に保存します。各ファイル約10〜15秒で生成されるスキャフォールディングは、ゼロからテストを書く際の「空白ページ問題」を大幅に軽減します。

トラブルシューティング:よくある問題と解決策

問題:推論速度が非常に遅い(5 t/s未満)

原因:モデルが大きすぎてmacOSがディスクにスワップしている。解決策:ollama listでモデルサイズを確認し、より小さな量子化に切り替える(Q8からQ4_K_Mなど)。アクティビティモニターでメモリプレッシャーを確認——赤になっているとスワップが発生しています。

問題:ollama pullした後もOpenClawが「model not found」を表示する

原因:OpenClaw設定のモデル名とOllamaのローカル名が一致しない。解決策:ollama listからモデル名を正確にコピーする——タグ(コロン)を含む完全な形で(例:qwen2.5:14b)。

問題:OpenClawエージェントのツール呼び出しが失敗する

原因:選択したモデルがOpenClawが送信するツール/ファンクション呼び出しスキーマをサポートしていない。解決策:上記の動作確認済みツール呼び出し対応モデルに切り替える。

問題:OpenClawがOllamaに接続できない(「connection refused」)

原因:Ollamaサーバーが動作していないか、127.0.0.1のみにバインドされている。解決策:curl http://localhost:11434で確認。動作していなければollama serveで起動。リモートノード使用時はlsof -i :11434でSSHトンネルが確立しているか確認。

問題:長いドキュメント処理中にエージェントがコンテキストを失う

原因:ドキュメントがモデルのコンテキストウィンドウを超えている。解決策:qwen2.5:14b(32Kコンテキスト)に切り替えるか、OpenClaw TaskFlowでタスクをチャンクに分割する。

Mac mini M4がOpenClawローカルAIサーバーに最適な理由

ローカルLLMサーバーを24時間稼働させるには、十分な速度・オフィス環境で問題ない静音性・コストに見合う省電力性が必要です。Mac mini M4はこれらすべての条件で、同価格帯のx86ワークステーションとARMシングルボードコンピューターの組み合わせを凌駕します。

統合メモリアーキテクチャが根本的な差別化要因です:Mac mini M4の16GBはCPU・GPU・モデルレイヤーすべてが同時にアクセス可能です。これにより、Ollama、macOS、OpenClaw、ブラウザが並列実行していても、9GBのモデルをGPUメモリに完全保持し続けることができます——独立型GPUを持つPCのように、メモリが不足してCPU/GPU間でモデルを分割する必要がありません。結果として、モデルロード後の推論速度は安定しており、「コールドスタート」による劣化がありません。

VpsGonaは香港・日本・韓国・シンガポール・米国東部の5地域にMac mini M4物理ノードを提供しており、AIチームはターゲット市場に近い場所に推論サーバーを配置できます——例えば東京ベースの開発チームが日本ノードを使用すると、OpenClaw + OllamaスタックへのAPIレイテンシは10ms未満になります。各ノードは専用物理マシンであり、仮想化による隣人問題の影響を受けません。料金ページで構成と価格を比較するか、ヘルプドキュメントで初回セットアップガイドをご確認ください。

プライベートAIエージェントサンドボックスを構築

Mac mini M4ノードを借りて、OpenClaw + Ollamaを数分でデプロイ。APIコストゼロ、データ漏洩なし、Apple Silicon GPU加速によるローカル推論。