OpenClaw + Ollama sur Mac mini M4 : Guide de Configuration LLM Local et Agent IA 2026
Les API LLM cloud sont pratiques, mais leurs coûts sont imprévisibles, elles imposent d'envoyer des données sensibles vers des serveurs externes, et leur latence réseau nuit aux boucles d'agent réactives. La mémoire unifiée de 16 Go du Mac mini M4 et son Neural Engine M4 offrent suffisamment de puissance pour exécuter des LLM de 7 à 13 milliards de paramètres rapidement et de manière totalement privée. Ce guide vous montre comment installer Ollama sur un nœud VpsGona Mac mini M4, le connecter au framework d'agent IA OpenClaw, comparer les performances de différents modèles et résoudre les problèmes courants.
Pourquoi un LLM local plutôt que les API cloud
Construire des agents sur des API LLM cloud en 2026 implique encore 4 problèmes fondamentaux :
- Conformité à la protection des données — les données financières, médicales et juridiques ne peuvent pas être envoyées vers des API cloud publiques ; les données restent sur votre nœud Mac mini VpsGona, simplifiant la conformité réglementaire
- Coûts imprévisibles — la facturation au token peut exploser quand les workflows traitent de longs contextes ou itèrent en boucle
- La latence pénalise les boucles d'agent — les agents qui enchaînent appel d'outil → complétion LLM → appel d'outil des dizaines de fois voient leur temps d'exécution augmenter linéairement avec la latence aller-retour de l'API
- Inutilisable hors connexion — les serveurs isolés ou les environnements de développement restreints ne peuvent tout simplement pas se connecter aux API cloud
Les nœuds VpsGona Mac mini M4 sont des machines physiques accessibles immédiatement via SSH. Ollama et OpenClaw communiquent via la boucle locale sans saut réseau, ce qui réduit la latence de complétion LLM typique au niveau d'un réseau local.
Sélection de modèles pour 16 Go de mémoire unifiée
| Modèle | Paramètres | Usage VRAM (Q4_K_M) | Vitesse génération (tok/s) | Idéal pour |
|---|---|---|---|---|
| Mistral 7B Instruct | 7B | ~4,5 Go | 55–70 | Conversation générale, assistance au code |
| LLaMA 3 8B Instruct | 8B | ~5,0 Go | 50–65 | Suivi d'instructions, longs contextes |
| Qwen2.5 7B Instruct | 7B | ~4,4 Go | 55–72 | Multilingue, code |
| Phi-3.5 Mini Instruct | 3,8B | ~2,5 Go | 90–120 | Boucles d'appel d'outil faible latence |
| LLaMA 3 13B Instruct | 13B | ~8,5 Go | 28–38 | Raisonnement complexe, haute qualité |
| DeepSeek Coder 6.7B | 6,7B | ~4,2 Go | 55–68 | Génération et analyse de code |
mistral:7b-instruct-q4_K_M ou llama3:8b-instruct-q4_K_M pour les workflows d'agent généraux. Pour les agents avec de nombreux appels d'outil, phi3.5:mini est optimal pour la latence.
Étapes d'installation : configurer Ollama sur Mac mini M4
Étape 1 — Installer Ollama
Connectez-vous au nœud VpsGona via SSH, puis installez Ollama :
curl -fsSL https://ollama.com/install.sh | sh
# Ou avec Homebrew :
brew install ollama
Étape 2 — Démarrer le service Ollama
ollama serve
Ollama écoute par défaut sur http://localhost:11434. Pour un démarrage automatique après redémarrage :
brew services start ollama
Étape 3 — Télécharger un modèle
ollama pull mistral:7b-instruct-q4_K_M
# Test rapide après téléchargement :
ollama run mistral:7b-instruct-q4_K_M "Explique les avantages de la mémoire unifiée du Mac mini M4"
Étape 4 — Installer OpenClaw
pip install openclaw
# Ou dans un environnement de projet :
python -m venv .venv && source .venv/bin/activate
pip install openclaw
Étape 5 — Vérifier la connexion REST API
curl http://localhost:11434/api/tags
Une liste JSON des modèles téléchargés confirme que le service fonctionne correctement.
Configuration de la connexion OpenClaw + Ollama
OpenClaw supporte plusieurs backends LLM. Pour utiliser le serveur Ollama local, définissez le fournisseur sur ollama et précisez l'URL de base :
# openclaw_config.py
from openclaw import Agent, OllamaProvider
provider = OllamaProvider(
base_url="http://localhost:11434",
model="mistral:7b-instruct-q4_K_M",
temperature=0.3,
context_length=8192,
)
agent = Agent(
name="agent-local",
provider=provider,
tools=["web_search", "file_read", "code_exec"],
system_prompt="Tu es un agent IA expert en environnements de développement Mac.",
)
OpenClaw définit les appels d'outil via des schémas JSON et analyse les réponses LLM pour exécuter les outils séquentiellement. Avec le backend Ollama local, les complétions sont traitées dans le même processus sans aller-retour API, réduisant considérablement la latence des boucles d'appel d'outil.
Benchmarks : Mac mini M4 16 Go vs API cloud
| Métrique | Mac mini M4 Ollama (Mistral 7B Q4) |
API cloud (tier standard) |
Remarque |
|---|---|---|---|
| Latence 1er token (TTFT) | ~200–400ms | ~400–1200ms | Local : pas d'aller-retour réseau |
| Vitesse de génération | 55–70 tok/s | 30–80 tok/s (variable) | Le cloud varie selon la charge serveur |
| Coût 1 000 requêtes (estimé) | $0 (inclus dans la location) | $0,5–$2,5 (selon modèle) | Local avantageux à fort volume |
| Traitement contexte 8K tokens | ~120s (premier batch) | ~30–60s | Les grands modèles cloud avantageux |
| Confidentialité | 100% local | Transmission externe | Local idéal pour données sensibles |
| Workers agents simultanés | 1–2 (dans 16 Go) | Illimité (facturation) | Cloud avantageux pour haute concurrence |
Résolution des problèmes courants
Swap excessif / avertissements OOM
Si Activity Monitor signale une forte pression mémoire, passez à un niveau de quantification plus bas (q3_K_M ou q2_K) ou utilisez un modèle moins volumineux. Limitez le contexte KV avec :
OLLAMA_NUM_CTX=4096 ollama serve
Premier chargement du modèle lent
Ollama charge le modèle en mémoire GPU à la première requête. Pour un modèle 7B Q4 sur M4, cela prend environ 8–15 secondes. Configurez keep_alive pour maintenir le modèle en mémoire :
OLLAMA_KEEP_ALIVE=60m ollama serve
Timeout appels d'outil OpenClaw
Si le timeout par défaut est trop court pour les longues générations, augmentez-le dans la configuration OpenClaw :
provider = OllamaProvider(
base_url="http://localhost:11434",
model="mistral:7b-instruct-q4_K_M",
request_timeout=120, # en secondes
)
Erreur d'accès au port (tunneling SSH)
Pour accéder au serveur Ollama d'un nœud VpsGona depuis une machine distante, utilisez le forward de port local SSH :
ssh -L 11434:localhost:11434 user@vpsgona-node-ip
Pourquoi le Mac mini M4 excelle pour les agents LLM locaux
L'architecture mémoire unifiée du Mac mini M4 permet au CPU, au GPU et au Neural Engine de partager le même pool mémoire. Le backend Metal d'Ollama effectue l'inférence accélérée GPU sans copie de données en mémoire — contrairement aux systèmes x86 qui transfèrent les données vers la mémoire GPU via PCIe. Ainsi, 16 Go M4 peuvent surpasser en pratique des configurations x86 avec GPU discret dans la même gamme de prix pour l'inférence LLM.
Les nœuds VpsGona Mac mini M4 se louent à la journée sans engagement mensuel, ce qui est économique pour configurer un environnement LLM local pendant un sprint de projet et le libérer à la fin. Consultez la page tarifaire VpsGona pour les options de nœuds par région, ou la documentation d'aide pour le guide de connexion SSH initiale.
Lancez votre agent LLM local sur Mac mini M4
Louez un nœud VpsGona Mac mini M4 à la journée et configurez Ollama + OpenClaw sans frais de token API cloud.