Tutoriel : Gemma 4 en Local avec Ollama + n8n — Votre Premier Agent IA 100% Gratuit et Privé
Vous payez des API OpenAI pour vos automatisations n8n. Chaque workflow coûte. Et vos données partent vers des serveurs externes. Avec Google Gemma 4 (Apache 2.0) + Ollama, vous faites tourner un LLM frontier-level gratuitement en local et vous le branchez à n8n en 20 minutes.

William Aklamavo
6 avril 2026
Avant de commencer : pourquoi ce setup change les règles
Le 2 avril 2026, Google a lancé Gemma 4 sous licence Apache 2.0. Ce n'est pas un modèle de démonstration ou un modèle bridé pour attirer les développeurs. C'est un modèle de niveau frontier — comparable à Claude Haiku et GPT-4o mini — disponible en 4 tailles (2B, 8B, 16B, 31B) et utilisable gratuitement, localement, sans aucune donnée envoyée à l'extérieur.
Combiné à Ollama (le runtime de modèles locaux qui a explosé en popularité en 2025) et branché à n8n, ce setup vous donne :
- Zéro coût d'inférence — aucune API payante
- Confidentialité absolue — vos données ne quittent jamais votre machine
- Débit illimité — pas de rate limits, pas de quotas
- Tool use natif — Gemma 4 supporte nativement les appels d'outils (function calling) pour vos agents n8n
Voici le tutoriel pas à pas. Durée : 20 minutes si vous n'avez jamais installé Ollama.
Prérequis
Hardware minimum :
- Pour Gemma 4 2B : 8 GB de RAM (tourne même sur un ordinateur portable de 2022)
- Pour Gemma 4 8B : 16 GB de RAM ou une GPU dédiée (NVIDIA 8 GB VRAM)
- Pour Gemma 4 16B et 31B : GPU dédiée recommandée (16-24 GB VRAM)
Software :
- macOS, Linux ou Windows 10/11
- n8n installé localement ou en cloud (n8n.cloud, VPS avec Docker)
- 5 GB d'espace disque libre pour le modèle 2B (15 GB pour le 8B)
Si vous n'avez pas encore n8n, commencez par notre tutoriel pour créer votre premier agent IA avec n8n — il vous guide de l'installation à votre premier workflow.
Étape 1 : Installer Ollama
Ollama est un runtime qui simplifie l'exécution de LLMs locaux. Il gère le téléchargement, la quantification et l'API locale automatiquement.
Sur macOS / Linux :
curl -fsSL https://ollama.com/install.sh | sh
Sur Windows : Téléchargez l'installeur depuis ollama.com et exécutez-le. Ollama s'installe comme un service Windows et démarre automatiquement.
Vérifier l'installation :
ollama --version
# → ollama version 0.3.x ou supérieur
Étape 2 : Télécharger Gemma 4
# Version 2B — recommandée pour les machines sans GPU
ollama pull gemma4:2b
# Version 8B — meilleure qualité, nécessite 16 GB RAM ou GPU
ollama pull gemma4:8b
Le téléchargement prend 5 à 15 minutes selon votre connexion (2-5 GB selon la version).
Étape 3 : Tester Gemma 4 en local
Avant de l'intégrer dans n8n, vérifiez que le modèle fonctionne correctement :
ollama run gemma4:2b
Vous entrez dans un chat interactif. Tapez quelques questions pour tester la qualité des réponses. Pour quitter : /bye
Test de tool use (function calling) :
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:2b",
"messages": [{ "role": "user", "content": "Quel temps fait-il à Paris ?" }],
"tools": [{
"type": "function",
"function": {
"name": "get_weather",
"description": "Obtient la météo pour une ville",
"parameters": {
"type": "object",
"properties": { "city": { "type": "string" } },
"required": ["city"]
}
}
}]
}'
Gemma 4 doit retourner un appel d'outil structuré — preuve que le function calling fonctionne.
Étape 4 : Brancher Gemma 4 à n8n
Ollama expose une API REST compatible OpenAI sur http://localhost:11434. C'est ce qu'on va utiliser dans n8n.
Si n8n tourne en local (même machine qu'Ollama) :
Dans votre workflow n8n, ajoutez un nœud HTTP Request avec la configuration suivante :
- Method : POST
- URL :
http://localhost:11434/api/chat - Body (JSON) :
{
"model": "gemma4:2b",
"messages": [
{ "role": "system", "content": "Tu es un assistant utile et précis." },
{ "role": "user", "content": "{{ $json.message }}" }
],
"stream": false
}
Si n8n tourne dans le cloud ou sur un VPS :
Vous devez exposer Ollama sur le réseau. Sur le serveur hébergeant Ollama :
# Lancer Ollama en exposant sur toutes les interfaces
OLLAMA_HOST=0.0.0.0:11434 ollama serve
Puis dans n8n, remplacez localhost par l'IP de votre serveur Ollama.
Alternative — utiliser le nœud OpenAI de n8n avec l'API Ollama :
n8n intègre un nœud "Chat Model (OpenAI)" qui peut pointer vers n'importe quelle API compatible OpenAI. Configurez une credential "OpenAI API" avec :
- Base URL :
http://localhost:11434/v1 - API Key :
ollama(n'importe quelle valeur, Ollama n'en requiert pas) - Model :
gemma4:2b
Étape 5 : Premier workflow agent avec Gemma 4
Voici un exemple concret : un agent qui résume les emails entrants et les classe par priorité.
Structure du workflow :
- Trigger : Gmail / IMAP — déclenché à chaque nouvel email
- HTTP Request → Ollama/Gemma 4 avec le prompt :
"Analyse cet email et retourne un JSON avec: {sujet: string, priorité: 'haute'|'moyenne'|'basse', résumé: string (max 2 phrases), action_requise: boolean}. Email : {{ $json.body }}" - JSON Parse → Extrait les champs du JSON retourné
- Switch → Branche sur la priorité
- Slack / Email → Notification pour les emails haute priorité uniquement
Ce workflow tourne en local, classe vos emails sans qu'une seule donnée parte vers OpenAI, et coûte 0€/mois.
Pour aller plus loin avec les agents n8n, consultez notre guide sur le déploiement d'agents IA MCP en 20 minutes.
Performances et limites à connaître
Ce que Gemma 4 2B fait bien :
- Classification, résumé, extraction d'informations structurées
- Réponses en 20+ langues (support 140 langues)
- Raison sur des contextes jusqu'à 250 000 tokens
Ce que Gemma 4 2B fait moins bien :
- Raisonnement mathématique complexe (préférez le 8B ou 16B)
- Code complexe multi-fichiers (le 8B est nettement meilleur)
- Vitesse : ~15-30 tokens/seconde sur CPU, ~80-150 tokens/seconde sur GPU
Pour la production : Gemma 4 2B est parfait pour le prototypage et les cas d'usage simples à moyens. Pour des agents en production avec des volumes élevés ou des cas complexes, nous recommandons soit le modèle 8B sur GPU, soit une architecture hybride locale + cloud que nous concevons régulièrement chez BOVO Digital.
De la démo à la production
Ce setup est idéal pour prototyper rapidement sans budget. Quand vous avez validé votre cas d'usage et que vous voulez passer à l'échelle — avec de la haute disponibilité, de la mémoire persistante, du RAG sur vos documents, et un monitoring —, c'est là qu'une architecture production entre en jeu.
Lisez notre article sur n8n vs Make pour comprendre comment choisir votre stack d'automatisation selon votre volume et votre contexte.
Vous avez validé votre cas d'usage en local et vous voulez passer en production ?
Découvrez nos services d'automatisation IA et agents intelligents — et le profil de William Aklamavo qui livre ces architectures en production.
