Quel hardware est nécessaire pour faire tourner Gemma 4 en local ?

Gemma 4 2B nécessite 8 GB de RAM et tourne sur n'importe quel ordinateur portable récent sans GPU. Gemma 4 8B requiert 16 GB de RAM ou une GPU NVIDIA de 8 GB VRAM. Les versions 16B et 31B nécessitent une GPU dédiée de 16-24 GB VRAM pour une performance acceptable.

Gemma 4 supporte-t-il les appels d'outils (function calling) pour les agents n8n ?

Oui. Gemma 4 intègre le tool use natif dès sa version 2B. Dans n8n, vous pouvez utiliser le nœud 'AI Agent' avec les outils intégrés (recherche web, base de données, email) en pointant vers l'API Ollama locale, exactement comme avec l'API OpenAI.

Puis-je utiliser Ollama avec n8n Cloud ou un VPS ?

Oui. Il faut démarrer Ollama avec OLLAMA_HOST=0.0.0.0:11434 pour l'exposer sur le réseau, puis utiliser l'IP du serveur dans la configuration n8n. Pour la sécurité en production, mettez Ollama derrière un reverse proxy avec authentification.

Gemma 4 est-il comparable à GPT-4o pour les cas d'usage d'automatisation ?

Gemma 4 8B est comparable à GPT-4o mini sur les tâches de classification, résumé, extraction d'information et tool use. Pour le raisonnement complexe et le code avancé, GPT-4o et Claude Sonnet restent supérieurs. Pour 80% des cas d'usage d'automatisation (triage, résumé, classification), Gemma 4 8B est suffisant.

La licence Apache 2.0 de Gemma 4 permet-elle une utilisation commerciale ?

Oui, la licence Apache 2.0 autorise l'utilisation commerciale, la modification et la distribution, y compris dans des produits commerciaux et des services SaaS. Vous pouvez intégrer Gemma 4 dans vos agents de production sans royalties ni restrictions commerciales.

Tutoriel : Gemma 4 + Ollama + n8n — Agent IA…

Avant de commencer : pourquoi ce setup change les règles

Le 2 avril 2026, Google a lancé Gemma 4 sous licence Apache 2.0. Ce n'est pas un modèle de démonstration ou un modèle bridé pour attirer les développeurs. C'est un modèle de niveau frontier — comparable à Claude Haiku et GPT-4o mini — disponible en 4 tailles (2B, 8B, 16B, 31B) et utilisable gratuitement, localement, sans aucune donnée envoyée à l'extérieur.

Combiné à Ollama (le runtime de modèles locaux qui a explosé en popularité en 2025) et branché à n8n, ce setup vous donne :

Zéro coût d'inférence — aucune API payante
Confidentialité absolue — vos données ne quittent jamais votre machine
Débit illimité — pas de rate limits, pas de quotas
Tool use natif — Gemma 4 supporte nativement les appels d'outils (function calling) pour vos agents n8n

Voici le tutoriel pas à pas. Durée : 20 minutes si vous n'avez jamais installé Ollama.

Quels prérequis pour faire tourner un agent IA local avec Gemma 4 et n8n ?

Nouveau avec les agents n8n ? Commencez par notre tutoriel sur la création de votre premier agent IA avant de passer aux modèles locaux.

Hardware minimum :

Pour Gemma 4 2B : 8 GB de RAM (tourne même sur un ordinateur portable de 2022)
Pour Gemma 4 8B : 16 GB de RAM ou une GPU dédiée (NVIDIA 8 GB VRAM)
Pour Gemma 4 16B et 31B : GPU dédiée recommandée (16-24 GB VRAM)

Software :

macOS, Linux ou Windows 10/11
n8n installé localement ou en cloud (n8n.cloud, VPS avec Docker)
5 GB d'espace disque libre pour le modèle 2B (15 GB pour le 8B)

Si vous n'avez pas encore n8n, commencez par notre tutoriel pour créer votre premier agent IA avec n8n — il vous guide de l'installation à votre premier workflow.

Étape 1 : Installer Ollama

Ollama est un runtime qui simplifie l'exécution de LLMs locaux. Il gère le téléchargement, la quantification et l'API locale automatiquement.

Sur macOS / Linux :

curl -fsSL https://ollama.com/install.sh | sh

Sur Windows : Téléchargez l'installeur depuis ollama.com et exécutez-le. Ollama s'installe comme un service Windows et démarre automatiquement.

Vérifier l'installation :

ollama --version
# → ollama version 0.3.x ou supérieur

Étape 2 : Télécharger Gemma 4

# Version 2B — recommandée pour les machines sans GPU
ollama pull gemma4:2b

# Version 8B — meilleure qualité, nécessite 16 GB RAM ou GPU
ollama pull gemma4:8b

Le téléchargement prend 5 à 15 minutes selon votre connexion (2-5 GB selon la version).

Étape 3 : Tester Gemma 4 en local

Avant de l'intégrer dans n8n, vérifiez que le modèle fonctionne correctement :

ollama run gemma4:2b

Vous entrez dans un chat interactif. Tapez quelques questions pour tester la qualité des réponses. Pour quitter : /bye

Test de tool use (function calling) :

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4:2b",
  "messages": [{ "role": "user", "content": "Quel temps fait-il à Paris ?" }],
  "tools": [{
    "type": "function",
    "function": {
      "name": "get_weather",
      "description": "Obtient la météo pour une ville",
      "parameters": {
        "type": "object",
        "properties": { "city": { "type": "string" } },
        "required": ["city"]
      }
    }
  }]
}'

Gemma 4 doit retourner un appel d'outil structuré — preuve que le function calling fonctionne.

Étape 4 : Brancher Gemma 4 à n8n

Ollama expose une API REST compatible OpenAI sur http://localhost:11434. C'est ce qu'on va utiliser dans n8n.

Si n8n tourne en local (même machine qu'Ollama) :

Dans votre workflow n8n, ajoutez un nœud HTTP Request avec la configuration suivante :

Method : POST
URL : http://localhost:11434/api/chat
Body (JSON) :

{
  "model": "gemma4:2b",
  "messages": [
    { "role": "system", "content": "Tu es un assistant utile et précis." },
    { "role": "user", "content": "{{ $json.message }}" }
  ],
  "stream": false
}

Si n8n tourne dans le cloud ou sur un VPS :

Vous devez exposer Ollama sur le réseau. Sur le serveur hébergeant Ollama :

# Lancer Ollama en exposant sur toutes les interfaces
OLLAMA_HOST=0.0.0.0:11434 ollama serve

Puis dans n8n, remplacez localhost par l'IP de votre serveur Ollama.

Alternative — utiliser le nœud OpenAI de n8n avec l'API Ollama :

n8n intègre un nœud "Chat Model (OpenAI)" qui peut pointer vers n'importe quelle API compatible OpenAI. Configurez une credential "OpenAI API" avec :

Base URL : http://localhost:11434/v1
API Key : ollama (n'importe quelle valeur, Ollama n'en requiert pas)
Model : gemma4:2b

Étape 5 : Premier workflow agent avec Gemma 4

Voici un exemple concret : un agent qui résume les emails entrants et les classe par priorité.

Structure du workflow :

Trigger : Gmail / IMAP — déclenché à chaque nouvel email
HTTP Request → Ollama/Gemma 4 avec le prompt : "Analyse cet email et retourne un JSON avec: {sujet: string, priorité: 'haute'|'moyenne'|'basse', résumé: string (max 2 phrases), action_requise: boolean}. Email : {{ $json.body }}"
JSON Parse → Extrait les champs du JSON retourné
Switch → Branche sur la priorité
Slack / Email → Notification pour les emails haute priorité uniquement

Ce workflow tourne en local, classe vos emails sans qu'une seule donnée parte vers OpenAI, et coûte 0€/mois.

Pour aller plus loin avec les agents n8n, consultez notre guide sur le déploiement d'agents IA MCP en 20 minutes.

Performances et limites à connaître

Ce que Gemma 4 2B fait bien :

Classification, résumé, extraction d'informations structurées
Réponses en 20+ langues (support 140 langues)
Raison sur des contextes jusqu'à 250 000 tokens

Ce que Gemma 4 2B fait moins bien :

Raisonnement mathématique complexe (préférez le 8B ou 16B)
Code complexe multi-fichiers (le 8B est nettement meilleur)
Vitesse : ~15-30 tokens/seconde sur CPU, ~80-150 tokens/seconde sur GPU

Pour la production : Gemma 4 2B est parfait pour le prototypage et les cas d'usage simples à moyens. Pour des agents en production avec des volumes élevés ou des cas complexes, nous recommandons soit le modèle 8B sur GPU, soit une architecture hybride locale + cloud que nous concevons régulièrement chez BOVO Digital.

De la démo à la production

Ce setup est idéal pour prototyper rapidement sans budget. Quand vous avez validé votre cas d'usage et que vous voulez passer à l'échelle — avec de la haute disponibilité, de la mémoire persistante, du RAG sur vos documents, et un monitoring —, c'est là qu'une architecture production entre en jeu.

Lisez notre article sur n8n vs Make pour comprendre comment choisir votre stack d'automatisation selon votre volume et votre contexte.

Vous avez validé votre cas d'usage en local et vous voulez passer en production ?

On construit la version robuste ensemble →

Découvrez nos services d'automatisation IA et agents intelligents — et le profil de William Aklamavo qui livre ces architectures en production.

Tutoriel : Gemma 4 en Local avec Ollama + n8n — Votre Premier Agent IA 100% Gratuit et Privé

Avant de commencer : pourquoi ce setup change les règles

Quels prérequis pour faire tourner un agent IA local avec Gemma 4 et n8n ?

Étape 1 : Installer Ollama

Étape 2 : Télécharger Gemma 4

Étape 3 : Tester Gemma 4 en local

Étape 4 : Brancher Gemma 4 à n8n

Étape 5 : Premier workflow agent avec Gemma 4

Performances et limites à connaître

De la démo à la production

Étiquettes

William Aklamavo

Passez à l'action avec BOVO Digital

Articles similaires

Tutoriel n8n Agent IA 2026 : Créer un Agent Autonome Pas à Pas

Devis Chatbot IA 2026 : Combien Coûte Vraiment un Chatbot ChatGPT ou Claude ?

Agence Flutter vs React Native en 2026 : le Comparatif Honnête pour Choisir