Installation et configuration de Claude Code pour Ollama, llama.cpp, tarification

Le codage agentique, désormais avec des backends de modèles locaux.

Sommaire

Claude Code n’est pas un simple autocomplétion avec un meilleur marketing. C’est un outil de codage agentique : il lit votre base de code, modifie des fichiers, exécute des commandes et s’intègre à vos outils de développement.

Cette différence est importante car l’unité de travail n’est plus « une ligne de code », mais devient « une tâche avec un état final ».

Anthropic définit clairement cette distinction : l’achèvement de code suggère la ligne suivante au fur et à mesure que vous tapez, tandis que Claude Code opère au niveau du projet, planifie sur plusieurs fichiers, exécute des modifications, lance des tests et itère sur les échecs. En pratique, cela en fait quelque chose de proche d’un jeune ingénieur natif de terminal capable d’accomplir rapidement des tâches administratives, mais nécessitant toujours une relecture.

Cette tension entre vitesse et supervision est une grande partie de ce que les gens regroupent sous le terme de « vibe coding » ; Qu’est-ce que le Vibe Coding ? décortique le terme, ses origines et ce à quoi ressemblent l’efficacité et les risques en pratique.

laptop-homeresver-claude-code-coffee-books

Un détail facile à passer sous silence lors d’une lecture rapide de la documentation : le CLI Terminal (et l’interface VS Code) peut être configuré pour utiliser des fournisseurs tiers. C’est là qu’interviennent Ollama et llama.cpp.

Une fois que Claude Code est pointé vers un point de terminaison HTTP local, les compromis liés au runtime, au matériel et à l’hébergement se situent en dehors du client ; cette comparaison de l’hébergement de LLM en 2026 aligne Ollama, les stacks d’inférence dédiées et les options cloud en un seul endroit.

Pour voir comment Claude Code s’inscrit par rapport aux autres workflows de codage et de livraison assistés par IA, ce guide sur les outils de développement IA rassemble les assistants de style Copilot, l’automatisation et les modèles d’éditeur en un seul endroit.

Pour un examen outil par outil des assistants de codage dans la même catégorie, Comparaison des assistants de codage IA parcourt Cursor, Copilot, Cline et le reste à un niveau plus élevé que ce guide d’installation.

Installation de Claude Code et démarrage rapide

Options d’installation et ce qu’elles impliquent

Il existe plusieurs chemins d’installation, et ils ne sont pas égaux :

Les scripts d’installation natifs sont l’option « toujours à jour » car ils se mettent à jour automatiquement.
Homebrew et WinGet sont l’option « changement contrôlé » car vous mettez à jour explicitement.

Commandes d’installation (démarrage rapide officiel) :

# macOS, Linux, WSL
curl -fsSL https://claude.ai/install.sh | bash

# Windows PowerShell
irm https://claude.ai/install.ps1 | iex

:: Windows CMD
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

Puis lancez une session interactive depuis l’intérieur d’un dossier de projet :

cd /path/to/your/project
claude

Connexion et types de comptes

Claude Code nécessite un compte pour fonctionner en mode première partie. Le flux de démarrage rapide prend en charge les connexions via un abonnement Claude (Pro, Max, Team, Enterprise), un compte Console (crédits API) ou des fournisseurs cloud pris en charge. Une note opérationnelle utile : lors de la première connexion à la Console, un espace de travail « Claude Code » est créé pour le suivi centralisé des coûts.

Configuration de Claude Code : settings.json et variables d’environnement

Si Claude Code semble magique quand il fonctionne, il semble souvent « mystérieux » quand il ne fonctionne pas. Le remède est de comprendre sa superposition de configuration et les quelques variables d’environnement qui comptent vraiment.

Fichiers de configuration et priorité

Les paramètres de Claude Code sont hiérarchiques, avec trois fichiers accessibles aux développeurs :

Portée utilisateur, s’applique partout : ~/.claude/settings.json
Portée projet, partagée dans un dépôt : .claude/settings.json
Portée locale, remplacements par machine : .claude/settings.local.json (ignoré par git)

La priorité est (de la plus élevée à la plus basse) : politique gérée, drapeaux CLI, local, projet, utilisateur. Cet ordre explique plusieurs moments de « pourquoi ma configuration est ignorée ».

Vous pouvez gérer les paramètres de manière interactive via la commande /config, qui ouvre une interface de paramètres à l’intérieur du REPL.

Variables d’environnement qui contrôlent le routage du fournisseur

Claude Code peut être orienté à l’exécution par des variables d’environnement. Deux particularités de comportement méritent d’être traitées comme des contraintes de conception :

Si ANTHROPIC_API_KEY est défini, Claude Code utilisera la clé au lieu d’un abonnement Claude même lorsque vous êtes connecté. En mode impression (-p), la clé est toujours utilisée lorsqu’elle est présente.
Si ANTHROPIC_BASE_URL pointe vers un hôte non première partie (un proxy, un gateway ou un serveur local), certaines fonctionnalités sont intentionnellement conservatrices. Par exemple, la recherche d’outils MCP est désactivée par défaut sauf si vous la réactivez explicitement.

Pour la limite d’abonnement spécifique désormais appliquée dans les stacks d’agents tiers, cette mise à jour de la politique Claude pour les workflows OpenClaw explique pourquoi l’utilisation basée sur l’API est requise.

Un modèle minimal « utiliser un gateway » ressemble à ceci :

export ANTHROPIC_BASE_URL=https://your-gateway.example
export ANTHROPIC_API_KEY=sk-your-key

Note sur le gateway : Claude Code s’attend à certains formats d’API. Pour le format Anthropic Messages, le gateway doit exposer /v1/messages et /v1/messages/count_tokens et doit transférer les en-têtes anthropic-beta et anthropic-version. Si un gateway rejette ces en-têtes, il existe un paramètre dédié pour supprimer les versions bêta expérimentales.

Sélection du modèle dans Claude Code lorsque vous n’utilisez pas directement Anthropic

Claude Code a un concept d’alias (opus, sonnet, haiku) et prend également en charge l’épinglage d’ID de modèle spécifiques. Il existe également une liste blanche qui peut restreindre ce que les utilisateurs peuvent sélectionner dans le sélecteur de modèle, même lorsqu’ils sont acheminés via des fournisseurs tiers.

Un modèle pragmatique consiste à définir un modèle initial et à restreindre le sélecteur, puis à épingler ce à quoi « default » se résout via env :

{
  "model": "claude-sonnet-4-5",
  "availableModels": ["claude-sonnet-4-5", "haiku"],
  "env": {
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-5"
  }
}

Exécution de LLM auto-hébergés via Ollama

Ollama est actuellement la façon la plus simple de faire fonctionner Claude Code sur des modèles non-Anthropic, car il expose une API compatible Anthropic pour que Claude Code puisse communiquer.

Configuration rapide avec ollama launch

Si vous avez Ollama installé et en cours d’exécution, le chemin rapide est :

ollama launch claude

Ou spécifiez un modèle au lancement :

ollama launch claude --model glm-4.7-flash

Configuration manuelle avec des variables d’environnement explicites

L’intégration Ollama documente un câblage manuel simple où Claude Code communique avec Ollama via le point de terminaison API compatible Anthropic :

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

claude --model qwen3.5

Ce modèle est d’opinion d’une manière utile : il traite le « routage du fournisseur » comme une préoccupation environnementale, pas quelque chose que vous cliquez dans une GUI.

Vérification de la réalité de la fenêtre de contexte

Le codage agentique est gourmand en contexte. Ollama le dit franchement : Claude Code nécessite une grande fenêtre de contexte et recommande au moins 64k tokens. Si votre modèle local plafonne à 8k ou 16k, Claude Code fonctionnera toujours, mais la promesse « au niveau du projet » deviendra fragile.

Pour un comportement pratique de modèle local dans une configuration d’agent terminal similaire (Ollama et llama.cpp, tâches de codage et notes de panne franche), Meilleurs LLM pour OpenCode - Testés Localement est un contrôle croisé utile lorsque vous faites une liste courte de tags GGUF ou Ollama pour Claude Code.

Exécution de LLM auto-hébergés via llama.cpp

llama.cpp est attrayant pour la raison opposée : il ne cherche pas à être une plateforme. C’est un serveur rapide et léger qui peut exposer à la fois des routes compatibles OpenAI et une route compatible avec l’API Messages d’Anthropic.

Pour les chemins d’installation, llama-cli, et le comportement de llama-server au-delà des extraits ci-dessous, Démarrage rapide de llama.cpp avec CLI et Serveur est la référence de bout en bout.

Ce qu’il faut exécuter du côté serveur

Le serveur HTTP llama.cpp (llama-server) prend en charge une API Messages compatible Anthropic sur POST /v1/messages, avec streaming via SSE. Il offre également count_tokens sur /v1/messages/count_tokens.

Deux détails importent pour Claude Code :

Le serveur ne fait pas explicitement de fortes affirmations de compatibilité complète avec la spécification API Anthropic, mais indique qu’il fonctionne suffisamment bien pour de nombreuses applications.
L’utilisation d’outils nécessite de démarrer llama-server avec le drapeau –jinja. Si vous manquez cela, Claude Code se comportera comme s’il avait soudainement oublié comment être un agent.

Une exécution locale minimale ressemble à :

# Construisez ou téléchargez llama-server, puis exécutez avec un modèle GGUF
./llama-server -m /models/your-model.gguf --jinja --host 127.0.0.1 --port 8080

Si vous voulez une limite d’authentification stricte, llama-server peut être configuré avec une clé API :

./llama-server -m /models/your-model.gguf --jinja --api-key my-local-key --host 127.0.0.1 --port 8080

Pointer Claude Code vers llama-server

Avec le serveur en cours d’exécution, votre côté Claude Code est principalement une substitution d’URL de base :

export ANTHROPIC_BASE_URL=http://127.0.0.1:8080
export ANTHROPIC_API_KEY=my-local-key   # uniquement si vous avez activé --api-key sur llama-server

claude --model your-model-alias

Si vous ne définissez pas de clé API ou de jeton d’authentification, Claude Code peut essayer de revenir à la connexion par abonnement, ce qui est la source de nombreuses plaintes du type « pourquoi cela ouvre-t-il un navigateur ».

Vérifications de santé et premier triage des pannes

llama-server expose un point de terminaison de santé simple qui renvoie « loading model » jusqu’à ce que le modèle soit prêt, et « ok » quand il est utilisable. Lorsque Claude Code semble se bloquer sur la première requête, vérifier /health est un moyen rapide de distinguer un « bug de configuration client » d’un « serveur toujours en chargement ».

Tarifs et modèle de coûts

Les tarifs de Claude Code concernent moins « acheter un CLI » que « quelle voie de facturation soutient les tokens ».

Les plans d’abonnement incluent Claude Code

Anthropic inclut Claude Code dans les niveaux d’abonnement payants Claude. À partir d’avril 2026, les tarifs publiés listent :

Pro à 17 $ par mois avec une remise annuelle (200 $ facturés d’avance), ou 20 $ facturés mensuellement, et il inclut Claude Code.
Plans Max à partir de 100 $ par mois.
Plans Team tarifés par poste, avec un poste standard à 20 $ par poste par mois facturé annuellement (25 $ mensuellement) et un poste premium à 100 $ par poste par mois facturé annuellement (125 $ mensuellement).

Tarification des tokens API

Si vous utilisez Claude Code via la facturation API, les coûts suivent les tarifs par token. Anthropic publie la tarification par million de tokens (MTok) pour des modèles tels que :

Haiku 4.5 à 1 $/MTok entrée et 5 $/MTok sortie.
Sonnet 4.5 à 3 $/MTok entrée et 15 $/MTok sortie.
Opus 4.5 à 5 $/MTok entrée et 25 $/MTok sortie.

Contrôles de coûts dans le CLI

Le mode impression (-p) prend en charge les plafonds budgétaires directs comme –max-budget-usd, ce qui est pratique lorsque vous scriptez des tâches et souhaitez des dépenses prévisibles.

Dans les sessions interactives, /cost affiche les statistiques d’utilisation des tokens.

Les backends locaux changent la facture, pas la physique

Acheminer Claude Code vers Ollama ou llama.cpp peut supprimer les factures API par token, mais cela ne rend pas le travail gratuit. Vous échangez des coûts cloud contre du calcul local, de la mémoire et « quelqu’un possède la disponibilité ». Pour certaines équipes, cet échange est tout le point.

Workflow typique : du plan au PR

Mon biais est que Claude Code est le plus fort lorsque vous le traitez comme un moteur de workflow, pas comme un chatbot. Les outils suggèrent cela.

Commencez par le modèle de permissions, pas par le prompt

Claude Code est verrouillé par les permissions par conception. La documentation décrit un modèle échelonné : les opérations en lecture seule telles que les lectures de fichiers et grep sont autorisées, tandis que les commandes bash et les modifications de fichiers nécessitent une approbation.

Les modes de permission existent pour gérer la friction. Dans le CLI, vous pouvez faire défiler les modes avec Shift+Tab (default -> acceptEdits -> plan). Le mode Plan lit et propose des changements mais n’édite pas. Le mode acceptEdits permet à Claude Code de créer et d’éditer des fichiers dans votre répertoire de travail sans demander, tout en demandant toujours pour les commandes avec des effets secondaires en dehors de sa liste sécurisée.

Le mode Auto est une option plus récente qui réduit les prompts en déléguant les approbations à un classificateur, positionné comme un chemin du milieu plus sûr entre les prompts constants et la désactivation complète des prompts. Il nécessite une version minimale de Claude Code et des exigences spécifiques de plan et de modèle.

Utilisez les commandes intégrées pour garder les sessions honnêtes

Quelques commandes transforment Claude Code de « assistant » en « outillage » :

/init génère un guide de projet CLAUDE.md, qui est une méthode légère pour alimenter un contexte cohérent. Pour les playbooks réutilisables et les workflows reproductibles qui se situent au-dessus de CLAUDE.md, Compétences Claude pour les développeurs couvre la mise en page SKILL.md, la compatibilité IDE, le réglage des déclencheurs et les tests.
/diff donne une vue interactive des changements, y compris les diffs par tour.
/rewind vous permet de revenir en arrière dans la conversation et/ou le code à un point précédent, en utilisant des points de contrôle.
/debug active la journalisation de débogage en cours de session.
/doctor diagnostique et vérifie votre installation et vos paramètres.

Ce ne sont pas des gadgets ; ce sont les garde-fous sur lesquels vous vous appuyez lorsque l’agent édite plus que vous ne l’attendiez.

Quand passer en mode non interactif

Pour les tâches en un seul tir (expliquer, résumer, générer un plan de patch), le mode impression est un bon choix :

claude -p "Résumez l'architecture du dépôt et listez les modules les plus risqués"

Il se termine après la réponse, ce qui fonctionne bien dans les scripts et l’IC.

Liste de contrôle de dépannage

La plupart des problèmes de Claude Code sont des problèmes de configuration déguisés. Voici une liste de contrôle qui associe les symptômes courants au mécanisme sous-jacent.

Claude Code continue de demander de se connecter lors de l’utilisation d’un serveur local

Cela signifie généralement que Claude Code essaie toujours d’utiliser l’authentification d’abonnement première partie. Assurez-vous de définir un mode d’authentification explicite pour le proxy :

Définissez ANTHROPIC_API_KEY pour les gateways qui s’attendent X-Api-Key.
Ou définissez ANTHROPIC_AUTH_TOKEN pour les gateways qui utilisent Authorization Bearer.

Rappelez-vous que ANTHROPIC_API_KEY remplace l’utilisation de l’abonnement même si vous êtes connecté, et en mode interactif, vous devrez peut-être approuver ce remplacement une fois.

Le gateway renvoie des erreurs sur les en-têtes anthropic-beta

Certains gateways rejettent les en-têtes inconnus ou les champs bêta. Il existe une variable d’environnement conçue pour ce mode de défaillance exact :

export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1

La documentation du gateway LLM note également que vous pourriez avoir besoin de cela lors de l’utilisation du format Anthropic Messages avec Bedrock ou Vertex.

L’appel d’outils ne fonctionne pas sur llama.cpp

Vérifiez les drapeaux du serveur. llama-server documente que l’utilisation d’outils nécessite le drapeau –jinja. Sans lui, le serveur peut répondre, mais la boucle d’agent se dégradera.

Les prompts de permissions interrompent chaque commande

Cela peut être normal, selon le mode et les règles de permission. Les options incluent :

Passer à acceptEdits temporairement (les éditions de fichiers s’écoulent plus rapidement).
Écrire des règles d’autorisation explicites pour les commandes bash connues comme sûres dans settings.json.
Utiliser /sandbox pour isoler l’outil bash tout en réduisant les prompts.
Évaluer le mode auto si votre plan et votre version le prennent en charge, comme terrain intermédiaire.

Quelque chose semble bizarre et vous avez besoin d’observabilité

Utilisez les intégrés :

/doctor pour valider l’installation et les paramètres.
/debug pour commencer à capturer les journaux à partir de ce point.
Si vous êtes en mode impression, envisagez un budget maximal et un nombre de tours maximal serrés pour garder les expériences bornées.

La position de Claude Code en tant qu’outil protégé première partie d’Anthropic est devenue stratégiquement significative en avril 2026, lorsque Anthropic a bloqué l’accès aux abonnements Claude pour les frameworks d’agent tiers tout en gardant Claude Code sur la facturation par abonnement. La chronologie de l’ascension et de la chute d’OpenClaw couvre cet événement et ce qu’il révèle sur l’approche d’Anthropic concernant les outils première partie par rapport aux outils tiers.