Optimisation des coûts pour les systèmes LLM : où va réellement l’argent

Dépensez les jetons là où ils comptent vraiment.

Sommaire

Les coûts des LLM évoluent de manière linéaire avec l’utilisation. Un système traitant 10 000 requêtes par jour à 0,01 $ par requête coûte 100 $ par jour, soit 365 $ par an. À l’échelle de l’entreprise, cela représente plus de 10 000 $.

L’optimisation des coûts ne consiste pas à faire des compromis sur la qualité. Il s’agit de dépenser les jetons là où ils comptent vraiment.

Chaque jeton que vous gaspillez est un jeton que vous auriez pu utiliser pour obtenir une meilleure réponse.

Stratégies d’optimisation des coûts des LLM

Gestion du budget de jetons

La manière la plus simple de contrôler les coûts est de définir des limites. Par session, par tâche ou par jour.

Stratégie 1 : Budgets par session

Les budgets par session sont simples :

class SessionBudget:
    def __init__(self, budget_tokens: int = 10000):
        self.budget = budget_tokens
        self.used = 0

    def allocate(self, tokens: int) -> bool:
        if self.used + tokens <= self.budget:
            self.used += tokens
            return True
        return False

    def remaining(self) -> int:
        return self.budget - self.used

Stratégie 2 : Budgets par tâche

Les budgets par tâche sont plus utiles. Différentes tâches nécessitent différentes quantités de contexte :

task_budgets:
  classify:
    max_tokens: 100
    model: qwen3-1.7b
  summarize:
    max_tokens: 500
    model: qwen3-8b
  code_review:
    max_tokens: 2000
    model: qwen2.5-coder-7b
  reason:
    max_tokens: 4000
    model: qwen3-32b

Stratégie 3 : Budgets adaptatifs

Les budgets adaptatifs s’ajustent en fonction de ce qui se produit réellement. Si les tâches de classification utilisent constamment 80 jetons, arrêtez d’allouer 100 :

class AdaptiveBudget:
    def __init__(self):
        self.task_history = {}

    def allocate(self, task_type: str) -> int:
        if task_type in self.task_history:
            return int(self.task_history[task_type] * 1.5)
        return 1000

    def record(self, task_type: str, tokens_used: int):
        if task_type not in self.task_history:
            self.task_history[task_type] = tokens_used
        else:
            self.task_history[task_type] = (
                0.9 * self.task_history[task_type] + 0.1 * tokens_used
            )

La moyenne mobile exponentielle (poids de 0,9) signifie que l’utilisation récente est plus importante que l’historique. Ajustez le poids en fonction de la volatilité de vos charges de travail.

API vs inférence locale

L’inférence locale est moins chère à grande échelle. Le point d’équilibre dépend de votre matériel et des tarifs de l’API.

Modèle API ($/M jetons) Coût local/heure Point d’équilibre
GPT-4o 2,50 $ / 10,00 $ N/A
Claude Sonnet 4 3,00 $ / 15,00 $ N/A
Qwen2.5-72B 0,50 $ / 2,00 $ ~0,50 $ ~4 heures/jour
qwen3-32b 0,30 $ / 1,20 $ ~0,20 $ ~2 heures/jour
qwen3-8b 0,10 $ / 0,40 $ ~0,05 $ ~1 heure/jour

Le calcul matériel :

Matériel Investissement initial Électricité mensuelle Point d’équilibre vs API
RTX 3090 (occasion) 600 $ 15 $ ~4 mois
RTX 4090 1 500 $ 20 $ ~6 mois
RTX 5080 1 000 $ 18 $ ~5 mois
DGX Spark 2 000 $ 30 $ ~8 mois

Avec une utilisation modérée — une heure ou plus par jour — l’inférence locale rembourse son coût. À haute utilisation, les économies sont considérables. Le hic, c’est le capital initial. Une RTX 5080 coûte 1 000 $. Une facture d’API, vous pouvez la mettre en pause. Le matériel, non.

Stratégies de repli

Lorsque votre modèle préféré est trop coûteux ou trop lent, passez à quelque chose de moins cher. La clé est de savoir quand la qualité est « suffisante ».

Stratégie 1 : Repli basé sur la qualité

Le repli basé sur la qualité essaie les modèles jusqu’à ce que la sortie atteigne un seuil :

class QualityFallback:
    def __init__(self, quality_threshold: float = 0.8):
        self.threshold = quality_threshold
        self.models = [
            {"model": "claude-sonnet-4", "cost": 0.015},
            {"model": "qwen2.5-72b", "cost": 0.002},
            {"model": "qwen3-32b", "cost": 0.001},
            {"model": "qwen3-8b", "cost": 0.0004},
        ]

    def route(self, prompt: str) -> str:
        for model_config in self.models:
            result = self.call_model(model_config["model"], prompt)
            if self.evaluate_quality(result) >= self.threshold:
                return result
        return self.call_model(self.models[0]["model"], prompt)

Le problème est l’évaluation elle-même. Comment mesurer la qualité sans appeler un autre modèle ? Certains systèmes utilisent un petit classificateur. D’autres utilisent des vérifications heuristiques — longueur, structure, présence de mots-clés. Aucune de ces méthodes n’est parfaite.

Stratégie 2 : Repli basé sur la latence

Le repli basé sur la latence est plus simple. Routez vers le modèle le plus rapide qui respecte votre budget de temps :

class LatencyFallback:
    def __init__(self, max_latency: float = 5.0):
        self.max_latency = max_latency
        self.models = [
            {"model": "qwen3-1.7b", "latency": 0.5},
            {"model": "qwen3-8b", "latency": 2.0},
            {"model": "qwen3-32b", "latency": 10.0},
            {"model": "claude-sonnet-4", "latency": 5.0},
        ]

    def route(self, prompt: str) -> str:
        for model_config in sorted(self.models, key=lambda x: x["latency"]):
            if model_config["latency"] <= self.max_latency:
                return self.call_model(model_config["model"], prompt)
        return self.call_model(self.models[0]["model"], prompt)

Mise en cache

La mise en cache est l’optimisation des coûts la plus sous-estimée. Les invites identiques se produisent plus souvent que vous ne le pensez — requêtes de classification, requêtes de type FAQ, appels d’outils répétés.

Stratégie 1 : Mise en cache des invites

La mise en cache exacte des invites est simple :

import hashlib

class PromptCache:
    def __init__(self, max_size: int = 1000):
        self.cache = {}
        self.max_size = max_size

    def get(self, prompt: str) -> str | None:
        key = hashlib.sha256(prompt.encode()).hexdigest()
        return self.cache.get(key)

    def set(self, prompt: str, response: str):
        key = hashlib.sha256(prompt.encode()).hexdigest()
        if len(self.cache) >= self.max_size:
            self.cache.pop(next(iter(self.cache)))
        self.cache[key] = response

Stratégie 2 : Mise en cache sémantique

La mise en cache sémantique est plus utile. Elle capture les invites qui sont différentes mais ont le même sens :

from sentence_transformers import SentenceTransformer

class SemanticCache:
    def __init__(self, similarity_threshold: float = 0.95):
        self.model = SentenceTransformer('all-MiniLM-L6-v2')
        self.cache = {}
        self.threshold = similarity_threshold

    def get(self, prompt: str) -> str | None:
        prompt_embedding = self.model.encode([prompt])[0]
        for cached_prompt, cached_response in self.cache.items():
            cached_embedding = self.model.encode([cached_prompt])[0]
            similarity = self.cosine_similarity(
                prompt_embedding, cached_embedding
            )
            if similarity >= self.threshold:
                return cached_response
        return None

    def set(self, prompt: str, response: str):
        self.cache[prompt] = response

Le seuil est important. 0,95 est agressif — seules les invites très similaires correspondent. 0,85 est plus indulgent mais risque de retourner des réponses incorrectes. Mesurez votre taux d’échec et ajustez.

La mise en cache des réponses pour les requêtes courantes vaut également le coup. Si les utilisateurs demandent « quel temps fait-il » ou « quelle heure est-il » à plusieurs reprises, mettez en cache le motif, pas seulement l’invite exacte :

class ResponseCache:
    def __init__(self):
        self.common_queries = {
            "what is the weather": "Check weather API",
            "what is the time": "Check system time",
            "who is the president": "Check current president",
        }

    def get(self, query: str) -> str | None:
        query_lower = query.lower()
        for common_query, response in self.common_queries.items():
            if common_query in query_lower:
                return response
        return None

Ce n’est pas sophistiqué, mais ça marche. Les requêtes courantes sont courantes pour une raison.

Quand l’optimisation aide

L’optimisation est importante lorsque vous traitez de grands volumes, exécutez des charges de travail mixtes ou payez des coûts d’API qui s’accumulent.

Elle n’a pas d’importance lorsque vous prototypez, utilisez un seul modèle ou traitez de faibles volumes. La complexité de la gestion des budgets, du repli et de la mise en cache n’en vaut pas la peine pour un système qui fait 100 requêtes par jour.

Faites d’abord fonctionner le flux de base. Ajoutez l’optimisation lorsque la facture arrive.

Compromis

Stratégie Coût Qualité Complexité
Sans optimisation Le plus élevé Constante La plus faible
Gestion du budget de jetons Modéré Variable Moyenne
Modèles de repli Faible à moyen Variable Moyenne
Mise en cache Le plus bas Élevée (pour les hits de cache) Moyenne
Hybride Optimisé Optimisé La plus élevée

Les systèmes de production fonctionnent généralement de manière hybride. Budget par session, repli sur la qualité ou la latence, mise en cache de ce que vous pouvez. La complexité est réelle, mais les économies le sont aussi.

Liens connexes

S'abonner

Recevez de nouveaux articles sur les systèmes, l'infrastructure et l'ingénierie IA.