Retour au blog
Enjeux & Rentabilité15 mai 20268 min de lecturePar l'équipe Mission IA

Tokens LLM : ce que coûtent vraiment les modèles d'IA dans vos agents

Input, output, cache, architecture hybride : on décortique la structure réelle des coûts LLM et pourquoi une conception intelligente des workflows garantit des agents rapides, robustes et économiquement prévisibles.

Partager
Coût des tokens LLM dans les agents IA

Quand vous demandez à un agent IA de répondre à un email, qualifier un lead ou planifier un rendez-vous, quelque chose se passe en coulisses : un modèle de langage (LLM) reçoit du texte, le traite et en génère un autre. Cette opération a un coût — variable, mesuré en tokens, structuré d'une façon que beaucoup de décideurs ne comprennent pas encore. Et c'est souvent là que naissent les mauvaises estimations budgétaires.

Dans cet article, on démystifie cette structure de coûts : comment les tokens se comptent, pourquoi l'asymétrie input/output change tout, quels modèles choisir selon les tâches, et surtout comment on conçoit les workflows de nos agents pour minimiser les appels LLM — sans rogner sur la qualité.

1. Qu'est-ce qu'un token, concrètement ?

Un token est l'unité atomique utilisée par les LLMs pour traiter du texte. Ce n'est ni un mot ni une lettre : c'est un fragment de texte représentant en moyenne 3/4 d'un mot en anglais, et un peu moins en français. Les langues avec des accents, des mots composés et des terminaisons variables consomment légèrement plus de tokens. Quelques repères utiles :

  • « Bonjour, comment puis-je vous aider ? » → environ 12 tokens
  • Un email standard de 5 lignes → 150 à 300 tokens
  • Un prompt système complet (instructions de l'agent) → 300 à 800 tokens
  • Un contrat d'une page → environ 700 à 1 000 tokens

Chaque appel à un LLM consomme deux types de tokens : les tokens d'entrée (input) et les tokens de sortie (output). C'est cette distinction qui gouverne entièrement la structure des coûts — et qui doit guider la conception de chaque étape d'un workflow.

2. Input vs Output : l'asymétrie qui change tout

Chez tous les fournisseurs de LLMs, les tokens de sortie coûtent entre 3 et 10 fois plus cher que les tokens d'entrée. La raison est technique : générer du texte token par token est computationnellement bien plus intensif que de le lire. Cette asymétrie a des conséquences directes et structurantes sur la conception des agents.

Ce que comprend un token d'input

  • Le prompt système (instructions permanentes définissant le comportement de l'agent)
  • Le message soumis par l'utilisateur ou le document traité
  • L'historique de la conversation (les échanges précédents)
  • Le contexte injecté dynamiquement : données CRM, disponibilités agenda, catalogue produits…
Coût : $X / 1M tokens

Ce que comprend un token d'output

  • Uniquement la réponse générée par le modèle
Coût : $3X à $10X / 1M tokens

Conséquence pratique : un agent qui confirme un rendez-vous avec un message de deux lignes consomme 20 fois moins de tokens de sortie qu'un agent qui rédige une proposition commerciale complète. La longueur et la complexité des réponses générées ont un impact direct et immédiat sur le coût. C'est pourquoi la conception des instructions et des formats de sortie fait partie intégrante de l'ingénierie d'un agent IA performant.

3. Comparaison des principaux LLMs du marché

En 2026, le marché des LLMs est extrêmement fragmenté — et les écarts de prix sont considérables. Entre le modèle le plus économique et le plus performant, le ratio est de 1 à 250 sur les tokens de sortie. Choisir le bon modèle pour chaque tâche est une décision économique majeure. Voici une comparaison des principaux modèles disponibles :

ModèleInput / 1MOutput / 1M

Gemini 2.0 Flash

Google

$0.15$0.60

Mistral Small 3

Mistral AI

$0.10$0.30

GPT-4o mini

OpenAI

$0.15$0.60

Claude Haiku 4.5

Anthropic

$1.00$5.00

Gemini 2.5 Pro

Google

$1.25$10.00

GPT-4o

OpenAI

$2.50$10.00

Claude Sonnet 4.5

Anthropic

$3.00$15.00

Claude Opus 4.5

Anthropic

$5.00$25.00

Prix indicatifs en USD — ils évoluent régulièrement à la baisse avec la concurrence. Pour les structures européennes, Mistral AI permet une conformité renforcée avec les exigences RGPD et de souveraineté des données.

4. Le coût réel dans un agent IA : exemple chiffré

Prenons un cas concret : un agent de traitement d'emails entrants pour une PME, gérant 500 emails par mois. Pour chaque email traité, voici une décomposition typique :

Input

Prompt système (instructions de l'agent)~400 tokens
Email entrant (contenu + métadonnées)~200 tokens
Historique conversation~200 tokens
Total input~800 tokens

Output

Réponse générée par l'agent~300 tokens

Ce qui donne, selon le modèle choisi :

ModèleCoût / emailMensuel (500 emails)
Mistral Small 3~$0.00017~$0.09
Gemini 2.0 Flash~$0.00030~$0.15
GPT-4o mini~$0.00030~$0.15
Claude Haiku 4.5optimal~$0.00230~$1.15
GPT-4o~$0.00500~$2.50
Claude Sonnet 4.5~$0.00690~$3.45

Ces chiffres sont délibérément parlants : pour la plupart des usages courants, le coût LLM brut est quasi-marginal — souvent moins cher qu'un SMS. L'enjeu n'est donc pas le coût par token en lui-même, mais le nombre total d'appels au LLM dans votre workflow. Et c'est précisément là qu'intervient l'optimisation.

5. Architecture hybride : ce qui passe par le LLM, ce qui n'y passe pas

Dans tout agent IA bien conçu, une large part des opérations ne sollicite jamais un modèle de langage. Ce n'est pas une question d'économie — c'est une question d'architecture. Les étapes déterministes (routage, appels API, templates) sont plus rapides, plus fiables et plus prévisibles qu'un appel LLM. Les réserver au LLM uniquement lorsque la compréhension du langage naturel est vraiment nécessaire, c'est ce qui distingue un agent robuste d'un workflow fragile. Voici un exemple concret avec un agent de traitement d'emails :

Étape du workflowLLM ?Méthode
Réception & parsing de l'email
Extraction objet, expéditeur, date — via script
Détection du type de demande
Routage par règles : mots-clés, regex, conditions if/else
Consultation agenda / CRM / stock
Appel API direct — zéro token consommé
Réponse standard ou confirmation
Template prédéfini — zéro appel LLM
Rédaction d'une réponse complexe
Seule étape nécessitant un LLM
Formatage & envoi
Mise en forme HTML, envoi SMTP — via script

Cette architecture hybride repose sur cinq principes que nous appliquons à chaque déploiement :

1. Routage et conditions

Avant d'appeler un LLM, de nombreux cas peuvent être filtrés via des conditions simples : un message hors scope, un accusé de réception automatique, un doublon. Ces décisions s'exécutent en quelques millisecondes — sans latence réseau, sans risque d'hallucination.

2. Templates de réponses prédéfinies

Pour les confirmations standards, les accusés de réception ou les messages d'état, des templates suffisent largement. Le résultat est instantané, identique à chaque fois, et n'expose aucune donnée à un modèle externe.

3. Appels API directs

Vérifier une disponibilité agenda, récupérer un profil CRM, consulter le stock d'un produit : ces opérations se font via des appels API directs, sans jamais solliciter un modèle de langage. Données en temps réel, sans intermédiaire.

4. Cache des réponses fréquentes

Les questions récurrentes (horaires, tarifs, adresse, conditions générales) voient leur réponse mise en cache après le premier appel LLM. Les requêtes suivantes sont traitées instantanément — et de façon parfaitement cohérente.

5. Pré et post-traitement des données

L'extraction d'informations structurées (dates, montants, numéros) se fait par script en amont. La mise en forme de la réponse (markdown → HTML) se fait en aval. Ces étapes réduisent la charge cognitive imposée au modèle — et améliorent la qualité des sorties.

Ce que ça change en pratique

AgentSans LLMAvec LLMTraitement déterministe
Agent vocal de prise de RDV (cabinet médical)62%38%Réponse instantanée sur 62 % des interactions
Agent de traitement d'emails B2B55%45%Traitement immédiat sur 55 % des cas

6. Ce que ça change concrètement pour vous

Un agent bien architecturé n'appelle le LLM qu'au moment où il en a réellement besoin — et seulement pour ça. Le reste est traité de façon déterministe : plus vite, sans aléas, sans latence réseau vers un modèle distant. Cette approche rend vos agents à la fois plus rapides, plus robustes, et économiquement prévisibles.

Pour vous donner un ordre de grandeur sur un déploiement type Mission IA (500 interactions/mois) :

Coût LLM mensuel estimé (usage standard)1 à 8 CHF selon la complexité
Abonnement Mission IA (tout inclus)à partir de 159 CHF/mois
Hébergement, maintenance, mises à jourInclus dans l'abonnement

Vous ne payez pas au token : vous payez pour un service opérationnel, stable et entièrement maîtrisé. La consommation de tokens est optimisée par conception — et pour les déploiements à très fort volume, nous l'analysons ensemble en amont pour que le budget reste maîtrisé. La vraie question, finalement, n'est pas ce que ça coûte en tokens. C'est ce que vous perdez chaque semaine en continuant à traiter ces tâches manuellement.

En résumé

  • Les LLMs facturent en tokens : ~3/4 de mot en anglais, un peu moins en français
  • Les tokens de sortie (output) coûtent 3 à 10× plus cher que les tokens d'entrée (input)
  • L'écart entre le modèle le moins cher et le plus cher est de 1 à 250 sur l'output
  • Pour 500 emails/mois, le coût LLM brut varie de ~0,09 $ (Mistral Small 3) à ~3,45 $ (Claude Sonnet)
  • 40 à 65 % d'un workflow d'agent peut être traité sans appel LLM : routage, templates, API, cache
  • Chez Mission IA, les coûts LLM sont optimisés par architecture — intégrés dans l'abonnement sur la base d'un usage standard

Vous voulez savoir ce qu'un agent IA coûterait dans votre contexte ?

On fait l'estimation ensemble : architecture, modèle, coût réel — en 30 minutes, sans engagement.

Demander mon audit gratuit