Quand vous demandez à un agent IA de répondre à un email, qualifier un lead ou planifier un rendez-vous, quelque chose se passe en coulisses : un modèle de langage (LLM) reçoit du texte, le traite et en génère un autre. Cette opération a un coût — variable, mesuré en tokens, structuré d'une façon que beaucoup de décideurs ne comprennent pas encore. Et c'est souvent là que naissent les mauvaises estimations budgétaires.
Dans cet article, on démystifie cette structure de coûts : comment les tokens se comptent, pourquoi l'asymétrie input/output change tout, quels modèles choisir selon les tâches, et surtout comment on conçoit les workflows de nos agents pour minimiser les appels LLM — sans rogner sur la qualité.
1. Qu'est-ce qu'un token, concrètement ?
Un token est l'unité atomique utilisée par les LLMs pour traiter du texte. Ce n'est ni un mot ni une lettre : c'est un fragment de texte représentant en moyenne 3/4 d'un mot en anglais, et un peu moins en français. Les langues avec des accents, des mots composés et des terminaisons variables consomment légèrement plus de tokens. Quelques repères utiles :
- « Bonjour, comment puis-je vous aider ? » → environ 12 tokens
- Un email standard de 5 lignes → 150 à 300 tokens
- Un prompt système complet (instructions de l'agent) → 300 à 800 tokens
- Un contrat d'une page → environ 700 à 1 000 tokens
Chaque appel à un LLM consomme deux types de tokens : les tokens d'entrée (input) et les tokens de sortie (output). C'est cette distinction qui gouverne entièrement la structure des coûts — et qui doit guider la conception de chaque étape d'un workflow.
2. Input vs Output : l'asymétrie qui change tout
Chez tous les fournisseurs de LLMs, les tokens de sortie coûtent entre 3 et 10 fois plus cher que les tokens d'entrée. La raison est technique : générer du texte token par token est computationnellement bien plus intensif que de le lire. Cette asymétrie a des conséquences directes et structurantes sur la conception des agents.
Ce que comprend un token d'input
- Le prompt système (instructions permanentes définissant le comportement de l'agent)
- Le message soumis par l'utilisateur ou le document traité
- L'historique de la conversation (les échanges précédents)
- Le contexte injecté dynamiquement : données CRM, disponibilités agenda, catalogue produits…
Ce que comprend un token d'output
- Uniquement la réponse générée par le modèle
Conséquence pratique : un agent qui confirme un rendez-vous avec un message de deux lignes consomme 20 fois moins de tokens de sortie qu'un agent qui rédige une proposition commerciale complète. La longueur et la complexité des réponses générées ont un impact direct et immédiat sur le coût. C'est pourquoi la conception des instructions et des formats de sortie fait partie intégrante de l'ingénierie d'un agent IA performant.
3. Comparaison des principaux LLMs du marché
En 2026, le marché des LLMs est extrêmement fragmenté — et les écarts de prix sont considérables. Entre le modèle le plus économique et le plus performant, le ratio est de 1 à 250 sur les tokens de sortie. Choisir le bon modèle pour chaque tâche est une décision économique majeure. Voici une comparaison des principaux modèles disponibles :
Gemini 2.0 Flash
Mistral Small 3
Mistral AI
GPT-4o mini
OpenAI
Claude Haiku 4.5
Anthropic
Gemini 2.5 Pro
GPT-4o
OpenAI
Claude Sonnet 4.5
Anthropic
Claude Opus 4.5
Anthropic
Prix indicatifs en USD — ils évoluent régulièrement à la baisse avec la concurrence. Pour les structures européennes, Mistral AI permet une conformité renforcée avec les exigences RGPD et de souveraineté des données.
4. Le coût réel dans un agent IA : exemple chiffré
Prenons un cas concret : un agent de traitement d'emails entrants pour une PME, gérant 500 emails par mois. Pour chaque email traité, voici une décomposition typique :
Input
Output
Ce qui donne, selon le modèle choisi :
Ces chiffres sont délibérément parlants : pour la plupart des usages courants, le coût LLM brut est quasi-marginal — souvent moins cher qu'un SMS. L'enjeu n'est donc pas le coût par token en lui-même, mais le nombre total d'appels au LLM dans votre workflow. Et c'est précisément là qu'intervient l'optimisation.
5. Architecture hybride : ce qui passe par le LLM, ce qui n'y passe pas
Dans tout agent IA bien conçu, une large part des opérations ne sollicite jamais un modèle de langage. Ce n'est pas une question d'économie — c'est une question d'architecture. Les étapes déterministes (routage, appels API, templates) sont plus rapides, plus fiables et plus prévisibles qu'un appel LLM. Les réserver au LLM uniquement lorsque la compréhension du langage naturel est vraiment nécessaire, c'est ce qui distingue un agent robuste d'un workflow fragile. Voici un exemple concret avec un agent de traitement d'emails :
Cette architecture hybride repose sur cinq principes que nous appliquons à chaque déploiement :
1. Routage et conditions
Avant d'appeler un LLM, de nombreux cas peuvent être filtrés via des conditions simples : un message hors scope, un accusé de réception automatique, un doublon. Ces décisions s'exécutent en quelques millisecondes — sans latence réseau, sans risque d'hallucination.
2. Templates de réponses prédéfinies
Pour les confirmations standards, les accusés de réception ou les messages d'état, des templates suffisent largement. Le résultat est instantané, identique à chaque fois, et n'expose aucune donnée à un modèle externe.
3. Appels API directs
Vérifier une disponibilité agenda, récupérer un profil CRM, consulter le stock d'un produit : ces opérations se font via des appels API directs, sans jamais solliciter un modèle de langage. Données en temps réel, sans intermédiaire.
4. Cache des réponses fréquentes
Les questions récurrentes (horaires, tarifs, adresse, conditions générales) voient leur réponse mise en cache après le premier appel LLM. Les requêtes suivantes sont traitées instantanément — et de façon parfaitement cohérente.
5. Pré et post-traitement des données
L'extraction d'informations structurées (dates, montants, numéros) se fait par script en amont. La mise en forme de la réponse (markdown → HTML) se fait en aval. Ces étapes réduisent la charge cognitive imposée au modèle — et améliorent la qualité des sorties.
Ce que ça change en pratique
6. Ce que ça change concrètement pour vous
Un agent bien architecturé n'appelle le LLM qu'au moment où il en a réellement besoin — et seulement pour ça. Le reste est traité de façon déterministe : plus vite, sans aléas, sans latence réseau vers un modèle distant. Cette approche rend vos agents à la fois plus rapides, plus robustes, et économiquement prévisibles.
Pour vous donner un ordre de grandeur sur un déploiement type Mission IA (500 interactions/mois) :
Vous ne payez pas au token : vous payez pour un service opérationnel, stable et entièrement maîtrisé. La consommation de tokens est optimisée par conception — et pour les déploiements à très fort volume, nous l'analysons ensemble en amont pour que le budget reste maîtrisé. La vraie question, finalement, n'est pas ce que ça coûte en tokens. C'est ce que vous perdez chaque semaine en continuant à traiter ces tâches manuellement.
En résumé
- Les LLMs facturent en tokens : ~3/4 de mot en anglais, un peu moins en français
- Les tokens de sortie (output) coûtent 3 à 10× plus cher que les tokens d'entrée (input)
- L'écart entre le modèle le moins cher et le plus cher est de 1 à 250 sur l'output
- Pour 500 emails/mois, le coût LLM brut varie de ~0,09 $ (Mistral Small 3) à ~3,45 $ (Claude Sonnet)
- 40 à 65 % d'un workflow d'agent peut être traité sans appel LLM : routage, templates, API, cache
- Chez Mission IA, les coûts LLM sont optimisés par architecture — intégrés dans l'abonnement sur la base d'un usage standard
Vous voulez savoir ce qu'un agent IA coûterait dans votre contexte ?
On fait l'estimation ensemble : architecture, modèle, coût réel — en 30 minutes, sans engagement.
Demander mon audit gratuit

