IA locale ou cloud? Le vrai calcul que personne ne fait

IA locale ou cloud? Le vrai calcul que personne ne fait
Tout le monde parle d'IA locale. Peu de gens savent combien de VRAM il faut réellement pour faire tourner un modèle de 70 milliards de paramètres. Encore moins ont fait le calcul entre le coût d'une carte graphique et celui de leur facture cloud mensuelle.
Pourquoi l'inférence locale mérite votre attention
Depuis deux ans, la conversation dominante en IA tourne autour des API cloud : OpenAI, Anthropic, Google. C'est le chemin le plus simple. C'est aussi le chemin où votre organisation n'a aucun contrôle sur trois éléments critiques : ses données, ses coûts unitaires, et sa dépendance à un fournisseur unique.
En parallèle, l'écosystème open-source a rattrapé — et dans certains cas dépassé — les modèles propriétaires. Qwen 3.5, DeepSeek R1, Llama 4, Mistral Large 3 : ces modèles rivalisent avec GPT-4 et Claude sur plusieurs benchmarks. Et ils peuvent tourner sur votre propre matériel.
Pour un décideur, la question n'est plus « est-ce que l'IA open-source est assez bonne? ». Elle l'est. La question est : est-ce que vous contrôlez l'infrastructure sur laquelle elle tourne?
Trois raisons stratégiques d'agir maintenant
1. Souveraineté des données
Chaque appel à une API cloud envoie vos données chez un tiers, souvent américain. Pour les organisations soumises à des législations sur la protection des données (Loi 25 au Québec, RGPD en Europe), à des exigences SOC 2, ou simplement soucieuses de ne pas envoyer leurs documents stratégiques à un tiers, l'inférence locale élimine ce risque à la source : vos données ne quittent jamais votre infrastructure.
2. Prévisibilité des coûts
Les API cloud facturent au token. Plus vos équipes adoptent l'IA, plus la facture grimpe — de manière souvent imprévisible. L'inférence locale transforme un coût variable en investissement fixe, amorti sur 24 mois, avec une consommation électrique marginale.
3. Indépendance opérationnelle
Pas de panne de fournisseur. Pas de changement unilatéral des conditions d'utilisation. Pas de latence réseau. Pour les cas critiques, c'est un avantage réel. Mais soyons honnêtes : si votre infrastructure interne tombe, le résultat est le même. L'indépendance opérationnelle n'est un argument que si vous avez la capacité de maintenir cette infrastructure.
Le calcul économique : ça vaut combien?
Prenons un cas concret. Une équipe de 5 développeurs utilise un modèle IA via API cloud pour de l'assistance au code, de la revue de documents et de la génération de contenu. Consommation estimée : 50 millions de tokens d'entrée et 15 millions de tokens de sortie par mois.
Scénario cloud (tarifs typiques mars 2026) : environ 150–250 $/mois selon le fournisseur et le modèle. Simple, prévisible, aucun investissement matériel.
Scénario local (carte graphique usagée) : investissement de ~700 $, consommation électrique d'environ 30 $/mois, amortissement sur 24 mois = ~60 $/mois tout inclus.
💡 Point de rentabilité
Le local devient rentable en 4 à 6 mois si votre utilisation est suffisamment régulière. En deçà, le cloud reste plus économique — et c'est parfaitement correct. Le bon choix dépend de votre volume réel, pas d'un idéal théorique.
Ce qu'il faut retenir sur le matériel
Vous n'avez pas besoin de comprendre l'architecture GPU en détail pour prendre la bonne décision. Voici l'essentiel.
Un seul chiffre compte : la VRAM — la mémoire de la carte graphique. Plus un modèle IA est gros, plus il en faut. Avec les techniques de compression modernes (quantisation), les besoins sont divisés par quatre.
En pratique, voici ce que les différentes gammes de cartes permettent :
| Budget | Carte recommandée | Ce que vous pouvez rouler | Pour qui |
|---|---|---|---|
| ~700 $ | RTX 3090 usagée (24 Go) | Modèles jusqu'à 32B paramètres | Développeur solo, petite équipe |
| ~2 000 $ | RTX 5090 (32 Go) | Modèles 32B confortablement | Équipe technique 5-15 personnes |
| ~3 000 $ | Project DIGITS (128 Go) | Modèles 70B confortablement | PME sérieuse, R&D |
| ~8 500 $ | RTX PRO 6000 (96 Go) | Modèles 70B, début des 100B+ | Serveur d'inférence partagé |
ℹ️ Traduction pour les non-techniques
Un modèle de 9 milliards de paramètres (9B) gère bien le chat, l'assistance au code et les tâches rédactionnelles courantes. Un modèle de 32B offre un saut de qualité significatif en raisonnement. Un modèle de 70B rivalise avec les meilleurs modèles cloud. Au-delà, vous entrez dans le territoire des clusters et du cloud.
Recommandations par profil organisationnel
Le développeur solo ou le freelance
RTX 3090 usagée (~700 $) ou RTX 5060 Ti 16 Go (~450 $). Vous roulerez des modèles de 9B à 14B sans problème. Avec la 3090, vous montez jusqu'à 32B — un saut de qualité significatif pour l'assistance au code et la rédaction.
L'équipe technique (5-15 personnes)
RTX 5090 (32 Go, ~2 000 $) ou 2× RTX 3090 usagées. Vous couvrez les modèles jusqu'à 32B confortablement. Si vous avez besoin de la qualité d'un 70B, envisagez une station de travail avec une RTX PRO 6000 ou surveillez Project DIGITS de NVIDIA.
L'organisation (serveur interne / inférence partagée)
RTX PRO 6000 (96 Go, ~8 500 $) pour un serveur d'inférence unique capable de servir un modèle 70B à plusieurs utilisateurs simultanés. En configuration multi-GPU, vous accédez aux modèles de 100B+. Pour les plus gros modèles, le cloud reste incontournable — mais pour 90% des cas d'usage, une ou deux cartes workstation suffisent.
L'approche hybride (notre recommandation)
En pratique, la plupart des organisations gagneront à combiner les deux approches. Inférence locale pour les tâches quotidiennes, les données sensibles et les volumes prévisibles. API cloud pour les requêtes occasionnelles qui nécessitent les modèles frontier (Claude Opus, GPT-4o) ou pour absorber les pics de demande.
C'est l'architecture que nous déployons chez Byrnu avec notre framework Cognito — un système agentique qui peut router intelligemment les requêtes entre modèles locaux et API cloud selon la complexité de la tâche, la sensibilité des données et le budget disponible.
Ce qui change dans les 12 prochains mois
Trois tendances vont rendre le choix plus nuancé encore.
La mémoire augmente, enfin. Project DIGITS à 128 Go pour 3 000 $ est un signal fort. Les rumeurs de RTX 50 Super doubleraient la VRAM de plusieurs cartes grand public. Plus de mémoire locale = plus de modèles accessibles sans cloud.
Les modèles deviennent plus efficaces. Les nouvelles architectures permettent d'obtenir la qualité d'un modèle de 70B avec la vitesse d'un modèle 5× plus petit. Le Qwen 3.5 9B de mars 2026 bat des modèles 3× plus gros d'il y a 12 mois. Cela rend le local plus viable — mais cela rend aussi le cloud moins cher par requête.
Les outils se simplifient. Ollama, vLLM, llama.cpp : l'inférence locale est passée de « projet de recherche » à « une commande dans le terminal ». En parallèle, les API cloud deviennent aussi plus simples et plus compétitives. L'écart de friction entre les deux approches se réduit.
La décision qui vous appartient
Il n'y a pas de réponse universelle. Le cloud est le bon choix si votre utilisation est sporadique, si vous n'avez pas de contraintes de confidentialité, ou si vous ne voulez pas gérer d'infrastructure. C'est aussi le seul accès aux modèles frontier les plus récents.
Le local est le bon choix si vous traitez des données sensibles, si vous voulez de la prévisibilité budgétaire à volume régulier, et si vous avez un minimum de capacité technique interne.
En pratique, la majorité des organisations en 2026 bénéficieraient d'un mix des deux. Le matériel, les modèles et les outils sont là des deux côtés. Ce qui manque souvent, c'est d'avoir posé le calcul honnêtement.
La vraie question n'est ni « tout local » ni « tout cloud ». C'est : pour chaque cas d'usage, lequel fait le plus de sens?
Pour les plus techniques : le guide complet des GPU et modèles
L'essentiel en bref
Pour l'inférence locale, la seule métrique qui compte est la VRAM (mémoire vidéo). Un modèle qui ne rentre pas en VRAM tombe en offloading CPU — 5 à 30× plus lent.
La quantisation Q4 (compression 4-bit) divise l'empreinte mémoire par quatre avec une perte de qualité marginale. C'est le standard en 2026.
ℹ️ Formule de calcul VRAM
VRAM requise ≈ (Paramètres en milliards × octets par paramètre) × 1,18
- FP16 : 2 octets/param → Llama 70B = ~165 Go
- Q8 : 1 octet/param → Llama 70B = ~83 Go
- Q4 : 0,5 octet/param → Llama 70B = ~41 Go
Attention aux modèles Mixture of Experts (MoE) : DeepSeek R1 annonce 671B paramètres mais n'en active que 37B par token. Le piège : tous les paramètres doivent quand même être en VRAM. DeepSeek R1 en Q4 = ~396 Go — territoire cloud uniquement.
La grille de compatibilité interactive
Le composant ci-dessous croise les GPU NVIDIA commerciaux (consumer, workstation, data center) avec les principaux modèles open-source. Vous pouvez filtrer par catégorie de carte et changer le niveau de quantisation pour voir instantanément ce qui rentre dans quelle carte.
GPU NVIDIA vs Modèles OSS
Compatibilité VRAM des cartes graphiques commerciales NVIDIA avec les principaux LLM open-source — mars 2026
| Modèle LLM | RTX 5060 Ti 8GB 8 GB · GDDR7 ~400 $ | RTX 5060 Ti 16GB 16 GB · GDDR7 ~450 $ | RTX 5070 12 GB · GDDR7 ~550 $ | RTX 5070 Ti 16 GB · GDDR7 ~750 $ | RTX 5080 16 GB · GDDR7 ~1 000 $ | RTX 5090 32 GB · GDDR7 ~2 000 $ | RTX 4090 (usagé) 24 GB · GDDR6X ~1 400 $ | RTX 3090 (usagé) 24 GB · GDDR6X ~700 $ | RTX A6000 48 GB · GDDR6 ECC ~4 500 $ | RTX 6000 Ada 48 GB · GDDR6 ECC ~6 800 $ | RTX PRO 6000 96 GB · GDDR7 ECC ~8 500 $ | L40S 48 GB · GDDR6 Cloud | A100 80GB 80 GB · HBM2e Cloud | H100 SXM 80 GB · HBM3 Cloud | H200 141 GB · HBM3e Cloud | B200 192 GB · HBM3e Cloud | B300 288 GB · HBM3e Cloud | Project DIGITS 128 GB · Unifiée ~3 000 $ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Qwen 3.5 9B Dense · 9B · ~5 GB Q4 Chat, code, multimodal | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Phi-4 14B / Qwen 2.5 14B Dense · 14B · ~8 GB Q4 Raisonnement, code | 2x+ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Mistral Small 3.1 24B Dense · 24B · ~14 GB Q4 Multilingue, chat | ✗ | ~ | 2x+ | ~ | ~ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Gemma 3 27B / Qwen 2.5 32B Dense · 32B · ~19 GB Q4 Chat avancé, code | ✗ | 2x+ | ✗ | 2x+ | 2x+ | ✓ | ~ | ~ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Llama 3.3 70B / Qwen 2.5 72B Dense · 72B · ~42 GB Q4 Frontier open-source | ✗ | ✗ | ✗ | ✗ | ✗ | 2x+ | ✗ | ✗ | ~ | ~ | ✓ | ~ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Llama 4 Scout 109B MoE MoE · 109B · ~64 GB Q4 10M contexte, général | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | 2x+ | 2x+ | ✓ | 2x+ | ~ | ~ | ✓ | ✓ | ✓ | ✓ |
Qwen3-235B-A22B MoE MoE · 235B · ~139 GB Q4 Multilingue, raisonnement | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | 2x+ | ✗ | ✗ | ✗ | 2x+ | ✓ | ✓ | 2x+ |
Qwen 3.5 397B MoE MoE · 397B · ~234 GB Q4 Frontier, multimodal | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | 2x+ | ~ | ✗ |
DeepSeek R1 671B MoE MoE · 671B · ~396 GB Q4 Raisonnement CoT | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | 2x+ | ✗ |
Mistral Large 3 675B MoE MoE · 675B · ~398 GB Q4 80+ langues, 256k ctx | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | 2x+ | ✗ |
* MoE = Mixture of Experts (paramètres actifs entre parenthèses). VRAM estimé = poids du modèle + ~18% overhead (KV cache, activations, framework). Prix approximatifs mars 2026. Les modèles MoE chargent tous les paramètres en VRAM même si seule une fraction est active par token.