IA locale ou cloud? Le vrai calcul que personne ne fait

Frederick Chapleau
IA locale ou cloud? Le vrai calcul que personne ne fait

IA locale ou cloud? Le vrai calcul que personne ne fait

Tout le monde parle d'IA locale. Peu de gens savent combien de VRAM il faut réellement pour faire tourner un modèle de 70 milliards de paramètres. Encore moins ont fait le calcul entre le coût d'une carte graphique et celui de leur facture cloud mensuelle.


Pourquoi l'inférence locale mérite votre attention

Depuis deux ans, la conversation dominante en IA tourne autour des API cloud : OpenAI, Anthropic, Google. C'est le chemin le plus simple. C'est aussi le chemin où votre organisation n'a aucun contrôle sur trois éléments critiques : ses données, ses coûts unitaires, et sa dépendance à un fournisseur unique.

En parallèle, l'écosystème open-source a rattrapé — et dans certains cas dépassé — les modèles propriétaires. Qwen 3.5, DeepSeek R1, Llama 4, Mistral Large 3 : ces modèles rivalisent avec GPT-4 et Claude sur plusieurs benchmarks. Et ils peuvent tourner sur votre propre matériel.

Pour un décideur, la question n'est plus « est-ce que l'IA open-source est assez bonne? ». Elle l'est. La question est : est-ce que vous contrôlez l'infrastructure sur laquelle elle tourne?

Trois raisons stratégiques d'agir maintenant

1. Souveraineté des données

Chaque appel à une API cloud envoie vos données chez un tiers, souvent américain. Pour les organisations soumises à des législations sur la protection des données (Loi 25 au Québec, RGPD en Europe), à des exigences SOC 2, ou simplement soucieuses de ne pas envoyer leurs documents stratégiques à un tiers, l'inférence locale élimine ce risque à la source : vos données ne quittent jamais votre infrastructure.

2. Prévisibilité des coûts

Les API cloud facturent au token. Plus vos équipes adoptent l'IA, plus la facture grimpe — de manière souvent imprévisible. L'inférence locale transforme un coût variable en investissement fixe, amorti sur 24 mois, avec une consommation électrique marginale.

3. Indépendance opérationnelle

Pas de panne de fournisseur. Pas de changement unilatéral des conditions d'utilisation. Pas de latence réseau. Pour les cas critiques, c'est un avantage réel. Mais soyons honnêtes : si votre infrastructure interne tombe, le résultat est le même. L'indépendance opérationnelle n'est un argument que si vous avez la capacité de maintenir cette infrastructure.

Le calcul économique : ça vaut combien?

Prenons un cas concret. Une équipe de 5 développeurs utilise un modèle IA via API cloud pour de l'assistance au code, de la revue de documents et de la génération de contenu. Consommation estimée : 50 millions de tokens d'entrée et 15 millions de tokens de sortie par mois.

Scénario cloud (tarifs typiques mars 2026) : environ 150–250 $/mois selon le fournisseur et le modèle. Simple, prévisible, aucun investissement matériel.

Scénario local (carte graphique usagée) : investissement de ~700 $, consommation électrique d'environ 30 $/mois, amortissement sur 24 mois = ~60 $/mois tout inclus.

💡 Point de rentabilité

Le local devient rentable en 4 à 6 mois si votre utilisation est suffisamment régulière. En deçà, le cloud reste plus économique — et c'est parfaitement correct. Le bon choix dépend de votre volume réel, pas d'un idéal théorique.

Ce qu'il faut retenir sur le matériel

Vous n'avez pas besoin de comprendre l'architecture GPU en détail pour prendre la bonne décision. Voici l'essentiel.

Un seul chiffre compte : la VRAM — la mémoire de la carte graphique. Plus un modèle IA est gros, plus il en faut. Avec les techniques de compression modernes (quantisation), les besoins sont divisés par quatre.

En pratique, voici ce que les différentes gammes de cartes permettent :

BudgetCarte recommandéeCe que vous pouvez roulerPour qui
~700 $RTX 3090 usagée (24 Go)Modèles jusqu'à 32B paramètresDéveloppeur solo, petite équipe
~2 000 $RTX 5090 (32 Go)Modèles 32B confortablementÉquipe technique 5-15 personnes
~3 000 $Project DIGITS (128 Go)Modèles 70B confortablementPME sérieuse, R&D
~8 500 $RTX PRO 6000 (96 Go)Modèles 70B, début des 100B+Serveur d'inférence partagé

ℹ️ Traduction pour les non-techniques

Un modèle de 9 milliards de paramètres (9B) gère bien le chat, l'assistance au code et les tâches rédactionnelles courantes. Un modèle de 32B offre un saut de qualité significatif en raisonnement. Un modèle de 70B rivalise avec les meilleurs modèles cloud. Au-delà, vous entrez dans le territoire des clusters et du cloud.

Recommandations par profil organisationnel

Le développeur solo ou le freelance

RTX 3090 usagée (~700 $) ou RTX 5060 Ti 16 Go (~450 $). Vous roulerez des modèles de 9B à 14B sans problème. Avec la 3090, vous montez jusqu'à 32B — un saut de qualité significatif pour l'assistance au code et la rédaction.

L'équipe technique (5-15 personnes)

RTX 5090 (32 Go, ~2 000 $) ou 2× RTX 3090 usagées. Vous couvrez les modèles jusqu'à 32B confortablement. Si vous avez besoin de la qualité d'un 70B, envisagez une station de travail avec une RTX PRO 6000 ou surveillez Project DIGITS de NVIDIA.

L'organisation (serveur interne / inférence partagée)

RTX PRO 6000 (96 Go, ~8 500 $) pour un serveur d'inférence unique capable de servir un modèle 70B à plusieurs utilisateurs simultanés. En configuration multi-GPU, vous accédez aux modèles de 100B+. Pour les plus gros modèles, le cloud reste incontournable — mais pour 90% des cas d'usage, une ou deux cartes workstation suffisent.

L'approche hybride (notre recommandation)

En pratique, la plupart des organisations gagneront à combiner les deux approches. Inférence locale pour les tâches quotidiennes, les données sensibles et les volumes prévisibles. API cloud pour les requêtes occasionnelles qui nécessitent les modèles frontier (Claude Opus, GPT-4o) ou pour absorber les pics de demande.

C'est l'architecture que nous déployons chez Byrnu avec notre framework Cognito — un système agentique qui peut router intelligemment les requêtes entre modèles locaux et API cloud selon la complexité de la tâche, la sensibilité des données et le budget disponible.

Ce qui change dans les 12 prochains mois

Trois tendances vont rendre le choix plus nuancé encore.

La mémoire augmente, enfin. Project DIGITS à 128 Go pour 3 000 $ est un signal fort. Les rumeurs de RTX 50 Super doubleraient la VRAM de plusieurs cartes grand public. Plus de mémoire locale = plus de modèles accessibles sans cloud.

Les modèles deviennent plus efficaces. Les nouvelles architectures permettent d'obtenir la qualité d'un modèle de 70B avec la vitesse d'un modèle 5× plus petit. Le Qwen 3.5 9B de mars 2026 bat des modèles 3× plus gros d'il y a 12 mois. Cela rend le local plus viable — mais cela rend aussi le cloud moins cher par requête.

Les outils se simplifient. Ollama, vLLM, llama.cpp : l'inférence locale est passée de « projet de recherche » à « une commande dans le terminal ». En parallèle, les API cloud deviennent aussi plus simples et plus compétitives. L'écart de friction entre les deux approches se réduit.

La décision qui vous appartient

Il n'y a pas de réponse universelle. Le cloud est le bon choix si votre utilisation est sporadique, si vous n'avez pas de contraintes de confidentialité, ou si vous ne voulez pas gérer d'infrastructure. C'est aussi le seul accès aux modèles frontier les plus récents.

Le local est le bon choix si vous traitez des données sensibles, si vous voulez de la prévisibilité budgétaire à volume régulier, et si vous avez un minimum de capacité technique interne.

En pratique, la majorité des organisations en 2026 bénéficieraient d'un mix des deux. Le matériel, les modèles et les outils sont là des deux côtés. Ce qui manque souvent, c'est d'avoir posé le calcul honnêtement.


La vraie question n'est ni « tout local » ni « tout cloud ». C'est : pour chaque cas d'usage, lequel fait le plus de sens?


Pour les plus techniques : le guide complet des GPU et modèles

L'essentiel en bref

Pour l'inférence locale, la seule métrique qui compte est la VRAM (mémoire vidéo). Un modèle qui ne rentre pas en VRAM tombe en offloading CPU — 5 à 30× plus lent.

La quantisation Q4 (compression 4-bit) divise l'empreinte mémoire par quatre avec une perte de qualité marginale. C'est le standard en 2026.

ℹ️ Formule de calcul VRAM

VRAM requise ≈ (Paramètres en milliards × octets par paramètre) × 1,18

  • FP16 : 2 octets/param → Llama 70B = ~165 Go
  • Q8 : 1 octet/param → Llama 70B = ~83 Go
  • Q4 : 0,5 octet/param → Llama 70B = ~41 Go

Attention aux modèles Mixture of Experts (MoE) : DeepSeek R1 annonce 671B paramètres mais n'en active que 37B par token. Le piège : tous les paramètres doivent quand même être en VRAM. DeepSeek R1 en Q4 = ~396 Go — territoire cloud uniquement.

La grille de compatibilité interactive

Le composant ci-dessous croise les GPU NVIDIA commerciaux (consumer, workstation, data center) avec les principaux modèles open-source. Vous pouvez filtrer par catégorie de carte et changer le niveau de quantisation pour voir instantanément ce qui rentre dans quelle carte.

GPU NVIDIA vs Modèles OSS

Compatibilité VRAM des cartes graphiques commerciales NVIDIA avec les principaux LLM open-source — mars 2026

Catégorie GPU
Quantisation
Modèle LLM
RTX 5060 Ti 8GB
8 GB · GDDR7
~400 $
RTX 5060 Ti 16GB
16 GB · GDDR7
~450 $
RTX 5070
12 GB · GDDR7
~550 $
RTX 5070 Ti
16 GB · GDDR7
~750 $
RTX 5080
16 GB · GDDR7
~1 000 $
RTX 5090
32 GB · GDDR7
~2 000 $
RTX 4090 (usagé)
24 GB · GDDR6X
~1 400 $
RTX 3090 (usagé)
24 GB · GDDR6X
~700 $
RTX A6000
48 GB · GDDR6 ECC
~4 500 $
RTX 6000 Ada
48 GB · GDDR6 ECC
~6 800 $
RTX PRO 6000
96 GB · GDDR7 ECC
~8 500 $
L40S
48 GB · GDDR6
Cloud
A100 80GB
80 GB · HBM2e
Cloud
H100 SXM
80 GB · HBM3
Cloud
H200
141 GB · HBM3e
Cloud
B200
192 GB · HBM3e
Cloud
B300
288 GB · HBM3e
Cloud
Project DIGITS
128 GB · Unifiée
~3 000 $
Qwen 3.5 9B
Dense · 9B · ~5 GB Q4
Chat, code, multimodal
Phi-4 14B / Qwen 2.5 14B
Dense · 14B · ~8 GB Q4
Raisonnement, code
2x+
Mistral Small 3.1 24B
Dense · 24B · ~14 GB Q4
Multilingue, chat
~2x+~~
Gemma 3 27B / Qwen 2.5 32B
Dense · 32B · ~19 GB Q4
Chat avancé, code
2x+2x+2x+~~
Llama 3.3 70B / Qwen 2.5 72B
Dense · 72B · ~42 GB Q4
Frontier open-source
2x+~~~
Llama 4 Scout 109B MoE
MoE · 109B · ~64 GB Q4
10M contexte, général
2x+2x+2x+~~
Qwen3-235B-A22B MoE
MoE · 235B · ~139 GB Q4
Multilingue, raisonnement
2x+2x+2x+
Qwen 3.5 397B MoE
MoE · 397B · ~234 GB Q4
Frontier, multimodal
2x+~
DeepSeek R1 671B MoE
MoE · 671B · ~396 GB Q4
Raisonnement CoT
2x+
Mistral Large 3 675B MoE
MoE · 675B · ~398 GB Q4
80+ langues, 256k ctx
2x+
Confortable (marge pour contexte)Serré (modèle charge, peu de marge)Impossible (VRAM insuffisant)Multi-GPU requis

* MoE = Mixture of Experts (paramètres actifs entre parenthèses). VRAM estimé = poids du modèle + ~18% overhead (KV cache, activations, framework). Prix approximatifs mars 2026. Les modèles MoE chargent tous les paramètres en VRAM même si seule une fraction est active par token.