IA locale ou cloud? Le vrai calcul que personne ne fait

Tout le monde parle d'IA locale. Peu de gens savent combien de VRAM il faut réellement pour faire tourner un modèle de 70 milliards de paramètres. Encore moins ont fait le calcul entre le coût d'une carte graphique et celui de leur facture cloud mensuelle.

Pourquoi l'inférence locale mérite votre attention

Depuis deux ans, la conversation dominante en IA tourne autour des API cloud : OpenAI, Anthropic, Google. C'est le chemin le plus simple. C'est aussi le chemin où votre organisation n'a aucun contrôle sur trois éléments critiques : ses données, ses coûts unitaires, et sa dépendance à un fournisseur unique.

En parallèle, l'écosystème open-source a considérablement progressé. Qwen 3.5, DeepSeek R1, Llama 4, Mistral Large 3 : ces modèles sont devenus remarquablement capables, et ils peuvent tourner sur votre propre matériel.

Mais soyons précis sur ce que signifie « rivaliser sur des benchmarks ». Sur des tâches standardisées et bien délimitées, les écarts se sont effectivement réduits. Sur les tâches à forte complexité — raisonnement multi-étapes, analyse de documents ambigus, synthèse stratégique nuancée, ou génération créative de haute qualité — les modèles frontier premium comme Claude Opus 4.6 ou GPT-5.4 maintiennent une avance réelle et mesurable. Ce n'est pas du marketing : c'est un écart qualitatif perceptible dès qu'on sort des cas d'usage courants.

Un modèle local de 70B peut s'acquitter efficacement de 80 à 90% des tâches quotidiennes d'une équipe. Pour les 10 à 20% restants — les analyses qui comptent vraiment, les décisions à fort enjeu — la qualité du modèle fait une différence que l'infrastructure ne peut pas compenser.

Pour un décideur, la vraie question n'est donc pas « est-ce que l'IA open-source est assez bonne? » mais « assez bonne pour quelles tâches spécifiques? » La question est : est-ce que vous avez réfléchi à ce que vous faites tourner où?

Trois raisons stratégiques d'agir maintenant

1. Souveraineté des données

Chaque appel à une API cloud envoie vos données chez un tiers, souvent américain. Pour les organisations soumises à des législations sur la protection des données (Loi 25 au Québec, RGPD en Europe), à des exigences SOC 2, ou simplement soucieuses de ne pas envoyer leurs documents stratégiques à un tiers, l'inférence locale élimine ce risque à la source : vos données ne quittent jamais votre infrastructure.

2. Prévisibilité des coûts

Les API cloud facturent au token. Plus vos équipes adoptent l'IA, plus la facture grimpe — de manière souvent imprévisible. L'inférence locale transforme un coût variable en investissement fixe, amorti sur 24 mois, avec une consommation électrique marginale.

3. Indépendance opérationnelle

Pas de panne de fournisseur. Pas de changement unilatéral des conditions d'utilisation. Pas de latence réseau. Pour les cas critiques, c'est un avantage réel. Mais soyons honnêtes : si votre infrastructure interne tombe, le résultat est le même. L'indépendance opérationnelle n'est un argument que si vous avez la capacité de maintenir cette infrastructure.

Le calcul économique : ça vaut combien?

Prenons un cas concret. Une équipe de 5 développeurs utilise un modèle IA via API cloud pour de l'assistance au code, de la revue de documents et de la génération de contenu. Consommation estimée : 50 millions de tokens d'entrée et 15 millions de tokens de sortie par mois.

Scénario cloud (tarifs typiques mars 2026) : environ 150–250 $/mois selon le fournisseur et le modèle. Simple, prévisible, aucun investissement matériel.

Scénario local (carte graphique usagée) : investissement de ~700 $, consommation électrique d'environ 30 $/mois, amortissement sur 24 mois = ~60 $/mois tout inclus.

💡 Point de rentabilité

Le local devient rentable en 4 à 6 mois si votre utilisation est suffisamment régulière. En deçà, le cloud reste plus économique — et c'est parfaitement correct. Le bon choix dépend de votre volume réel, pas d'un idéal théorique.

Ce qu'il faut retenir sur le matériel

Vous n'avez pas besoin de comprendre l'architecture GPU en détail pour prendre la bonne décision. Voici l'essentiel.

Un seul chiffre compte : la VRAM — la mémoire de la carte graphique. Plus un modèle IA est gros, plus il en faut. Avec les techniques de compression modernes (quantisation), les besoins sont divisés par quatre.

En pratique, voici ce que les différentes gammes de cartes permettent :

Budget	Carte recommandée	Ce que vous pouvez rouler	Pour qui
~700 $	RTX 3090 usagée (24 Go)	Modèles jusqu'à 32B paramètres	Développeur solo, petite équipe
~2 000 $	RTX 5090 (32 Go)	Modèles 32B confortablement	Équipe technique 5-15 personnes
~3 000 $	Project DIGITS (128 Go)	Modèles 70B confortablement	PME sérieuse, R&D
~8 500 $	RTX PRO 6000 (96 Go)	Modèles 70B, début des 100B+	Serveur d'inférence partagé

ℹ️ Traduction pour les non-techniques

Un modèle de 9 milliards de paramètres (9B) gère bien le chat, l'assistance au code et les tâches rédactionnelles courantes. Un modèle de 32B offre un saut de qualité significatif en raisonnement. Un modèle de 70B rivalise avec les bons modèles cloud sur les tâches générales — mais les modèles frontier premium comme Claude Opus 4.6 ou GPT-5.4 maintiennent une avance perceptible sur les tâches complexes : analyse stratégique profonde, raisonnement multi-étapes, compétences d'instrõctions nuancées. Au-delà des 70B locaux, vous entrez dans le territoire des clusters et du cloud — et des modèles qui n'ont tout simplement pas d'équivalent local.

Recommandations par profil organisationnel

Le développeur solo ou le freelance

RTX 3090 usagée (~700 $) ou RTX 5060 Ti 16 Go (~450 $). Vous roulerez des modèles de 9B à 14B sans problème. Avec la 3090, vous montez jusqu'à 32B — un saut de qualité significatif pour l'assistance au code et la rédaction.

L'équipe technique (5-15 personnes)

RTX 5090 (32 Go, ~2 000 $) ou 2× RTX 3090 usagées. Vous couvrez les modèles jusqu'à 32B confortablement. Si vous avez besoin de la qualité d'un 70B, envisagez une station de travail avec une RTX PRO 6000 ou surveillez Project DIGITS de NVIDIA.

L'organisation (serveur interne / inférence partagée)

RTX PRO 6000 (96 Go, ~8 500 $) pour un serveur d'inférence unique capable de servir un modèle 70B à plusieurs utilisateurs simultanés. En configuration multi-GPU, vous accédez aux modèles de 100B+. Pour les plus gros modèles, le cloud reste incontournable — mais pour 90% des cas d'usage, une ou deux cartes workstation suffisent.

L'approche hybride (notre recommandation)

En pratique, la plupart des organisations gagneront à combiner les deux approches. Inférence locale pour les tâches quotidiennes (assistance au code, résumés, questions-réponses sur des documents internes), les données sensibles et les volumes prévisibles. API cloud pour les modèles frontier là où la qualité du modèle est déterminante : analyses stratégiques à fort enjeu, raisonnements complexes, tâches qui nécessitent le meilleur de ce que l'IA peut offrir aujourd'hui.

Ce point mérite d'être dit clairement : Claude Opus 4.6 et GPT-5.4 offrent un niveau de capacité qui n'a pas d'équivalent local en 2026. Utiliser un modèle local là où un modèle frontier s'impose, c'est accepter une perte de qualité réelle sur des tâches où cette qualité compte. L'approche hybride intelligente consiste à identifier ces tâches et à ne pas tenter de les économiser.

C'est l'architecture que nous déployons chez Byrnu avec notre framework Cognito — un système agentique qui peut router intelligemment les requêtes entre modèles locaux et API cloud selon la complexité de la tâche, la sensibilité des données et le budget disponible.

Ce qui change dans les 12 prochains mois

Trois tendances vont rendre le choix plus nuancé encore.

La mémoire augmente, enfin. Project DIGITS à 128 Go pour 3 000 $ est un signal fort. Les rumeurs de RTX 50 Super doubleraient la VRAM de plusieurs cartes grand public. Plus de mémoire locale = plus de modèles accessibles sans cloud.

Les modèles deviennent plus efficaces. Les nouvelles architectures permettent d'obtenir la qualité d'un modèle de 70B avec la vitesse d'un modèle 5× plus petit. Le Qwen 3.5 9B de mars 2026 bat des modèles 3× plus gros d'il y a 12 mois. Cela rend le local plus viable — mais cela rend aussi le cloud moins cher par requête.

Les outils se simplifient. Ollama, vLLM, llama.cpp : l'inférence locale est passée de « projet de recherche » à « une commande dans le terminal ». En parallèle, les API cloud deviennent aussi plus simples et plus compétitives. L'écart de friction entre les deux approches se réduit.

La décision qui vous appartient

Il n'y a pas de réponse universelle. Le cloud est le bon choix si votre utilisation est sporadique, si vous n'avez pas de contraintes de confidentialité, ou si vous ne voulez pas gérer d'infrastructure. C'est aussi le seul accès aux modèles frontier les plus récents.

Le local est le bon choix si vous traitez des données sensibles, si vous voulez de la prévisibilité budgétaire à volume régulier, et si vous avez un minimum de capacité technique interne.

En pratique, la majorité des organisations en 2026 bénéficieraient d'un mix des deux. Le matériel, les modèles et les outils sont là des deux côtés. Ce qui manque souvent, c'est d'avoir posé le calcul honnêtement.

La vraie question n'est ni « tout local » ni « tout cloud ». C'est : pour chaque cas d'usage, lequel fait le plus de sens?

Pour les plus techniques : le guide complet des GPU et modèles

L'essentiel en bref

Pour l'inférence locale, la seule métrique qui compte est la VRAM (mémoire vidéo). Un modèle qui ne rentre pas en VRAM tombe en offloading CPU — 5 à 30× plus lent.

La quantisation Q4 (compression 4-bit) divise l'empreinte mémoire par quatre avec une perte de qualité marginale. C'est le standard en 2026.

ℹ️ Formule de calcul VRAM

VRAM requise ≈ (Paramètres en milliards × octets par paramètre) × 1,18

FP16 : 2 octets/param → Llama 70B = ~165 Go
Q8 : 1 octet/param → Llama 70B = ~83 Go
Q4 : 0,5 octet/param → Llama 70B = ~41 Go

Attention aux modèles Mixture of Experts (MoE) : DeepSeek R1 annonce 671B paramètres mais n'en active que 37B par token. Le piège : tous les paramètres doivent quand même être en VRAM. DeepSeek R1 en Q4 = ~396 Go — territoire cloud uniquement.

La grille de compatibilité interactive

Le composant ci-dessous croise les GPU NVIDIA commerciaux (consumer, workstation, data center) avec les principaux modèles open-source. Vous pouvez filtrer par catégorie de carte et changer le niveau de quantisation pour voir instantanément ce qui rentre dans quelle carte.

GPU NVIDIA vs Modèles OSS

Compatibilité VRAM des cartes graphiques commerciales NVIDIA avec les principaux LLM open-source — mars 2026

Catégorie GPU

Quantisation

Modèle LLM	RTX 5060 Ti 8GB 8 GB · GDDR7 ~400 $	RTX 5060 Ti 16GB 16 GB · GDDR7 ~450 $	RTX 5070 12 GB · GDDR7 ~550 $	RTX 5070 Ti 16 GB · GDDR7 ~750 $	RTX 5080 16 GB · GDDR7 ~1 000 $	RTX 5090 32 GB · GDDR7 ~2 000 $	RTX 4090 (usagé) 24 GB · GDDR6X ~1 400 $	RTX 3090 (usagé) 24 GB · GDDR6X ~700 $	RTX A6000 48 GB · GDDR6 ECC ~4 500 $	RTX 6000 Ada 48 GB · GDDR6 ECC ~6 800 $	RTX PRO 6000 96 GB · GDDR7 ECC ~8 500 $	L40S 48 GB · GDDR6 Cloud	A100 80GB 80 GB · HBM2e Cloud	H100 SXM 80 GB · HBM3 Cloud	H200 141 GB · HBM3e Cloud	B200 192 GB · HBM3e Cloud	B300 288 GB · HBM3e Cloud	Project DIGITS 128 GB · Unifiée ~3 000 $
Qwen 3.5 9B Dense · 9B · ~5 GB Q4 Chat, code, multimodal	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓
Phi-4 14B / Qwen 2.5 14B Dense · 14B · ~8 GB Q4 Raisonnement, code	2x+	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓
Mistral Small 3.1 24B Dense · 24B · ~14 GB Q4 Multilingue, chat	✗	~	2x+	~	~	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓
Gemma 3 27B / Qwen 2.5 32B Dense · 32B · ~19 GB Q4 Chat avancé, code	✗	2x+	✗	2x+	2x+	✓	~	~	✓	✓	✓	✓	✓	✓	✓	✓	✓	✓
Llama 3.3 70B / Qwen 2.5 72B Dense · 72B · ~42 GB Q4 Frontier open-source	✗	✗	✗	✗	✗	2x+	✗	✗	~	~	✓	~	✓	✓	✓	✓	✓	✓
Llama 4 Scout 109B MoE MoE · 109B · ~64 GB Q4 10M contexte, général	✗	✗	✗	✗	✗	✗	✗	✗	2x+	2x+	✓	2x+	~	~	✓	✓	✓	✓
Qwen3-235B-A22B MoE MoE · 235B · ~139 GB Q4 Multilingue, raisonnement	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	2x+	✗	✗	✗	2x+	✓	✓	2x+
Qwen 3.5 397B MoE MoE · 397B · ~234 GB Q4 Frontier, multimodal	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	2x+	~	✗
DeepSeek R1 671B MoE MoE · 671B · ~396 GB Q4 Raisonnement CoT	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	2x+	✗
Mistral Large 3 675B MoE MoE · 675B · ~398 GB Q4 80+ langues, 256k ctx	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	✗	2x+	✗

Confortable (marge pour contexte)Serré (modèle charge, peu de marge)Impossible (VRAM insuffisant)Multi-GPU requis

* MoE = Mixture of Experts (paramètres actifs entre parenthèses). VRAM estimé = poids du modèle + ~18% overhead (KV cache, activations, framework). Prix approximatifs mars 2026. Les modèles MoE chargent tous les paramètres en VRAM même si seule une fraction est active par token.