TECHNETIA

PC pour LLM local : le guide matériel

Quel matériel pour faire tourner Llama, Mistral ou DeepSeek en local ? Le guide pour choisir GPU, VRAM et RAM selon la taille de vos modèles.

Faire tourner un grand modèle de langage (LLM) en local — Llama, Mistral, DeepSeek, Qwen — exige surtout de la VRAM. Ce guide vous aide à choisir le bon GPU et la bonne quantité de mémoire selon la taille de vos modèles.

La VRAM avant tout

En inférence quantifiée, comptez environ 12 à 16 Go pour un modèle de 7 à 8 milliards de paramètres, 24 Go (RTX 4090) pour des modèles 13B confortables, 32 Go (RTX 5090) pour de la marge sur 13 à 30B, et 96 Go (RTX PRO 6000 Blackwell) pour les grands modèles et les contextes longs.

RAM système et stockage

Prévoyez au moins le double de la VRAM en RAM système (64 à 128 Go pour un usage sérieux) et un stockage NVMe rapide pour charger les poids des modèles sans attendre.

Quand passer au GB10 / GX10

Pour exécuter en local des modèles jusqu'à 200 milliards de paramètres, un mini superordinateur GB10 / GX10 avec 128 Go de mémoire unifiée devient pertinent face à une carte RTX classique.

FAQ

Quel est le meilleur PC pour un LLM local ?

Celui dont la VRAM correspond à vos modèles : RTX 5090 (32 Go) pour la plupart des usages, RTX PRO 6000 (96 Go) ou GB10/GX10 (128 Go unifiés) pour les très grands modèles.

Puis-je faire tourner Llama, Mistral ou DeepSeek en local ?

Oui, avec un GPU disposant d'assez de VRAM pour la taille (et la quantification) du modèle. Nos experts dimensionnent la machine selon les modèles visés.

Combien de VRAM pour un modèle 70B ?

En quantifié, un modèle de 70 milliards de paramètres demande typiquement une très forte VRAM (carte 96 Go type RTX PRO 6000, ou mémoire unifiée GB10/GX10). Demandez-nous une recommandation précise.