Welke GPU heb ik nodig om een model met 7 miljard parameters voor een team te draaien?

Een consumenten-GPU met minimaal 16 GB VRAM (zoals de RTX 4060 Ti 16 GB, RTX 4070 of AMD RX 7900 XT) kan 7B-modellen efficiënt uitvoeren. Voor 13B-modellen is 24 GB VRAM aan te raden (bijvoorbeeld RTX 4090 of RTX 3090). Meerdere gebruikers kunnen een enkele GPU delen via wachtrijsystemen voor verzoeken zoals vLLM of Ollama.

Hoe verhouden de kosten zich tot het gebruik van de OpenAI- of Claude-API’s?

Een RTX 4090-systeem ter waarde van $1.500 haalt zijn investering terug na het verwerken van ongeveer 15 tot 30 miljoen tokens, gebaseerd op de prijzen van OpenAI voor GPT-4 ($0,03-$0,06 per 1.000 tokens). Voor teams die dagelijks 1 miljoen tokens of meer verwerken, verdient de hardware zich in 2 tot 3 maanden terug en biedt het daarna onbeperkt gebruik en volledige data-privacy.

Kan ik meerdere modellen gelijktijdig draaien?

Ja. Met voldoende VRAM kunt u meerdere modellen laden. Een GPU met 24 GB kan gelijktijdig een 7B-model (14 GB) en een 3B-model (6 GB) uitvoeren. Alternatief kunt u modelswapping gebruiken met tools zoals Ollama, die modellen automatisch laden en ontladen op basis van verzoeken, of meerdere GPUs in een cluster implementeren.

Wat zijn de belangrijkste voordelen ten opzichte van cloud-AI-diensten?

De belangrijkste voordelen zijn volledige gegevensprivacy (geen gegevens verlaten uw netwerk), geen kosten per token na de initiële investering, geen snelheidsbeperkingen, de mogelijkheid om modellen te verfijnen op eigendomsgegevens, aanpasbare infrastructuur en onafhankelijkheid van beleids- en prijsveranderingen van API-aanbieders.

Hoe beheer ik de toegang van meerdere teamleden tot de AI-infrastructuur?

Implementeer API-compatible servers zoals Ollama, vLLM of LocalAI met Docker of Kubernetes. Gebruik nginx of Traefik voor load balancing, implementeer authenticatie met API-sleutels en gebruik request-queuing om gelijktijdige gebruikers te beheren. Tools zoals OpenWebUI bieden multi-user interfaces met gebruikersbeheer.

Wat is de minimale levensvatbare AI-infrastructuur voor een team?

Begin met een enkele werkstation met een RTX 4070 (12 GB, $600), Ollama voor model-serving, Docker voor containerisatie en OpenWebUI voor het teaminterface. Deze setup van $1.000–$1.500 ondersteunt 5 tot 10 gelijktijdige gebruikers met 7B-modellen en kan indien nodig verticaal (meer VRAM) of horizontaal (meer nodes) worden geschaald.

AI-infrastructuur op consumentenhardware

Implementeer enterprise AI op budgethardware met open modellen

Inhoud

De democratisering van AI is een feit. Met open-source LLM’s zoals Llama, Mistral en Qwen die nu eigen modellen rivaliseren, kunnen teams krachtige AI-infrastructuur op consumentenhardware bouwen – kosten drastisch verlagen terwijl volledige controle over gegevensprivacy en implementatie behouden blijft.

Voor bredere context over GPU-prijzen, workstation-configuraties en de economie van rekeninfrastructuur, zie onze Rekenhardware in 2026: GPUs, CPUs, Geheugen & AI-workstations.

De economie is overtuigend. Een RTX 5080 van het huidige generatie of een gebruikte RTX 4090 – beide nu beschikbaar voor minder dan $1.500 USD – haalt de GPT-4 API-kosten binnen één tot drie maanden in voor een team dat een miljoen tokens per dag verwerkt. Daarna is het gebruik effectief gratis: geen limieten, geen kosten per token, en geen afhankelijkheid van de beschikbaarheid of prijsveranderingen van externe diensten.

Privacy is de andere drijfveer. Wanneer modellen lokaal draaien, verlaat gevoelige data nooit uw netwerk. Dat is van belang in gereguleerde sectoren – gezondheidszorg, financiën, juridisch – maar ook voor elk team dat werkt met proprietary codebases, interne documenten of klantgegevens. U eigen de infrastructuur en u bepaalt het beleid.

Team AI-infrastructuur op consumentenhardware

Deze gids behandelt de volledige stack: GPU-selectie voor verschillende teamgroottes en budgetten, model-serving met Ollama en vLLM, containerisatie met Docker en Kubernetes, en team-interfaces zoals OpenWebUI – alles wat nodig is om van een lege server naar een productieklaar AI-platform te gaan.

Waarom uw team’s AI-infrastructuur zelf hosten?

Het landschap heeft zich drastisch veranderd. Wat ooit miljoenen dollars aan GPU-clusters vereiste, is nu haalbaar met consumentenhardware die minder kost dan een high-end workstation.

Het geval voor zelf-gehoste AI

Kostenefficiëntie

OpenAI GPT-4 kost $0,03-0,06 per 1K tokens
Een team dat 1M tokens/dag verwerkt, geeft $900-1.800/month uit
Een RTX 4090-systeem van $2.000 haalt de kosten terug binnen 1-3 maanden
Na break-even: onbeperkt gebruik bij nul marginale kosten

Gegevensprivacy & Compliance

Volledige controle over gevoelige data
Geen data verzonden naar third-party APIs
GDPR, HIPAA en sectorele compliance
Opties voor air-gapped implementaties

Aanpassing & Controle

Fine-tuning van modellen op proprietary data
Geen limieten of quotums
Aangepaste implementatie-configuraties
Onafhankelijkheid van API-provider veranderingen

Prestatievoorspelbaarheid

Consistente latentie zonder API-fluctuaties
Geen afhankelijkheid van externe service uptime
Controleerbare toewijzing van resources
Geoptimaliseerd voor uw specifieke werklasten

Hardwareselectie: Bouw uw AI-server

GPU-keuzes voor verschillende budgetten

Budget Tier ($600-900): 7B Modellen

NVIDIA RTX 4060 Ti 16GB ($500): Draait 7B-modellen, 2-3 gelijktijdige gebruikers
AMD RX 7900 XT ($650): 20GB VRAM, uitstekend voor inferentie
Gebruiksgeval: Kleine teams (3-5 personen), standaard coderen/schrijftaken

Mid Tier ($1.200-1.800): 13B Modellen

NVIDIA RTX 4070 Ti ($800): 12GB VRAM, goede 7B-prestaties
NVIDIA RTX 4090 ($1.600): 24GB VRAM, draait 13B-modellen soepel
Gebruikte RTX 3090 ($800-1.000): 24GB VRAM, uitstekende waarde
Opmerking: Voor de laatste prijstrends voor de komende RTX 5080 en 5090-modellen, zie onze analyse van RTX 5080 en RTX 5090 prijsdynamiek
Gebruiksgeval: Gemiddelde teams (5-15 personen), complexe redeneertaken

Professional Tier ($2.500+): 30B+ Modellen

Meerdere RTX 3090/4090 ($1.600+ per stuk): Gedistribueerde inferentie
AMD Instinct MI210 (gebruikt, $2.000+): 64GB HBM2e
NVIDIA A6000 (gebruikt, $3.000+): 48GB VRAM, professionele betrouwbaarheid
NVIDIA Quadro RTX 5880 Ada (48GB): Voor professionele implementaties die maximale VRAM en betrouwbaarheid vereisen, overweeg de mogelijkheden en waardepropositie van de Quadro RTX 5880 Ada
NVIDIA DGX Spark: Voor teams die overwegen NVIDIA’s doelgebouwde AI-supercomputer, zie onze DGX Spark-overzicht en prijsanalyse voor Australië
Gebruiksgeval: Grote teams (15+), onderzoek, fine-tuning

Overwegingen voor een compleet systeem

CPU & Geheugen

CPU: Ryzen 5 5600 of Intel i5-12400 (voldoende voor AI-serving)
RAM: 32GB minimum, 64GB aanbevolen voor grote contextvensters
Snel RAM helpt bij promptverwerking en model laden
CPU-optimalisatie: Voor Intel-processors met hybride architectuur (P-kernen en E-kernen), zie hoe Ollama verschillende CPU-kern types gebruikt om prestaties te optimaliseren
PCIe-configuratie: Bij het plannen van multi-GPU-opstellingen of high-performance implementaties, is het begrijpen van PCIe-lanes en hun impact op LLM-prestaties cruciaal voor optimale bandbreedtetoe wijzing

Opslag

NVMe SSD: 1TB minimum voor modellen en cache
Modellen: 4-14GB elk, houd 5-10 modellen geladen
Snelle opslag vermindert model laadtijd

Stroom & Koeling

RTX 4090: 450W TDP, vereist 850W+ voeding
Goede koeling essentieel voor 24/7-bedrijf
Budget $150-200 voor kwaliteitsvoeding en koeling

Netwerk

1Gbps voldoende voor API-toegang
10Gbps voordelig voor gedistribueerd training
Lage latentie is belangrijk voor real-time toepassingen

Voorbeeld-opstellingen

Budget Build ($1.200)

GPU: RTX 4060 Ti 16GB ($500)
CPU: Ryzen 5 5600 ($130)
RAM: 32GB DDR4 ($80)
Mobo: B550 ($120)
Storage: 1TB NVMe ($80)
PSU: 650W 80+ Gold ($90)
Case: $80
Totaal: ~$1.200

Optimale Build ($2.500)

GPU: RTX 4090 24GB ($1.600)
CPU: Ryzen 7 5700X ($180)
RAM: 64GB DDR4 ($140)
Mobo: X570 ($180)
Storage: 2TB NVMe ($120)
PSU: 1000W 80+ Gold ($150)
Case: $100
Totaal: ~$2.500

Software Stack: Open Source AI Serving

Model Serving Platforms

Ollama: Eenvoud voorop

# Ollama installeren
curl -fsSL https://ollama.ai/install.sh | sh

# Een model draaien
ollama run llama3:8b

# API server (OpenAI compatibel)
ollama serve

Voordelen:

Doodsimpel opzetten
Automatisch modelbeheer
OpenAI-compatibele API
Efficiënte GGUF-quantisatie
Ingebouwde modelbibliotheek

Prestaties: Voor real-world Ollama-prestatiebenchmarks over verschillende hardware-configuraties, inclusief enterprise- en consumenten-GPU’s, bekijk onze gedetailleerde vergelijking van NVIDIA DGX Spark, Mac Studio en RTX 4080. Voor een dieper kijk op NVIDIA’s doelgebouwde AI-workstation, zie onze DGX Spark vs. Mac Studio-analyse.

Best voor: Teams die prioriteit geven aan gebruiksgemak, snelle implementatie

vLLM: Maximale Prestaties

# vLLM installeren
pip install vllm

# Model serveren
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-2-7b-chat-hf \
    --tensor-parallel-size 1

Voordelen:

Hoogste throughput
PagedAttention voor geheugenefficiëntie
Continue batching
Multi-GPU ondersteuning

Best voor: Scenario’s met hoge throughput, meerdere gelijktijdige gebruikers

LocalAI: All-in-One Oplossing

# Docker implementatie
docker run -p 8080:8080 \
    -v $PWD/models:/models \
    localai/localai:latest

Voordelen:

Ondersteuning voor meerdere backends (llama.cpp, vLLM, etc.)
Audio, beeld- en tekstmodellen
OpenAI API compatibel
Uitgebreide modelondersteuning

Best voor: Diversifieke werklasten, multimodale vereisten

Containerisatie & Orchestration

Docker Compose Setup

version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped

  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - webui_data:/app/backend/data
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama_data:
  webui_data:

Kubernetes Implementatie

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ollama-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: ollama
  template:
    metadata:
      labels:
        app: ollama
    spec:
      containers:
      - name: ollama
        image: ollama/ollama:latest
        ports:
        - containerPort: 11434
        resources:
          limits:
            nvidia.com/gpu: 1
        volumeMounts:
        - name: models
          mountPath: /root/.ollama
      volumes:
      - name: models
        persistentVolumeClaim:
          claimName: ollama-pvc
---
apiVersion: v1
kind: Service
metadata:
  name: ollama-service
spec:
  selector:
    app: ollama
  ports:
  - port: 11434
    targetPort: 11434
  type: LoadBalancer

Model Selectie & Implementatie

Top Open Source Modellen (November 2024)

7B Parameter Klasse (Entry Level)

Llama 3.1 8B: Meta’s nieuwste, uitstekende algemene prestaties
Mistral 7B v0.3: Sterke redeneer- en coderingsmogelijkheden
Qwen2.5 7B: Meertalig, sterk bij technische taken
VRAM: 8-12GB, Snelheid: ~30-50 tokens/sec op RTX 4060 Ti

13B Parameter Klasse (Gebalanceerd)

Llama 3.1 13B: Beste algehele kwaliteit in de klasse
Vicuna 13B: Fine-tuned voor conversatie
WizardCoder 13B: Gespecialiseerd voor coderen
VRAM: 14-18GB, Snelheid: ~20-30 tokens/sec op RTX 4090

30B+ Parameter Klasse (Hoog Kwaliteit)

Llama 3.1 70B: Rivaliseert met GPT-4 op veel benchmarks
Mixtral 8x7B: MoE-architectuur, efficiënt 47B-model
Yi 34B: Sterke meertalige prestaties
VRAM: 40GB+ (vereist meerdere GPU’s of zware quantisatie)

Quantisatie Strategieën

GGUF Quantisatie Niveaus

Q4_K_M: 4-bit, ~50% grootte, minimale kwaliteitsverlies (aanbevolen)
Q5_K_M: 5-bit, ~60% grootte, betere kwaliteit
Q8_0: 8-bit, ~80% grootte, bijna originele kwaliteit
F16: Volledige 16-bit, 100% grootte, originele kwaliteit

Voorbeeld: Llama 3.1 8B Model Grootte

Origineel (F16): 16GB
Q8_0: 8,5GB
Q5_K_M: 5,7GB
Q4_K_M: 4,6GB

# Ollama gebruikt automatisch optimale quantisatie
ollama pull llama3:8b

# Voor custom quantisatie met llama.cpp
./quantize models/llama-3-8b-f16.gguf models/llama-3-8b-q4.gguf Q4_K_M

Multi-Gebruiker Toegang & Load Balancing

Authenticatie & Toegangscontrole

API Key Authenticatie met nginx

http {
    upstream ollama_backend {
        server localhost:11434;
    }

    map $http_authorization $api_key {
        ~Bearer\s+(.+) $1;
    }

    server {
        listen 80;
        server_name ai.uwteam.com;

        location / {
            if ($api_key != "uw-veilige-api-key") {
                return 401;
            }

            proxy_pass http://ollama_backend;
            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $remote_addr;
        }
    }
}

OpenWebUI Multi-Gebruiker Setup

OpenWebUI biedt ingebouwd gebruikersbeheer:

Gebruikersregistratie en authenticatie
Per-gebruiker conversatiegeschiedenis
Admin dashboard voor gebruikersbeheer
Rolgebaseerde toegangscontrole

Load Balancing van Meerdere GPU’s

Round-Robin met nginx

upstream ollama_cluster {
    server gpu-node-1:11434;
    server gpu-node-2:11434;
    server gpu-node-3:11434;
}

server {
    listen 80;
    location / {
        proxy_pass http://ollama_cluster;
    }
}

Strategie voor Verzoekwachtrijen

vLLM hanteert gelijktijdige verzoeken met continue batching
Ollama queue-t verzoeken automatisch
Overweeg maximale gelijktijdige verzoeken gebaseerd op VRAM

Geavanceerde Implementaties

RAG (Retrieval Augmented Generation)

# Voorbeeld RAG-opzet met LangChain
from langchain.llms import Ollama
from langchain.embeddings import OllamaEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA

# Modellen initialiseren
llm = Ollama(model="llama3:8b", base_url="http://localhost:11434")
embeddings = OllamaEmbeddings(model="nomic-embed-text")

# Vector store maken
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

# RAG keten maken
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3})
)

# Query
result = qa_chain.run("Wat is het verlofbeleid van ons bedrijf?")

Fine-Tuning voor Team-specifieke Taken

# LoRA fine-tuning met Unsloth (geheugenefficiënt)
from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3-8b",
    max_seq_length=2048,
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # LoRA rank
    lora_alpha=16,
    lora_dropout=0,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)

# Train op uw dataset
trainer.train()

# Sla het fine-tuned model op
model.save_pretrained("./models/bedrijf-llama-3-8b")

Monitoring & Observability

Prometheus Metrics

# docker-compose.yml toevoeging
  prometheus:
    image: prom/prometheus
    ports:
      - "9090:9090"
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml

  grafana:
    image: grafana/grafana
    ports:
      - "3001:3000"
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=admin

Belangrijke Metrics om te Monitoren

GPU-gebruik en temperatuur
VRAM-gebruik
Verzoeklatentie en throughput
Wachtrijlengte
Model laadtijden
Token generatiesnelheid

Beste Praktijken voor Beveiliging

Netwerkbeveiliging

Implementeren achter VPN of firewall
Gebruik TLS/SSL voor externe toegang
Implementeer limieten (rate limiting)
Regelmatige beveiligingsupdates

Gegevensprivacy

Houd modellen en data on-premises
Versleutel opslagvolumes
Audit toegangslogs
Implementeer data-retentiebeleid

Toegangscontrole

API key rotatie
Gebruikersauthenticatie
Rolgebaseerde permissies
Sessiebeheer

Kostenanalyse & ROI

Totale Bezitkosten (3 Jaar)

Zelf-gehost (RTX 4090 Setup)

Initiële hardware: $2.500
Elektriciteit (450W @ $0,12/kWh, 24/7): $475/jaar = $1.425/3jr
Onderhoud/updates: $500/3jr
Totale 3-jarige kosten: $4.425

Cloud API (GPT-4 Equivalent)

Gebruik: 1M tokens/dag gemiddeld
Kosten: $0,04/1K tokens
Dagelijks: $40
Totale 3-jarige kosten: $43.800

Besparing: $39.375 (89% kostenreductie)

Break-Even Analyse

Team verwerkt 500K tokens/dag: 4-6 maanden
Team verwerkt 1M tokens/dag: 2-3 maanden
Team verwerkt 2M+ tokens/dag: 1-2 maanden

Schaalstrategieën

Verticale Schaling

Voeg meer VRAM toe (upgrade GPU)
Verhoog systeem RAM voor grotere contexten
Snellere opslag voor model laden

Horizontale Schaling

Voeg meer GPU-knooppunten toe
Implementeer load balancing
Gedistribueerde inferentie met Ray
Model parallelisme voor grotere modellen

Hybride Aanpak

Zelf-hosten voor gevoelige/standaard taken
Cloud API voor piekbelastingen of gespecialiseerde modellen
Kostenoptimalisatie via intelligente routing

Veelvoorkomende Uitdagingen & Oplossingen

Uitdaging: Model Laadtijd

Oplossing: Houd veelgebruikte modellen in VRAM, gebruik model caching

Uitdaging: Meerdere Gelijktijdige Gebruikers

Oplossing: Implementeer verzoekwachtrijen, gebruik vLLM’s continue batching

Uitdaging: Beperkte VRAM

Oplossing: Gebruik gequantiseerde modellen (Q4/Q5), implementeer model swapping

Uitdaging: Onstabiele Prestaties

Oplossing: Monitor GPU-temperatuur, implementeer juiste koeling, gebruik consistente batchgroottes

Uitdaging: Model Updates

Oplossing: Geautomatiseerde model update-scripts, versiebeheer, rollback-procedures

Checklist voor Aan de Slag

Kies GPU gebaseerd op teamgrootte en budget
Assembleer of koop hardware
Installeer Ubuntu 22.04 of vergelijkbare Linux-distributie
Installeer NVIDIA-drivers en CUDA-toolkit
Installeer Docker en docker-compose
Implementeer Ollama + OpenWebUI stack
Pull 2-3 modellen (begin met Llama 3.1 8B)
Configureer netwerktoegang en authenticatie
Stel monitoring in (minimaal GPU-statistieken)
Train team op API-gebruik of web-interface
Documenteer implementatie en toegangsprocedures
Plan voor back-ups en rampherstel

Nuttige Links

Ollama - Gemakkelijk lokaal LLM-serving
vLLM - High-performance inferentie engine
OpenWebUI - Gebruiksvriendelijke web-interface
LocalAI - OpenAI-compatibele lokale AI-server
Hugging Face Model Hub - Open-source model repository
llama.cpp - CPU/GPU inferentie optimalisatie
LangChain - RAG en AI-toepassingsframework
Unsloth - Efficiënte fine-tuning
LM Studio - Desktop GUI voor lokale modellen
GPT4All - Lokale chatbot ecosysteem
Perplexica - Zelf-gehoste AI-zoekmachine
Is de Quadro RTX 5880 Ada 48GB goed?
NVidia RTX 5080 en RTX 5090 prijzen in Australië - Oktober 2025
NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestatie Vergelijking
LLM Prestaties en PCIe Lanes: Belangrijke Overwegingen
Test: Hoe Ollama Intel CPU Prestaties en Efficiënte Kernen gebruikt