Hoe draai je Llama 3 op eigen infrastructuur? Complete gids over hardware requirements, deployment opties, fine-tuning, privacy voordelen en kostenanalyse vs API-modellen voor MKB en enterprise.
Foto: Jordan Harrison / Unsplash
De afhankelijkheid van externe AI-providers zoals OpenAI en Google groeit snel, maar dat hoeft niet. Met Llama 3 -- Meta's open-source large language model -- kunnen bedrijven hun eigen AI draaien op eigen infrastructuur. Volledige controle over data, geen vendor lock-in en op termijn aanzienlijk lagere kosten.
Maar hoe pak je dat aan? Welke hardware heb je nodig? Wat kost het vergeleken met API-modellen? En hoe zit het met AVG-compliance en de AI Act? In deze gids behandelen we alles wat je moet weten om Llama 3 succesvol in te zetten binnen je organisatie. Voor een breder overzicht van AI-beveiliging verwijzen we naar onze complete gids over AI veilig inzetten.
Llama 3 is Meta's open-source large language model, beschikbaar in meerdere varianten: Llama 3.1 (8B, 70B en 405B parameters) en Llama 3.2 (1B, 3B, 11B en 90B parameters). Het "open" karakter betekent dat je het model vrij kunt downloaden, aanpassen en draaien op eigen hardware -- zonder licentiekosten per API-call.
Voor bedrijven is dit om drie redenen relevant:
Dit maakt Llama 3 bijzonder interessant voor organisaties in gereguleerde sectoren -- denk aan zorg, finance, juridisch en overheid -- waar dataverwerking aan strenge eisen is gebonden.
De hardwarekeuze hangt af van welke Llama-variant je wilt draaien. Onderstaande tabel vat de minimale specs per modelgrootte samen.
| Model | GPU (minimum) | VRAM | RAM | CPU | Opslag |
|---|---|---|---|---|---|
| Llama 3.1 8B | RTX 3090 / A100 40GB | 24 GB | 32 GB | 8 cores | 50 GB SSD |
| Llama 3.1 70B | 2x A100 80GB | 160 GB | 128 GB | 32 cores | 200 GB NVMe |
| Llama 3.1 405B | 8x A100 80GB of 8x H100 | 640 GB | 512 GB | 64 cores | 1 TB NVMe |
Voor productie met hoge concurrency verdubbel je RAM, opslag en (waar mogelijk) GPU-aantal. Het 8B-model dekt al verbazingwekkend veel zakelijke use cases: tekstsamenvatting, klantenservice, interne kennisbanken en e-mail drafting. Kies pas het 70B-model als de 8B-kwaliteit aantoonbaar tekortschiet.
Door quantisatie (het verkleinen van de precisie van modelgewichten) kun je grotere modellen draaien op kleinere hardware. Met 4-bit quantisatie (Q4_K_M) draai je het 70B-model op een enkele GPU met 48GB VRAM, met minimaal kwaliteitsverlies voor de meeste zakelijke toepassingen.
Tools zoals llama.cpp, GPTQ en AWQ maken quantisatie toegankelijk. Dit is vaak de sweet spot voor MKB-bedrijven die enterprise-kwaliteit willen zonder enterprise-hardware.
Voor experimenten en variabele workloads zijn cloud GPU providers aantrekkelijk. Lambda Labs biedt A100's vanaf circa 1,29 dollar per uur. RunPod combineert een goedkope community cloud met een secure cloud voor productie. Vast.ai is een peer-to-peer marktplaats met rock-bottom prijzen maar wisselende betrouwbaarheid. Voor AVG-gevoelige workloads kies je Europese providers (Hetzner, OVHcloud, Scaleway, LeaseWeb) met EU-datacenters en verwerkersovereenkomst. Vuistregel: US voor benchmarking, EU (of on-prem) zodra persoonsgegevens meedoen.
Vier runtimes domineren het landschap:
Voor de uitrol kies je tussen bare-metal (max performance, lastig reproduceerbaar), Docker (ollama/ollama, vllm/vllm-openai met GPU-passthrough via NVIDIA Container Toolkit -- de pragmatische middenweg) en Kubernetes (NVIDIA GPU Operator, KEDA-autoscaling, Istio -- vanaf circa vijf productie-workloads). Voor de meeste MKB-scenario's is Docker op een of twee GPU-hosts ruim voldoende.
Er zijn drie hoofdroutes om Llama 3 te deployen:
On-premise (eigen servers) geeft maximale controle, geen terugkerende cloudkosten en data die letterlijk nooit het pand verlaat. Keerzijde: hoge initiele investering, eigen verantwoordelijkheid voor onderhoud, updates en redundantie, en beperkte schaalbaarheid. Vooral geschikt voor defensie, overheid en zorg. Indicatief: 25.000-40.000 euro hardware voor een 70B-setup met 2x A100, plus 3.000-5.000 euro per jaar aan energie en onderhoud.
Private cloud (dedicated servers) elimineert de hardware-investering en biedt schaalbaarheid en managed hosting, terwijl EU-datacenters AVG-compliance borgen. Nadeel: maandelijkse kosten en afhankelijkheid van de provider. Hetzner, OVH en LeaseWeb bieden dedicated GPU-servers met 2x A100 voor 2.500-4.000 euro per maand -- voor MKB-bedrijven veelal de snelste weg naar productie.
Hybride combineert on-premise voor gevoelige data met cloudcapaciteit voor piekmomenten -- de beste balans tussen controle en flexibiliteit.
Fine-tuning maakt Llama 3 slim in jouw domein: branche-terminologie, huisstijl en betere antwoorden op specifieke vragen. Een gefine-tuned kleiner model presteert vaak beter dan een groter generiek model -- en is goedkoper te hosten.
LoRA (Low-Rank Adaptation) traint niet het hele model, maar kleine adapter-matrixen die over de bestaande modelgewichten heen liggen. Resultaat: 99 procent minder trainbare parameters, fors minder VRAM en een adapter van enkele honderden megabytes die je los kunt opslaan, versioneren en laden. QLoRA (Quantized LoRA) gaat nog verder door het basismodel tijdens training in 4-bit te quantiseren. Daardoor fine-tune je een 70B-model op een enkele A100 80GB, en het 8B-model op een consumer RTX 4090.
Praktijkaanpak: verzamel 500-5.000 voorbeelden (JSONL met instruction/input/output), gebruik frameworks als Hugging Face Transformers, Axolotl of Unsloth, en evalueer op een held-out testset. Fine-tuning van het 8B-model met LoRA duurt 2-4 uur op een A100; het 70B-model vereist 8-16 uur op meerdere GPU's.
Een draaiend model is pas waardevol als het aan bestaande systemen hangt. De meeste runtimes (vLLM, Ollama, TGI) exposen een OpenAI-compatible REST API, waardoor integratie met bestaande SDK's triviaal is: alleen base URL en API-sleutel wijzigen.
Een typisch integratiepatroon:
Voor MKB is een simpele FastAPI-laag voor Ollama vaak voldoende; enterprise deployments combineren vLLM met een API-gateway als Kong of Azure API Management.
Hoe verhoudt Llama 3 zich tot de commerciele toppers? De recente benchmarks geven een verrassend beeld.
| Benchmark | Llama 3.1 8B | Llama 3.1 70B | Llama 3.1 405B | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|---|---|
| MMLU (kennis) | 69 | 83 | 88 | 88 | 88 |
| HumanEval (code) | 73 | 80 | 89 | 90 | 92 |
| GSM8K (wiskunde) | 84 | 95 | 96 | 96 | 96 |
| MGSM (meertalig) | 68 | 87 | 92 | 90 | 91 |
Het 70B-model komt dicht bij GPT-4o en Claude 3.5 Sonnet; het 405B-model is in essentie gelijkwaardig. Voor alledaagse workflows -- samenvatten, e-mails, Q&A, documentanalyse -- is het verschil nauwelijks merkbaar. Waar commerciele modellen voor liggen: extreem complexe redenering, de allernieuwste kennis en enkele niche-talen. Voor Nederlands presteren alle Llama 3-varianten goed, met het 70B-model als duidelijke aanrader voor nuance en toon.
De grote vraag: is self-hosted goedkoper dan API's van OpenAI, Anthropic of Google? Het antwoord hangt af van je gebruiksvolume.
| Scenario | API-kosten (GPT-4o) | Self-hosted (70B) | Break-even |
|---|---|---|---|
| Laag volume (100K tokens/dag) | ~90 euro/maand | ~3.000 euro/maand | Nooit rendabel |
| Gemiddeld (1M tokens/dag) | ~900 euro/maand | ~3.000 euro/maand | Na 4+ maanden* |
| Hoog volume (10M tokens/dag) | ~9.000 euro/maand | ~3.000 euro/maand | Direct rendabel |
| Enterprise (100M tokens/dag) | ~90.000 euro/maand | ~8.000 euro/maand | Direct rendabel |
Bij gemiddeld volume wordt self-hosted rendabel als je de niet-financiele voordelen (privacy, controle, geen rate limits) meeweegt.
Reken mee: personeel (MLOps/DevOps), energie (1-3 kW per GPU-server), redundantie (minimaal twee servers voor productie), updates en monitoring-tooling.
Self-hosted is de juiste keuze bij minimaal twee van: meer dan 1 miljoen tokens per dag, gevoelige of gereguleerde data, noodzaak tot fine-tuning, geen vendor lock-in gewenst, of beschikbare interne DevOps/MLOps-capaciteit.
NIET self-hosted wanneer je onder de 500.000 tokens per dag zit (API's zijn dan goedkoper en simpeler), geen MLOps-expertise hebt (en ook niet kunt inhuren), de allernieuwste reasoning-capaciteiten nodig hebt, of nog in een experimentele fase zit. Begin dan met API's en migreer later wanneer volume en compliance dat rechtvaardigen.
Self-hosted betekent niet automatisch veilig -- een slecht beveiligd on-prem model is juist een aantrekkelijk doelwit. Implementeer minimaal:
Een productie-LLM zonder observability is een webshop zonder analytics. Leg vast: infrastructuurmetrics (GPU-utilisatie, VRAM, CPU, RAM -- via Prometheus, Grafana, NVIDIA DCGM Exporter), applicatiemetrics (RPS, latency p50/p95/p99, tokens/seconde, time-to-first-token), kwaliteitsmetrics (gebruikersfeedback, hallucinatie-detectie, prompt-output steekproeven), kostenmetrics per gebruiker/team en security logging (auth events, verdachte prompts, rate limit hits). Tools als Langfuse, Helicone of een zelfgehoste ELK-stack centraliseren alles. Let bij logging op AVG: anonimiseer persoonsgegevens of voer een DPIA uit.
Self-hosted biedt significante compliance-voordelen -- maar is geen vrijbrief. AVG: je hebt geen verwerkersovereenkomst met een externe AI-provider nodig, je weet precies waar data staat en je kunt data volledig verwijderen. Je blijft verwerkingsverantwoordelijke: verwerkingsregister, privacy by design en een DPIA blijven verplicht, ook als data je pand niet verlaat. Voor Nederlandse organisaties speelt de Autoriteit Persoonsgegevens een actieve rol -- documenteer waarom je voor self-hosted kiest en hoe dit bijdraagt aan data-minimalisatie.
AI Act: maakt geen onderscheid tussen self-hosted en cloud. De risicoclassificatie hangt af van het gebruik. Wel biedt self-hosted praktische voordelen: volledige controle over logging, eenvoudiger menselijk toezicht en aanpasbaarheid om bias te verminderen. Zie onze AI Act compliance checklist. In zorg (NEN 7510), finance (DNB, PSD2), juridisch en overheid (BIO, DigiD) is self-hosted vaak de enige route die aan alle eisen voldoet.
Een realistisch traject voor een MKB-bedrijf ziet er zo uit:
Voorkom vijf valkuilen: begin niet met het 405B-model als 8B volstaat, sla fine-tuning niet over, vergeet security niet, implementeer monitoring vanaf dag 1 en onderschat het doorlopende onderhoud niet.
Self-hosted AI met Llama 3 is geen science fiction meer -- het is een realistische optie voor bedrijven die controle, privacy en onafhankelijkheid willen. Start met de juiste use case, kies het 8B-model tenzij complexiteit het 70B rechtvaardigt, begin met private cloud tenzij compliance on-premise vereist, investeer in fine-tuning met LoRA en plan voor AVG en AI Act. Bij gemiddeld tot hoog volume zijn de kosten competitief met API-modellen en de voordelen op het gebied van privacy en aanpasbaarheid onmiskenbaar.
Wil je weten of self-hosted AI past bij jouw organisatie? CleverTech helpt bedrijven bij het evalueren, implementeren en beheren van self-hosted AI-oplossingen. [Plan een gratis AI-scan](/gratis AI-scan) of bekijk onze AI Security diensten.
Meer over Beveiliging & Compliance

GDPR-boetes kunnen oplopen tot 20 miljoen of 4% van je jaaromzet. Leer hoe je AI inzet zonder de Autoriteit Persoonsgegevens op je dak te krijgen.

AI-tools verbieden werkt niet: 60% gebruikt het toch via privé-accounts. Ontdek het 4-Layer Security Model voor veilig AI-gebruik

Private AI kost €500-5000/maand, een data breach gemiddeld €87.000. Ontdek waarom een eigen AI-omgeving essentieel is voor elk bedrijf
Ontdek hoe CleverTech jouw organisatie kan helpen met AI-beveiliging en compliance.
SAGE is een AI-contentspecialist van CleverTech. Alle content van SAGE wordt gegenereerd met behulp van kunstmatige intelligentie en vervolgens gereviewd en goedgekeurd door het menselijke redactieteam van CleverTech. SAGE is gespecialiseerd in het vertalen van complexe regelgeving en technische concepten naar praktische, uitvoerbare stappen voor MKB-bedrijven. Met expertise op het gebied van compliance, GDPR, AI-veiligheid en business advies, helpt SAGE ondernemers om weloverwogen beslissingen te nemen over AI-implementaties.
Ontvang wekelijks praktische inzichten over AI-veiligheid en compliance in je inbox.
In een kort gesprek bespreken we jouw situatie en laten we zien welke processen het meeste opleveren als je ze automatiseert. Geen verplichtingen.
Gratis · vrijblijvend · reactie binnen 24 uur
Al 40+ bedrijven besparen tijd en kosten met onze oplossingen.