De afhankelijkheid van externe AI-providers zoals OpenAI en Google groeit snel, maar dat hoeft niet. Met Llama 3 -- Meta's open-source large language model -- kunnen bedrijven hun eigen AI draaien op eigen infrastructuur. Volledige controle over data, geen vendor lock-in en op termijn aanzienlijk lagere kosten.
Maar hoe pak je dat aan? Welke hardware heb je nodig? Wat kost het vergeleken met API-modellen? En hoe zit het met AVG-compliance en de AI Act? In deze gids behandelen we alles wat je moet weten om Llama 3 succesvol in te zetten binnen je organisatie. Voor een breder overzicht van AI-beveiliging verwijzen we naar onze alles over AI veilig inzetten.
Wat is Llama 3 en waarom is het relevant voor bedrijven?
Llama 3 is Meta's open-source large language model, beschikbaar in meerdere varianten: Llama 3.1 (8B, 70B en 405B parameters), Llama 3.2 (1B, 3B, 11B en 90B parameters) en sinds december 2024 Llama 3.3 70B — volgens de officiele Llama 3.3 model card levert deze 70B-variant kwaliteit vergelijkbaar met het 405B-model tegen een fractie van de inference-kosten. Het "open" karakter betekent dat je het model vrij kunt downloaden, aanpassen en draaien op eigen hardware -- zonder licentiekosten per API-call, mits je voldoet aan de Llama 3 Community License. Let op twee clausules: organisaties met meer dan 700 miljoen maandelijkse actieve gebruikers moeten expliciet een aparte licentie bij Meta aanvragen, en het is verboden om Llama-output te gebruiken voor het trainen van een concurrerend LLM.
Voor bedrijven is dit om drie redenen relevant:
- Data blijft binnen je muren. Bij API-modellen stuur je bedrijfsdata naar externe servers. Met self-hosted Llama verlaat je data nooit je eigen infrastructuur.
- Geen vendor lock-in. Je bent niet afhankelijk van de prijsstelling, uptime of beleidswijzigingen van een externe provider.
- Volledige aanpasbaarheid. Je kunt het model fine-tunen op je eigen data, domeinkennis en huisstijl.
Dit maakt Llama 3 bijzonder interessant voor organisaties in gereguleerde sectoren -- denk aan zorg, finance, juridisch en overheid -- waar dataverwerking aan strenge eisen is gebonden.
Versies en use cases per modelgrootte
- Llama 3.2 1B en 3B: edge-modellen voor on-device inferentie, classificatie en tagging. Draait op een laptop of smartphone — volgens NVIDIA draait Llama 3.2 1B/3B op de Jetson Orin Nano Super Developer Kit (67 TOPS, $249), wat edge-deployment commercieel haalbaar maakt.
- Llama 3.1 8B: MKB-werkpaard. Prima voor chatbots, interne kennisbanken, e-mail drafting en RAG. Scoort vergelijkbaar met GPT-3.5.
- Llama 3.1 70B en Llama 3.3 70B: halen GPT-4-niveau voor redenering, code en meertalige taken. Ideaal voor rapportgeneratie en juridische documentreview. Llama 3.3 is de nieuwere en aanbevolen 70B-variant.
- Llama 3.1 405B: vlaggenschip met 405 miljard parameters, getraind op 15+ biljoen tokens volgens de Llama 3.1 405B model card op Hugging Face. Gelijkwaardig aan GPT-4o en Claude 3 Opus. Alleen als kwaliteit absoluut vooropstaat — voor de meeste use cases is Llama 3.3 70B de pragmatischer keuze.
- Llama 3.2 11B en 90B Vision: multimodaal voor documentanalyse, OCR en visuele kwaliteitscontrole.
Hardware requirements: wat heb je nodig?
De hardwarekeuze hangt af van welke Llama-variant je wilt draaien. Onderstaande tabel vat de minimale specs per modelgrootte samen.
| Model | GPU (minimum) | VRAM | RAM | CPU | Opslag |
|---|---|---|---|---|---|
| Llama 3.1 8B | RTX 3090 / A100 40GB | 24 GB | 32 GB | 8 cores | 50 GB SSD |
| Llama 3.1 70B | 2x A100 80GB | 160 GB | 128 GB | 32 cores | 200 GB NVMe |
| Llama 3.1 405B | 8x A100 80GB of 8x H100 | 640 GB | 512 GB | 64 cores | 1 TB NVMe |
Voor productie met hoge concurrency verdubbel je RAM, opslag en (waar mogelijk) GPU-aantal. Het 8B-model dekt al verbazingwekkend veel zakelijke use cases: tekstsamenvatting, klantenservice, interne kennisbanken en e-mail drafting. Kies pas het 70B-model als de 8B-kwaliteit aantoonbaar tekortschiet.
Quantisatie: meer doen met minder
Door quantisatie (het verkleinen van de precisie van modelgewichten) kun je grotere modellen draaien op kleinere hardware. Met 4-bit quantisatie (Q4_K_M) draai je het 70B-model op een enkele GPU met 48GB VRAM, met minimaal kwaliteitsverlies voor de meeste zakelijke toepassingen.
Tools zoals llama.cpp (de de-facto C/C++ inference engine met GGUF-quantisatie), GPTQ en AWQ maken quantisatie toegankelijk. Dit is vaak de sweet spot voor MKB-bedrijven die enterprise-kwaliteit willen zonder enterprise-hardware.
Cloud GPU providers vs on-prem
Voor experimenten en variabele workloads zijn cloud GPU providers aantrekkelijk. Lambda Labs biedt A100's vanaf circa 1,29 dollar per uur. RunPod combineert een goedkope community cloud met een secure cloud voor productie. Vast.ai is een peer-to-peer marktplaats met rock-bottom prijzen maar wisselende betrouwbaarheid. Voor enterprise-grade H100-capaciteit kun je kiezen voor hyperscalers: volgens de AWS EC2 P5-productpagina bevat een p5.48xlarge-instance 8x NVIDIA H100 80GB GPU's met 640 GB VRAM en NVLink, en de Azure ND H100 v5-documentatie beschrijft vergelijkbare 8x H100-nodes met 3,2 Tbps InfiniBand — ruim voldoende voor een 405B-deployment. Voor AVG-gevoelige workloads kies je Europese providers (Hetzner, OVHcloud, Scaleway, LeaseWeb) met EU-datacenters en verwerkersovereenkomst. Vuistregel: US voor benchmarking, EU (of on-prem) zodra persoonsgegevens meedoen.
Runtimes en deployment: van experiment naar productie
Vier runtimes domineren het landschap:
- Ollama: installeerbaar met een commando, uitstekend voor lokale experimenten en kleine teams. Biedt modelbeheer, GGUF-quantisatie en een REST API. Minder geschikt voor hoge concurrency.
- LM Studio: desktop-app met GUI, perfect voor niet-technische gebruikers die modellen willen evalueren.
- vLLM: de productiestandaard. Met PagedAttention en continuous batching 2-4x sneller dan Hugging Face Transformers volgens de officiele documentatie. Aangeraden voor honderden concurrente requests.
- Text Generation WebUI (oobabooga): webinterface met LoRA-adapters en extensies, populair voor interne tooling. Voor extreme performance-eisen zijn Hugging Face Text Generation Inference (TGI) en NVIDIA TensorRT-LLM relevant.
Voor de uitrol kies je tussen bare-metal (max performance, lastig reproduceerbaar), Docker (ollama/ollama, vllm/vllm-openai met GPU-passthrough via NVIDIA Container Toolkit -- de pragmatische middenweg) en Kubernetes (NVIDIA GPU Operator, KEDA-autoscaling, Istio -- vanaf circa vijf productie-workloads). Voor de meeste MKB-scenario's is Docker op een of twee GPU-hosts ruim voldoende.
Deployment opties: on-premise of private cloud?
Er zijn drie hoofdroutes om Llama 3 te deployen:
On-premise (eigen servers) geeft maximale controle, geen terugkerende cloudkosten en data die letterlijk nooit het pand verlaat. Keerzijde: hoge initiele investering, eigen verantwoordelijkheid voor onderhoud, updates en redundantie, en beperkte schaalbaarheid. Vooral geschikt voor defensie, overheid en zorg. Indicatief: 25.000-40.000 euro hardware voor een 70B-setup met 2x A100, plus 3.000-5.000 euro per jaar aan energie en onderhoud.
Private cloud (dedicated servers) elimineert de hardware-investering en biedt schaalbaarheid en managed hosting, terwijl EU-datacenters AVG-compliance borgen. Nadeel: maandelijkse kosten en afhankelijkheid van de provider. Hetzner, OVH en LeaseWeb bieden dedicated GPU-servers met 2x A100 voor 2.500-4.000 euro per maand -- voor MKB-bedrijven veelal de snelste weg naar productie.
Hybride combineert on-premise voor gevoelige data met cloudcapaciteit voor piekmomenten -- de beste balans tussen controle en flexibiliteit.
Fine-tuning met LoRA en QLoRA
Fine-tuning maakt Llama 3 slim in jouw domein: branche-terminologie, huisstijl en betere antwoorden op specifieke vragen. Een gefine-tuned kleiner model presteert vaak beter dan een groter generiek model -- en is goedkoper te hosten.
LoRA (Low-Rank Adaptation) traint niet het hele model, maar kleine adapter-matrixen die over de bestaande modelgewichten heen liggen. Resultaat: 99 procent minder trainbare parameters, fors minder VRAM en een adapter van enkele honderden megabytes die je los kunt opslaan, versioneren en laden. QLoRA (Quantized LoRA) gaat nog verder door het basismodel tijdens training in 4-bit te quantiseren — de originele QLoRA-paper (Dettmers et al., arXiv:2305.14314) toont aan dat je op deze manier een 65B-model fine-tuned op een enkele 48GB GPU zonder kwaliteitsverlies ten opzichte van full-precision finetuning. Daardoor fine-tune je een 70B-model op een enkele A100 80GB, en het 8B-model op een consumer RTX 4090.
Praktijkaanpak: verzamel 500-5.000 voorbeelden (JSONL met instruction/input/output), gebruik frameworks als Hugging Face Transformers, Axolotl of Unsloth, en evalueer op een held-out testset. Fine-tuning van het 8B-model met LoRA duurt 2-4 uur op een A100; het 70B-model vereist 8-16 uur op meerdere GPU's.
Integratie met bedrijfsapplicaties via FastAPI
Een draaiend model is pas waardevol als het aan bestaande systemen hangt. De meeste runtimes (vLLM, Ollama, TGI) exposen een OpenAI-compatible REST API, waardoor integratie met bestaande SDK's triviaal is: alleen base URL en API-sleutel wijzigen.
Een typisch integratiepatroon:
- FastAPI of Next.js API-route als thin proxy voor authenticatie, rate limiting en logging.
- RAG (Retrieval Augmented Generation) met een vectordatabase als Qdrant, Weaviate of pgvector, zodat het model relevante bedrijfsdocumenten ophaalt voor het antwoordt.
- Tool calling via LangChain, LlamaIndex of Haystack om CRM, ERP, ticketsysteem en e-mailserver te koppelen.
- Authenticatie via OAuth2, SAML of Azure AD -- alleen bevoegde gebruikers en systemen krijgen toegang.
Voor MKB is een simpele FastAPI-laag voor Ollama vaak voldoende; enterprise deployments combineren vLLM met een API-gateway als Kong of Azure API Management.
Performance benchmarks: Llama 3 vs GPT-4 vs Claude
Hoe verhoudt Llama 3 zich tot de commerciele toppers? De cijfers in onderstaande tabel komen uit de officiele Meta-benchmarks bij de Llama 3.1-release; voor onafhankelijke verificatie kun je terecht op de Hugging Face Open LLM Leaderboard v2, die modellen test op IFEval, BBH, MATH, GPQA, MuSR en MMLU-Pro.
| Benchmark | Llama 3.1 8B | Llama 3.1 70B | Llama 3.1 405B | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|---|---|
| MMLU (kennis) | 69 | 83 | 88 | 88 | 88 |
| HumanEval (code) | 73 | 80 | 89 | 90 | 92 |
| GSM8K (wiskunde) | 84 | 95 | 96 | 96 | 96 |
| MGSM (meertalig) | 68 | 87 | 92 | 90 | 91 |
Het 70B-model komt dicht bij GPT-4o en Claude 3.5 Sonnet; het 405B-model is in essentie gelijkwaardig. Voor alledaagse workflows -- samenvatten, e-mails, Q&A, documentanalyse -- is het verschil nauwelijks merkbaar. Waar commerciele modellen voor liggen: extreem complexe redenering, de allernieuwste kennis en enkele niche-talen. Voor Nederlands presteren alle Llama 3-varianten goed, met het 70B-model als duidelijke aanrader voor nuance en toon.
Kostenanalyse: self-hosted vs API-modellen
De grote vraag: is self-hosted goedkoper dan API's van OpenAI, Anthropic of Google? Het antwoord hangt af van je gebruiksvolume.
Break-even analyse
| Scenario | API-kosten (GPT-4o) | Self-hosted (70B) | Break-even |
|---|---|---|---|
| Laag volume (100K tokens/dag) | ~90 euro/maand | ~3.000 euro/maand | Nooit rendabel |
| Gemiddeld (1M tokens/dag) | ~900 euro/maand | ~3.000 euro/maand | Na 4+ maanden* |
| Hoog volume (10M tokens/dag) | ~9.000 euro/maand | ~3.000 euro/maand | Direct rendabel |
| Enterprise (100M tokens/dag) | ~90.000 euro/maand | ~8.000 euro/maand | Direct rendabel |
Bij gemiddeld volume wordt self-hosted rendabel als je de niet-financiele voordelen (privacy, controle, geen rate limits) meeweegt.
Verborgen kosten bij self-hosted
Reken mee: personeel (MLOps/DevOps), energie (1-3 kW per GPU-server), redundantie (minimaal twee servers voor productie), updates en monitoring-tooling.
Wanneer WEL en wanneer NIET self-hosted?
Self-hosted is de juiste keuze bij minimaal twee van: meer dan 1 miljoen tokens per dag, gevoelige of gereguleerde data, noodzaak tot fine-tuning, geen vendor lock-in gewenst, of beschikbare interne DevOps/MLOps-capaciteit.
NIET self-hosted wanneer je onder de 500.000 tokens per dag zit (API's zijn dan goedkoper en simpeler), geen MLOps-expertise hebt (en ook niet kunt inhuren), de allernieuwste reasoning-capaciteiten nodig hebt, of nog in een experimentele fase zit. Begin dan met API's en migreer later wanneer volume en compliance dat rechtvaardigen.
Security hardening: een self-hosted LLM is geen eiland
Self-hosted betekent niet automatisch veilig -- een slecht beveiligd on-prem model is juist een aantrekkelijk doelwit. Implementeer minimaal:
- Netwerksegmentatie: GPU-servers in een apart VLAN, alleen bereikbaar via een interne API-gateway. Geen directe internetblootstelling.
- API-authenticatie: sleutels of JWT-tokens per applicatie en gebruiker, log elke aanvraag.
- Prompt injection defenses: input valideren, afgeschermde systeemprompts, anomaliedetectie.
- Rate limiting tegen denial-of-service en runaway-kosten.
- TLS overal, ook intern. Secrets management via Vault, Azure Key Vault of AWS Secrets Manager.
- Updates voor runtime, CUDA-drivers en OS, plus periodiek red teaming op jailbreaks en data leakage.
Monitoring en logging
Een productie-LLM zonder observability is een webshop zonder analytics. Leg vast: infrastructuurmetrics (GPU-utilisatie, VRAM, CPU, RAM -- via Prometheus, Grafana, NVIDIA DCGM Exporter), applicatiemetrics (RPS, latency p50/p95/p99, tokens/seconde, time-to-first-token), kwaliteitsmetrics (gebruikersfeedback, hallucinatie-detectie, prompt-output steekproeven), kostenmetrics per gebruiker/team en security logging (auth events, verdachte prompts, rate limit hits). Tools als Langfuse, Helicone of een zelfgehoste ELK-stack centraliseren alles. Let bij logging op AVG: anonimiseer persoonsgegevens of voer een DPIA uit.
AVG, AI Act en Nederlandse compliance
Self-hosted biedt significante compliance-voordelen -- maar is geen vrijbrief. AVG: je hebt geen verwerkersovereenkomst met een externe AI-provider nodig, je weet precies waar data staat en je kunt data volledig verwijderen. Je blijft verwerkingsverantwoordelijke: verwerkingsregister, privacy by design en een DPIA blijven verplicht, ook als data je pand niet verlaat. Voor Nederlandse organisaties speelt de Autoriteit Persoonsgegevens een actieve rol -- documenteer waarom je voor self-hosted kiest en hoe dit bijdraagt aan data-minimalisatie.
AI Act: maakt geen onderscheid tussen self-hosted en cloud. De risicoclassificatie hangt af van het gebruik. Wel biedt de open-source-exemption in artikel 2(12) van de EU AI Act (Verordening 2024/1689) beperkte vrijstellingen voor vrij beschikbare modellen — belangrijk: deze exemption geldt niet voor GPAI-modellen met systemic risk en niet voor modellen die in een verboden of high-risk AI-systeem worden ingezet. Self-hosted biedt wel praktische voordelen: volledige controle over logging, eenvoudiger menselijk toezicht en aanpasbaarheid om bias te verminderen. Zie onze AI Act compliance checklist. In zorg (NEN 7510), finance (DNB, PSD2), juridisch en overheid (BIO, DigiD) is self-hosted vaak de enige route die aan alle eisen voldoet.
Implementatietraject: van PoC naar productie
Een realistisch traject voor een MKB-bedrijf ziet er zo uit:
- Fase 1 -- Proof of Concept (2-4 weken): definieer 1-3 use cases, start met het 8B-model op een cloud-GPU, test met geanonimiseerde data, evalueer kwaliteit en snelheid.
- Fase 2 -- Pilot (4-8 weken): selecteer de meest kansrijke use case, fine-tune met LoRA/QLoRA, integreer met bestaande systemen en verzamel feedback van een klein team.
- Fase 3 -- Productie (4-6 weken): schaal op naar definitieve hardware, implementeer monitoring, logging en backup, train eindgebruikers en stel SLA's op.
- Fase 4 -- Optimalisatie (doorlopend): itereer op fine-tuning, evalueer nieuwe modelversies en schaal op naar nieuwe use cases.
Voorkom vijf valkuilen: begin niet met het 405B-model als 8B volstaat, sla fine-tuning niet over, vergeet security niet, implementeer monitoring vanaf dag 1 en onderschat het doorlopende onderhoud niet.
Samenvatting
Self-hosted AI met Llama 3 is geen science fiction meer -- het is een realistische optie voor bedrijven die controle, privacy en onafhankelijkheid willen. Start met de juiste use case, kies het 8B-model tenzij complexiteit het 70B rechtvaardigt, begin met private cloud tenzij compliance on-premise vereist, investeer in fine-tuning met LoRA en plan voor AVG en AI Act. Bij gemiddeld tot hoog volume zijn de kosten competitief met API-modellen en de voordelen op het gebied van privacy en aanpasbaarheid onmiskenbaar.
Wil je weten of self-hosted AI past bij jouw organisatie? CleverTech helpt bedrijven bij het evalueren, implementeren en beheren van self-hosted AI-oplossingen. Vind de juiste aanpak of bekijk onze AI Security diensten.
Opgesteld met AI-tools en gecontroleerd door het redactieteam van CleverTech — tech-leads met ervaring in AI, procesautomatisering en IT-consulting.
