Large Language Models

Open source LLMs zijn eindelijk volwaardig alternatief

· 7 min leestijd

Twee jaar geleden hoorde je nog regelmatig dat open-source taalmodellen leuk waren voor thuisgebruik, maar nooit serieus konden concurreren met OpenAI of Anthropic. Dat geluid is in april 2026 verdwenen. Llama 4 Maverick, DeepSeek v3.2, Mistral Medium 3.1 en de verse Gemma 4 staan op benchmarks op of boven het niveau van modellen waar je vorig jaar nog serieus geld voor neertelde.

Als je vandaag aan een nieuw project begint en je overweegt welk model je gebruikt, is open-source niet meer een compromis. Het is soms gewoon de beste keuze. Tijd om te kijken wat er is, waarom het nu werkt en wanneer je zelf moet overstappen.

De grote namen op een rij

De belangrijkste open-source modellen die het gesprek bepalen:

  • Llama 4 (Meta): twee varianten. Scout met een contextvenster van 10 miljoen tokens en Maverick met 400 miljard parameters en 1 miljoen tokens context. Ondersteunt 200 talen en is native multimodaal.
  • DeepSeek v3.2: blijft de prijs-prestatie winnaar. Via hun API 0,55 dollar per miljoen tokens, maar je mag het ook gewoon zelf draaien. Scoort op coderen en wiskunde mee met de beste gesloten modellen.
  • Mistral Medium 3.1: het Europese antwoord. Haalt 90 procent van Claude Sonnet 3.7 voor 8 keer minder geld. Sterk op meertaligheid en code.
  • Gemma 4 (Google): een MoE-model met 26 miljard parameters dat in 14 GB past. Draait 85 tokens per seconde op een gewone laptop.

Wat opvalt: de spreiding is groot. Je kunt een model kiezen dat op je MacBook past, of een dat pas gaat draaien op een serverpark. Dat maakt open-source juist sterk, want je kiest op basis van je werkelijke eisen, niet op basis van wat een leverancier aanbiedt.

Waarom dit nu echt werkt

Drie dingen zijn samengekomen. Ten eerste: de modellen zijn beter getraind. Teams bij Meta, DeepSeek en Mistral hebben ontdekt hoe je met relatief beperkte compute toch goede resultaten haalt. De prestatieverschillen met gesloten modellen zijn geen statistische ruis meer, maar vaak maar een paar procent op reële taken.

Ten tweede: de tooling rondom open-source is volwassen geworden. Ollama, vLLM en LM Studio maken het triviaal om modellen te draaien. Wat een paar jaar geleden een infrastructuur-project was, is nu iets wat je binnen een uur werkend hebt. Onze handleiding voor je eerste AI-agent draait bijvoorbeeld net zo makkelijk op een zelf-gehost Llama als op een cloud API.

Ten derde: de context is meegegroeid. Llama 4 Scout met 10 miljoen tokens zit op een schaal waar zelfs de gesloten modellen moeite mee hebben. Dat is niet zomaar een nummer, dat verandert hoe je systemen ontwerpt.

Wanneer kies je open source

Open source wordt de juiste keuze zodra een van deze dingen telt:

  1. Data-gevoeligheid. Als je werkt met medische gegevens, juridische documenten of bedrijfsgeheimen, wil je geen queries de deur uit sturen. Zelf-hosten is dan geen luxe maar een eis.
  2. Voorspelbare kosten. API-tarieven kunnen bij piekgebruik door het dak gaan. Zelf-gehost draaien op een GPU-server kost vooraf geld, maar je usage is onbegrensd.
  3. Fine-tuning. Wil je een model dat specifiek jouw domein kent? Dan is fine-tunen op een open model veel goedkoper en flexibeler dan bij een gesloten aanbieder.
  4. Offline werken. Edge-deployments, on-device agents, embedded scenarios. Hier zijn gesloten modellen simpelweg geen optie.

Waar gesloten modellen nog winnen

Eerlijk blijven: voor sommige taken pakt GPT-5.4 of Claude Opus 4.7 nog steeds de kroon. Complexe multi-step reasoning, agentic workflows met veel tool-aanroepen, en zware coding-taken waar de marge tussen werkt-en-werkt-niet smal is. Als je de allerbeste wilt voor die use cases, betaal je daarvoor.

Ook op multimodaliteit lopen gesloten modellen voor. Video-begrip, complexe documentanalyse en realtime stem-interacties zijn nog terrein waar de grote cloud-aanbieders meer budget in hebben gestopt dan de open-source wereld kan matchen.

Hoe begin je zelf

Start klein. Download Ollama, draai Mistral Medium 3.1 of Gemma 4 lokaal, en stel dezelfde vragen die je normaal aan je cloud-model stelt. Je zult merken dat 80 procent van je use cases prima werkt. Die resterende 20 procent, waar je echt frontier-kwaliteit nodig hebt, blijf je via API doen.

Voor team-inzet is DeepSeek via een self-hosted endpoint een mooie instap. Je houdt de prijs-prestatie van het model maar je controleert de data. Voor compliance met privacywetgeving is dat een duidelijk pluspunt dat je moeilijk bij een publieke API krijgt.

Een goede vertrekpunt voor benchmarks is llm-stats.com, waar updates van nieuwe modellen vrijwel dagelijks binnenkomen.

De markt in beweging

Wat 2025 leverde, is een compleet nieuw gesprek over AI-infrastructuur. Je hoeft niet meer te kiezen tussen goedkoop-maar-beperkt en duur-maar-krachtig. Je kunt per use case kiezen wat past. Dat is voor bedrijven die serieus met AI werken misschien wel de belangrijkste verandering van het hele jaar.

De vraag is niet meer of open-source goed genoeg is. Het is of je werkwijze flexibel genoeg is om de juiste modellen op de juiste plek in te zetten. Wie daar nu mee begint, bouwt een architectuur die volgend jaar niet opnieuw op de schop hoeft.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch prive, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.