Cursor Composer 2 getest, sneller maar niet altijd slimmer

Sinds de lancering op 19 maart draait Cursor Composer 2 in mijn dagelijkse workflow. Cursor positioneert het als frontier-model voor agentic coding, met een prijskaartje van vijftig dollarcent per miljoen input-tokens. Dat is goedkoop genoeg om het gewoon aan te laten staan. Maar wat krijg je er in de praktijk voor terug? Ik heb het een paar weken gestresstest op echt werk, niet op cherry-picked demo's.

Wat Composer 2 onder de motorkap anders doet

Composer 2 is gebouwd op Kimi K2.5 van Moonshot AI, met aanvullende pretraining op code en reinforcement learning bovenop die versterkte basis. Dat is een omkering van de gebruikelijke volgorde, waarbij RL pas kwam nadat het fundamentele model af was. Het resultaat zie je terug in de benchmarks. Op CursorBench scoort Composer 2 nu 61,3, tegenover 44,2 voor versie 1.5. SWE-bench Multilingual ging van 65,9 naar 73,7. Dat is geen marginale verbetering, dat is een sprong.

De technisch interessantste toevoeging is wat Cursor compaction-in-the-loop noemt. Tijdens het trainen leert het model zelf om zijn context samen te vatten op de momenten dat het dat nodig heeft. Dat klinkt abstract, maar in de praktijk betekent het dat de agent niet meer de draad kwijtraakt halverwege een grote refactor. De compaction-error daalde volgens Cursor met vijftig procent. En je merkt het. Waar Composer 1.5 na dertig tool-calls begon te dwalen, houdt Composer 2 honderden stappen lang focus op het oorspronkelijke doel.

Honderd sequential actions zonder de weg kwijt te raken

Ik gooide er een stevige test tegenaan: een volledige migratie van een legacy-controller naar een nieuwe service-layer, inclusief tests en documentatie. Composer 1.5 haakte meestal af rond actie veertig, met de klassieke symptomen. Het herschreef code die het eerder al klaar had, of vergat waarom het aan een bepaalde functie begonnen was.

Composer 2 deed het in één run van ongeveer honderdtwintig tool-calls. Tussendoor verdween er wel een keer een test uit de set, en het koos bij twijfel vaker voor de safe path dan voor de architectonisch nettere oplossing. Maar het kwam met werkende, groene code aan de overkant. Dat is voor dit soort project-scale refactors het verschil tussen bruikbaar en niet-bruikbaar.

Prijs versus Claude en GPT-5.4

De pricing is waar Composer 2 echt opvalt. Op vijftig cent per miljoen input-tokens en twee euro vijftig per miljoen output zit je ruim onder wat je voor vergelijkbare modellen elders betaalt. Er is ook een fast-variant voor anderhalve dollar per miljoen input, die merkbaar sneller is in de editor. Voor dagwerk is de standaardversie ruim snel genoeg.

Op Terminal-Bench 2.0 leidt GPT-5.4 nog met 75,1. Composer 2 zit op 61,7, duidelijk boven Claude Opus 4.6 op 58,0. Die volgorde zie ik ook in mijn eigen tests terug. GPT-5.4 is nog altijd de meest betrouwbare oplosser van onbekende puzzels. Claude is het sterkst in uitleggen waarom code doet wat het doet. Composer 2 is het snelst in iets werkends opleveren binnen jouw codebase.

Waar Composer 2 hapert

Het model is slechter dan Claude in het redeneren over ontwerpkeuzes. Als ik vraag "waarom zou je hier een observer-pattern kiezen en geen event bus", krijg ik een net antwoord, maar zonder de nuance die Claude wel geeft. Voor debuggen van rare productiebugs gebruik ik nog steeds liever Claude Code in de terminal, met de context-window van een miljoen tokens die alles verandert voor dat type taak.

Ook de 200k context window van Composer 2 voelt ruim, maar niet genoeg voor grote monorepos. Halverwege een bugjacht in een project van een halve miljoen regels merk je dat het model kiest wat het onthoudt. Dat kiest het niet altijd goed.

De optimale stack begin 2026

Na drie weken draaien heb ik mijn workflow omgezet. Composer 2 doet het grootste deel van het dagelijkse werk: feature-code, tests, refactors op bestandsniveau. Voor taken die denken vereisen in plaats van schrijven pak ik Claude Code. GPT-5.4 gebruik ik alleen nog voor zeldzame puzzels waar de anderen vastlopen.

Dat is ook het beeld dat ik overal terugzie in 2026. Single-tool denken is dood. De meeste developers die ik spreek combineren er twee of drie, afhankelijk van de taak. Wil je weten welke combinatie bij jou past? Dan is mijn eerder artikel over kiezen tussen Cursor en Claude Code een goed startpunt. Volgens Cursor zelf is Composer 2 pas het begin, met een 3 die dichterbij is dan je denkt.

Wie zou vandaag nog op 1.5 blijven zitten

Eerlijk? Niemand. De upgrade kost niets, de inference is goedkoper per token, en de kwaliteit is in vrijwel elke categorie beter. Als je Cursor al betaalt, switch dan vandaag over. Als je nog nooit Cursor gebruikt hebt en puur op basis van prijs en kwaliteit kiest, is dit het beste moment om in te stappen. Over een jaar is Composer 3 er misschien al, maar voor nu is dit het meest interessante stuk tooling dat ik het afgelopen kwartaal heb getest.

Cursor Composer 2 getest, sneller maar niet altijd slimmer

Wat Composer 2 onder de motorkap anders doet

Honderd sequential actions zonder de weg kwijt te raken

Prijs versus Claude en GPT-5.4

Waar Composer 2 hapert

De optimale stack begin 2026

Wie zou vandaag nog op 1.5 blijven zitten

Misschien vind je dit ook leuk

Meta AI met Muse Spark, eerste indrukken uit de praktijk

Windsurf schrapt credits en dat verandert de keuze

Zo kies je tussen Cursor en Claude Code