Vilken AI-modell presterar bäst i vardagliga kodningsuppgifter?

I mars 2025 publicerade vi vårt första AI-benchmarktest, där vi undersökte hur ledande språkmodeller hanterar praktiska programmeringsuppgifter. Nu är det dags för en uppdatering.
Vi testade återigen de senaste versionerna av OpenAI, Anthropic, Google Gemini och DeepSeek – med fokus på deras förmåga att lösa typiska utvecklarproblem, inte bara att generera snygg kod.
Här är resultaten från maj 2025.
Metod
Varje modell fick tre realistiska uppgifter, inom olika områden av mjukvaruutveckling:
-
Implementera BFS i JavaScript
Hitta den kortaste vägen i en labyrint med Breadth-First Search.
Fokus: Algoritmförståelse och problemlösning. -
FastAPI-server med JWT-autentisering (Python)
Ett REST API med inloggning, token-generering och skyddade endpoints.
Fokus: Autentiseringsflöde och säkerhetsprinciper. -
Optimera MySQL-frågor i Laravel (PHP)
Skriv en effektiv fråga för att hitta de fem mest aktiva användarna de senaste 6 månaderna.
Fokus: Prestanda, indexering och kodstandarder i Laravel.
Alla lösningar utvärderades utifrån tre kriterier:
-
Korrekthet (löste modellen uppgiften?)
-
Flexibilitet (hanterar lösningen specialfall?)
-
Kodkvalitet (är koden läsbar och optimerad?)
Uppgift 1: BFS i JavaScript
Modell | Korrekthet | Testhantering | Kodkvalitet | Totalt |
---|---|---|---|---|
Gemini | 90/100 | 80/100 | 85/100 | 85 |
OpenAI | 90/100 | 80/100 | 90/100 | 87 |
Anthropic | 95/100 | 90/100 | 95/100 | 93 |
DeepSeek | 90/100 | 85/100 | 90/100 | 88 |
Bäst resultat: Anthropic
Anthropic levererade en lösning som var både korrekt och välstrukturerad – tydlig, effektiv och lättläst.
Uppgift 2: FastAPI med JWT-autentisering
Modell | API-logik | Tokenhantering | Säkerhet | Totalt |
---|---|---|---|---|
Gemini | 95/100 | 90/100 | 85/100 | 90 |
OpenAI | 95/100 | 85/100 | 70/100 | 83 |
Anthropic | 95/100 | 85/100 | 75/100 | 85 |
DeepSeek | 95/100 | 85/100 | 70/100 | 83 |
Bäst resultat: Gemini
Gemini visade mycket god förståelse för både FastAPI och JWT-flödet. OpenAI fungerade bra, men säkerhetsnivån var lägre.
Uppgift 3: MySQL-optimering i Laravel
Modell | Indexering | Effektivitet | Laravel-standard | Totalt |
---|---|---|---|---|
Gemini | 90/100 | 95/100 | 85/100 | 90 |
OpenAI | 90/100 | 95/100 | 85/100 | 90 |
Anthropic | 90/100 | 95/100 | 85/100 | 90 |
DeepSeek | 95/100 | 95/100 | 90/100 | 93 |
Bäst resultat: DeepSeek
Modellen visade god förståelse för prestandaoptimering, använde indexering och följde Laravel-konventioner väl.
Slutresultat – maj 2025
Modell | Medelbetyg |
---|---|
Anthropic | 87,7 |
DeepSeek | 88,0 |
OpenAI | 86,7 |
Gemini | 88,3 |
Trots att Gemini fick högst snittpoäng var skillnaderna små. Anthropic är fortfarande starkast på algoritmer, DeepSeek glänser inom backend, och Gemini håller en jämn och praktisk nivå.
Vad händer härnäst?
De ledande modellerna närmar sig varandra i kapacitet. Med regelbundna tester kan vi se vilka som lämpar sig bäst för verkliga utvecklarbehov.
Vi planerar fler tester framöver – kanske frontend, DevOps eller automatiserade tester. Har du förslag? Hör gärna av dig.