LLM Benchmark – uppdatering maj 2025

Utveckling

Jakub Wachol | 29/05/2025

Vilken AI-modell presterar bäst i vardagliga kodningsuppgifter?

I mars 2025 publicerade vi vårt första AI-benchmarktest, där vi undersökte hur ledande språkmodeller hanterar praktiska programmeringsuppgifter. Nu är det dags för en uppdatering.

Vi testade återigen de senaste versionerna av OpenAI, Anthropic, Google Gemini och DeepSeek – med fokus på deras förmåga att lösa typiska utvecklarproblem, inte bara att generera snygg kod.

Här är resultaten från maj 2025.

Metod

Varje modell fick tre realistiska uppgifter, inom olika områden av mjukvaruutveckling:

Implementera BFS i JavaScript
Hitta den kortaste vägen i en labyrint med Breadth-First Search.
Fokus: Algoritmförståelse och problemlösning.
FastAPI-server med JWT-autentisering (Python)
Ett REST API med inloggning, token-generering och skyddade endpoints.
Fokus: Autentiseringsflöde och säkerhetsprinciper.
Optimera MySQL-frågor i Laravel (PHP)
Skriv en effektiv fråga för att hitta de fem mest aktiva användarna de senaste 6 månaderna.
Fokus: Prestanda, indexering och kodstandarder i Laravel.

Alla lösningar utvärderades utifrån tre kriterier:

Korrekthet (löste modellen uppgiften?)
Flexibilitet (hanterar lösningen specialfall?)
Kodkvalitet (är koden läsbar och optimerad?)

Uppgift 1: BFS i JavaScript

Modell	Korrekthet	Testhantering	Kodkvalitet	Totalt
Gemini	90/100	80/100	85/100	85
OpenAI	90/100	80/100	90/100	87
Anthropic	95/100	90/100	95/100	93
DeepSeek	90/100	85/100	90/100	88

Bäst resultat: Anthropic
Anthropic levererade en lösning som var både korrekt och välstrukturerad – tydlig, effektiv och lättläst.

Uppgift 2: FastAPI med JWT-autentisering

Modell	API-logik	Tokenhantering	Säkerhet	Totalt
Gemini	95/100	90/100	85/100	90
OpenAI	95/100	85/100	70/100	83
Anthropic	95/100	85/100	75/100	85
DeepSeek	95/100	85/100	70/100	83

Bäst resultat: Gemini
Gemini visade mycket god förståelse för både FastAPI och JWT-flödet. OpenAI fungerade bra, men säkerhetsnivån var lägre.

Uppgift 3: MySQL-optimering i Laravel

Modell	Indexering	Effektivitet	Laravel-standard	Totalt
Gemini	90/100	95/100	85/100	90
OpenAI	90/100	95/100	85/100	90
Anthropic	90/100	95/100	85/100	90
DeepSeek	95/100	95/100	90/100	93

Bäst resultat: DeepSeek
Modellen visade god förståelse för prestandaoptimering, använde indexering och följde Laravel-konventioner väl.

Slutresultat – maj 2025

Modell	Medelbetyg
Anthropic	87,7
DeepSeek	88,0
OpenAI	86,7
Gemini	88,3

Trots att Gemini fick högst snittpoäng var skillnaderna små. Anthropic är fortfarande starkast på algoritmer, DeepSeek glänser inom backend, och Gemini håller en jämn och praktisk nivå.