LLM Benchmark – uppdatering maj 2025

Development

Vilken AI-modell presterar bäst i vardagliga kodningsuppgifter?

Preview Image

I mars 2025 publicerade vi vårt första AI-benchmarktest, där vi undersökte hur ledande språkmodeller hanterar praktiska programmeringsuppgifter. Nu är det dags för en uppdatering.

Vi testade återigen de senaste versionerna av OpenAI, Anthropic, Google Gemini och DeepSeek – med fokus på deras förmåga att lösa typiska utvecklarproblem, inte bara att generera snygg kod.

Här är resultaten från maj 2025.

Metod

Varje modell fick tre realistiska uppgifter, inom olika områden av mjukvaruutveckling:

  1. Implementera BFS i JavaScript
    Hitta den kortaste vägen i en labyrint med Breadth-First Search.
    Fokus: Algoritmförståelse och problemlösning.

  2. FastAPI-server med JWT-autentisering (Python)
    Ett REST API med inloggning, token-generering och skyddade endpoints.
    Fokus: Autentiseringsflöde och säkerhetsprinciper.

  3. Optimera MySQL-frågor i Laravel (PHP)
    Skriv en effektiv fråga för att hitta de fem mest aktiva användarna de senaste 6 månaderna.
    Fokus: Prestanda, indexering och kodstandarder i Laravel.

Alla lösningar utvärderades utifrån tre kriterier:

  • Korrekthet (löste modellen uppgiften?)

  • Flexibilitet (hanterar lösningen specialfall?)

  • Kodkvalitet (är koden läsbar och optimerad?)

Uppgift 1: BFS i JavaScript

ModellKorrekthetTesthanteringKodkvalitetTotalt
Gemini90/10080/10085/10085
OpenAI90/10080/10090/10087
Anthropic95/10090/10095/10093
DeepSeek90/10085/10090/10088

Bäst resultat: Anthropic
Anthropic levererade en lösning som var både korrekt och välstrukturerad – tydlig, effektiv och lättläst.

Uppgift 2: FastAPI med JWT-autentisering

ModellAPI-logikTokenhanteringSäkerhetTotalt
Gemini95/10090/10085/10090
OpenAI95/10085/10070/10083
Anthropic95/10085/10075/10085
DeepSeek95/10085/10070/10083

Bäst resultat: Gemini
Gemini visade mycket god förståelse för både FastAPI och JWT-flödet. OpenAI fungerade bra, men säkerhetsnivån var lägre.

Uppgift 3: MySQL-optimering i Laravel

ModellIndexeringEffektivitetLaravel-standardTotalt
Gemini90/10095/10085/10090
OpenAI90/10095/10085/10090
Anthropic90/10095/10085/10090
DeepSeek95/10095/10090/10093

Bäst resultat: DeepSeek
Modellen visade god förståelse för prestandaoptimering, använde indexering och följde Laravel-konventioner väl.

Slutresultat – maj 2025

ModellMedelbetyg
Anthropic87,7
DeepSeek88,0
OpenAI86,7
Gemini88,3

Trots att Gemini fick högst snittpoäng var skillnaderna små. Anthropic är fortfarande starkast på algoritmer, DeepSeek glänser inom backend, och Gemini håller en jämn och praktisk nivå.

Vad händer härnäst?

De ledande modellerna närmar sig varandra i kapacitet. Med regelbundna tester kan vi se vilka som lämpar sig bäst för verkliga utvecklarbehov.

Vi planerar fler tester framöver – kanske frontend, DevOps eller automatiserade tester. Har du förslag? Hör gärna av dig.

AI-modell jämförelse 2025

Bästa AI för kodning

AI prestandatest Sverige

Ja
Portrait of Jakub Wachol, back-end developer and article author, smiling and wearing glasses, with a professional and friendly appearance, against a white background.
Back-end Developer
Jakub Wachol

Vi har lyckats hjälpa över hundratals företag att växa

ABInBev logo
Preasidiad logo
ServicePlan logo
Tigers logo
Dood logo
Beer Hawk logo
Cobiro logo
LaSante logo
Platforma Opon logo
LiteGrav logo
Saveur Biere logo
Sweetco logo
Unicornly logo

…vi har blivit erkända som en värdefull samarbetspartner inom teknologi som ständigt utvecklas
4.8
…vi har blivit belönade flera gånger genom åren för våra insatser