LLM Benchmark – maj 2025

Development

Który model AI najlepiej radzi sobie z codziennymi zadaniami programistycznymi?

Preview Image

W marcu 2025 roku opublikowaliśmy nasz pierwszy benchmark porównujący modele AI, sprawdzając, jak topowe modele językowe radzą sobie z praktycznymi zadaniami programistycznymi. Czas na aktualizację.

Ponownie przetestowaliśmy najnowsze wersje modeli OpenAI, Anthropic, Google Gemini i DeepSeek, oceniając je pod kątem ich zdolności do rozwiązywania typowych problemów developerskich – nie tylko generowania „ładnego” kodu.

Poniżej prezentujemy wyniki z maja 2025 roku.

Metodologia

Każdy model otrzymał trzy realistyczne zadania, obejmujące różne obszary programowania:

  1. Implementacja algorytmu BFS w JavaScript
    Znalezienie najkrótszej ścieżki w labiryncie za pomocą algorytmu Breadth-First Search.
    Cel: Logika algorytmiczna i rozwiązywanie problemów.

  2. Serwer FastAPI z autoryzacją JWT (Python)
    REST API z logowaniem, generowaniem tokena i chronionym endpointem.
    Cel: Przepływ autoryzacji i bezpieczeństwo.

  3. Optymalizacja zapytań MySQL w Laravelu (PHP)
    Wydajne zapytanie zwracające 5 najbardziej aktywnych użytkowników z ostatnich 6 miesięcy.
    Cel: Wydajność, indeksowanie, zgodność z konwencjami Laravel.

Każde rozwiązanie oceniano w trzech kategoriach:

  • Poprawność (czy zadanie zostało rozwiązane prawidłowo?)

  • Elastyczność (czy kod radzi sobie z nietypowymi przypadkami?)

  • Jakość kodu (czy jest czytelny i zoptymalizowany?)

Zadanie 1: BFS w JavaScript

ModelPoprawnośćPrzypadki testoweJakość koduOcena końcowa
Gemini90/10080/10085/10085
OpenAI90/10080/10090/10087
Anthropic95/10090/10095/10093
DeepSeek90/10085/10090/10088

Najlepszy wynik: Anthropic
Model Anthropic dostarczył najczystsze i najskuteczniejsze rozwiązanie, wyróżniające się przejrzystością i poprawnością.

Zadanie 2: FastAPI z autoryzacją JWT

ModelLogika APIObsługa tokenaBezpieczeństwoOcena końcowa
Gemini95/10090/10085/10090
OpenAI95/10085/10070/10083
Anthropic95/10085/10075/10085
DeepSeek95/10085/10070/10083

Najlepszy wynik: Gemini
Gemini wykazał się bardzo dobrą znajomością architektury FastAPI i obsługi tokenów JWT. OpenAI wypadł dobrze pod względem funkcjonalności, ale słabiej w zakresie bezpieczeństwa.

Zadanie 3: Optymalizacja MySQL w Laravelu

ModelIndeksyWydajnośćZgodność z LaravelOcena końcowa
Gemini90/10095/10085/10090
OpenAI90/10095/10085/10090
Anthropic90/10095/10085/10090
DeepSeek95/10095/10090/10093

Najlepszy wynik: DeepSeek
Jako jedyny zastosował proaktywne indeksowanie i napisał kod w pełni zgodny z konwencjami Laravel.

Wyniki końcowe – maj 2025

ModelŚrednia ocena
Anthropic87,7
DeepSeek88,0
OpenAI86,7
Gemini88,3

Mimo że Gemini osiągnął najwyższą średnią, różnice między modelami są minimalne. Każdy wyróżnia się w innym obszarze: Anthropic dominuje w algorytmice, DeepSeek błyszczy w backendzie, a Gemini utrzymuje wysoki, równy poziom praktyczny.

Co dalej?

Czołowe modele LLM coraz bardziej się do siebie zbliżają. W miarę ich rozwoju, regularne benchmarki pozwalają śledzić, który najlepiej sprawdza się w codziennej pracy programisty.

Planujemy kolejne edycje i nowe typy zadań – być może frontend, DevOps lub testowanie automatyczne. Masz pomysł? Daj nam znać.

Ranking AI

porównanie AI

benchmark modeli AI

Ja
Portret Jakuba Wachola, back-end developera i autora artykułów. Zdjęcie przedstawia go uśmiechniętego, w okularach, o profesjonalnym i przyjaznym wyglądzie, na białym tle.
Back-end Developer
Jakub Wachol

Z powodzeniem udało nam się wesprzeć
już ponad 70 firm

ABInBev logo
Preasidiad logo
ServicePlan logo
Tigers logo
Dood logo
Beer Hawk logo
Cobiro logo
LaSante logo
Platforma Opon logo
LiteGrav logo
Saveur Biere logo
Sweetco logo
Unicornly logo

...i zostaliśmy uznani za wartościowego partnera technologicznego, który potrafi elastycznie się rozwijać
4.8
...a za nasze wysiłki na przestrzeni lat zostaliśmy wielokrotnie nagrodzeni