LLM Benchmark – maj 2025

Rozwój

Jakub Wachol | 29/05/2025

Który model AI najlepiej radzi sobie z codziennymi zadaniami programistycznymi?

W marcu 2025 roku opublikowaliśmy nasz pierwszy benchmark porównujący modele AI, sprawdzając, jak topowe modele językowe radzą sobie z praktycznymi zadaniami programistycznymi. Czas na aktualizację.

Ponownie przetestowaliśmy najnowsze wersje modeli OpenAI, Anthropic, Google Gemini i DeepSeek, oceniając je pod kątem ich zdolności do rozwiązywania typowych problemów developerskich – nie tylko generowania „ładnego” kodu.

Poniżej prezentujemy wyniki z maja 2025 roku.

Metodologia

Każdy model otrzymał trzy realistyczne zadania, obejmujące różne obszary programowania:

Implementacja algorytmu BFS w JavaScript
Znalezienie najkrótszej ścieżki w labiryncie za pomocą algorytmu Breadth-First Search.
Cel: Logika algorytmiczna i rozwiązywanie problemów.
Serwer FastAPI z autoryzacją JWT (Python)
REST API z logowaniem, generowaniem tokena i chronionym endpointem.
Cel: Przepływ autoryzacji i bezpieczeństwo.
Optymalizacja zapytań MySQL w Laravelu (PHP)
Wydajne zapytanie zwracające 5 najbardziej aktywnych użytkowników z ostatnich 6 miesięcy.
Cel: Wydajność, indeksowanie, zgodność z konwencjami Laravel.

Każde rozwiązanie oceniano w trzech kategoriach:

Poprawność (czy zadanie zostało rozwiązane prawidłowo?)
Elastyczność (czy kod radzi sobie z nietypowymi przypadkami?)
Jakość kodu (czy jest czytelny i zoptymalizowany?)

Zadanie 1: BFS w JavaScript

Model	Poprawność	Przypadki testowe	Jakość kodu	Ocena końcowa
Gemini	90/100	80/100	85/100	85
OpenAI	90/100	80/100	90/100	87
Anthropic	95/100	90/100	95/100	93
DeepSeek	90/100	85/100	90/100	88

Najlepszy wynik: Anthropic
Model Anthropic dostarczył najczystsze i najskuteczniejsze rozwiązanie, wyróżniające się przejrzystością i poprawnością.

Zadanie 2: FastAPI z autoryzacją JWT

Model	Logika API	Obsługa tokena	Bezpieczeństwo	Ocena końcowa
Gemini	95/100	90/100	85/100	90
OpenAI	95/100	85/100	70/100	83
Anthropic	95/100	85/100	75/100	85
DeepSeek	95/100	85/100	70/100	83

Najlepszy wynik: Gemini
Gemini wykazał się bardzo dobrą znajomością architektury FastAPI i obsługi tokenów JWT. OpenAI wypadł dobrze pod względem funkcjonalności, ale słabiej w zakresie bezpieczeństwa.

Zadanie 3: Optymalizacja MySQL w Laravelu

Model	Indeksy	Wydajność	Zgodność z Laravel	Ocena końcowa
Gemini	90/100	95/100	85/100	90
OpenAI	90/100	95/100	85/100	90
Anthropic	90/100	95/100	85/100	90
DeepSeek	95/100	95/100	90/100	93

Najlepszy wynik: DeepSeek
Jako jedyny zastosował proaktywne indeksowanie i napisał kod w pełni zgodny z konwencjami Laravel.

Wyniki końcowe – maj 2025

Model	Średnia ocena
Anthropic	87,7
DeepSeek	88,0
OpenAI	86,7
Gemini	88,3

Mimo że Gemini osiągnął najwyższą średnią, różnice między modelami są minimalne. Każdy wyróżnia się w innym obszarze: Anthropic dominuje w algorytmice, DeepSeek błyszczy w backendzie, a Gemini utrzymuje wysoki, równy poziom praktyczny.

Co dalej?

Czołowe modele LLM coraz bardziej się do siebie zbliżają. W miarę ich rozwoju, regularne benchmarki pozwalają śledzić, który najlepiej sprawdza się w codziennej pracy programisty.

Planujemy kolejne edycje i nowe typy zadań – być może frontend, DevOps lub testowanie automatyczne. Masz pomysł? Daj nam znać.