Który model AI najlepiej radzi sobie z codziennymi zadaniami programistycznymi?

W marcu 2025 roku opublikowaliśmy nasz pierwszy benchmark porównujący modele AI, sprawdzając, jak topowe modele językowe radzą sobie z praktycznymi zadaniami programistycznymi. Czas na aktualizację.
Ponownie przetestowaliśmy najnowsze wersje modeli OpenAI, Anthropic, Google Gemini i DeepSeek, oceniając je pod kątem ich zdolności do rozwiązywania typowych problemów developerskich – nie tylko generowania „ładnego” kodu.
Poniżej prezentujemy wyniki z maja 2025 roku.
Metodologia
Każdy model otrzymał trzy realistyczne zadania, obejmujące różne obszary programowania:
-
Implementacja algorytmu BFS w JavaScript
Znalezienie najkrótszej ścieżki w labiryncie za pomocą algorytmu Breadth-First Search.
Cel: Logika algorytmiczna i rozwiązywanie problemów. -
Serwer FastAPI z autoryzacją JWT (Python)
REST API z logowaniem, generowaniem tokena i chronionym endpointem.
Cel: Przepływ autoryzacji i bezpieczeństwo. -
Optymalizacja zapytań MySQL w Laravelu (PHP)
Wydajne zapytanie zwracające 5 najbardziej aktywnych użytkowników z ostatnich 6 miesięcy.
Cel: Wydajność, indeksowanie, zgodność z konwencjami Laravel.
Każde rozwiązanie oceniano w trzech kategoriach:
-
Poprawność (czy zadanie zostało rozwiązane prawidłowo?)
-
Elastyczność (czy kod radzi sobie z nietypowymi przypadkami?)
-
Jakość kodu (czy jest czytelny i zoptymalizowany?)
Zadanie 1: BFS w JavaScript
Model | Poprawność | Przypadki testowe | Jakość kodu | Ocena końcowa |
---|---|---|---|---|
Gemini | 90/100 | 80/100 | 85/100 | 85 |
OpenAI | 90/100 | 80/100 | 90/100 | 87 |
Anthropic | 95/100 | 90/100 | 95/100 | 93 |
DeepSeek | 90/100 | 85/100 | 90/100 | 88 |
Najlepszy wynik: Anthropic
Model Anthropic dostarczył najczystsze i najskuteczniejsze rozwiązanie, wyróżniające się przejrzystością i poprawnością.
Zadanie 2: FastAPI z autoryzacją JWT
Model | Logika API | Obsługa tokena | Bezpieczeństwo | Ocena końcowa |
---|---|---|---|---|
Gemini | 95/100 | 90/100 | 85/100 | 90 |
OpenAI | 95/100 | 85/100 | 70/100 | 83 |
Anthropic | 95/100 | 85/100 | 75/100 | 85 |
DeepSeek | 95/100 | 85/100 | 70/100 | 83 |
Najlepszy wynik: Gemini
Gemini wykazał się bardzo dobrą znajomością architektury FastAPI i obsługi tokenów JWT. OpenAI wypadł dobrze pod względem funkcjonalności, ale słabiej w zakresie bezpieczeństwa.
Zadanie 3: Optymalizacja MySQL w Laravelu
Model | Indeksy | Wydajność | Zgodność z Laravel | Ocena końcowa |
---|---|---|---|---|
Gemini | 90/100 | 95/100 | 85/100 | 90 |
OpenAI | 90/100 | 95/100 | 85/100 | 90 |
Anthropic | 90/100 | 95/100 | 85/100 | 90 |
DeepSeek | 95/100 | 95/100 | 90/100 | 93 |
Najlepszy wynik: DeepSeek
Jako jedyny zastosował proaktywne indeksowanie i napisał kod w pełni zgodny z konwencjami Laravel.
Wyniki końcowe – maj 2025
Model | Średnia ocena |
---|---|
Anthropic | 87,7 |
DeepSeek | 88,0 |
OpenAI | 86,7 |
Gemini | 88,3 |
Mimo że Gemini osiągnął najwyższą średnią, różnice między modelami są minimalne. Każdy wyróżnia się w innym obszarze: Anthropic dominuje w algorytmice, DeepSeek błyszczy w backendzie, a Gemini utrzymuje wysoki, równy poziom praktyczny.
Co dalej?
Czołowe modele LLM coraz bardziej się do siebie zbliżają. W miarę ich rozwoju, regularne benchmarki pozwalają śledzić, który najlepiej sprawdza się w codziennej pracy programisty.
Planujemy kolejne edycje i nowe typy zadań – być może frontend, DevOps lub testowanie automatyczne. Masz pomysł? Daj nam znać.