Polska scena technologiczna wzbogaciła się o nowy, zaawansowany model językowy – PLLuM (Polish Large Language Model). Ten otwarty projekt, zainicjowany przez konsorcjum sześciu wiodących polskich instytucji naukowych, ma na celu wsparcie administracji publicznej, biznesu oraz środowisk naukowych w zakresie przetwarzania i generowania tekstów w języku polskim.
PLLuM: Nowa era polskiej sztucznej inteligencji
PLLuM został oficjalnie zaprezentowany 24 lutego 2025 roku przez Ministerstwo Cyfryzacji, a jego wdrożenie zapowiedziano na portalu gov.pl. Model ten wyróżnia się elastycznością i skalowalnością, operując na strukturach od 8 do 70 miliardów parametrów, co umożliwia precyzyjne generowanie treści w języku polskim. Jego fundamentem jest obszerny korpus tekstowy, zawierający około 150 miliardów tokenów, starannie wyselekcjonowanych i oczyszczonych pod kątem poprawności językowej oraz różnorodności tematycznej.
Projekt PLLuM to efekt współpracy następujących instytucji:
Politechnika Wrocławska (lider projektu) angażuje się w rozwój algorytmów dla nowoczesnych modeli językowych.
NASK Państwowy Instytut Badawczy
Instytut Podstaw Informatyki Polskiej Akademii Nauk prowadzi badania nad etycznymi aspektami rozwoju sztucznej inteligencji w Polsce.
Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy
Uniwersytet Łódzki
Instytut Slawistyki Polskiej Akademii Nauk
Celem projektu jest stworzenie narzędzia, które nie tylko zaspokoi potrzeby administracji publicznej, ale także będzie dostępne dla szerokiego grona użytkowników, wspierając rozwój innowacji w sektorze prywatnym.
BielikAI: Pionier w polskich modelach językowych
Innym znaczącym polskim modelem językowym jest BielikAI, opracowany przez Fundację SpeakLeash we współpracy z Akademickim Centrum Komputerowym Cyfronet AGH, który również działa w dziedzinie sztucznej inteligencji. Pierwsza wersja Bielika, oparta na architekturze Mistral-7B, została zaprezentowana w 2024 roku i zawierała 7 miliardów parametrów. Model ten został wytrenowany na korpusie języka polskiego, składającym się z ponad 70 miliardów tokenów.
W sierpniu 2024 roku ukazała się druga wersja – Bielik v2, która przyniosła znaczące usprawnienia w algorytmie przetwarzania języka naturalnego. Model ten został rozbudowany do 11 miliardów parametrów i posiada szerokie okno kontekstowe, obsługujące do 32 768 tokenów. Dzięki temu Bielik v2 potrafi przetwarzać dłuższe i bardziej złożone teksty, co czyni go jednym z najpotężniejszych modeli językowych stworzonych w Polsce.
Porównanie kluczowych cech polskich modeli językowych
Poniżej przedstawiamy zestawienie najważniejszych cech oraz zastosowań modeli PLLuM i BielikAI:
Cecha/Zastosowanie | PLLuM | BielikAI |
Liczba parametrów | 8–70 miliardów | 11 miliardów |
Zakres danych treningowych | Około 150 miliardów tokenów | Ponad 70 miliardów tokenów |
Główne zastosowania BielikAI obejmują generowanie treści oraz wsparcie dla aplikacji AI, co czyni go wartościowym narzędziem w dziedzinie sztucznej inteligencji. | Administracja publiczna, biznes, nauka | Generowanie treści, analiza tekstów oraz wsparcie dla aplikacji AI, takich jak chatgpt, to kluczowe funkcje BielikAI. |
Dostępność | Otwarta licencja, dostępny dla wszystkich | Open-source, dostępny na platformie Hugging Face |
Unikalne cechy | Skalowalność, dostosowanie do specyfiki języka polskiego i terminologii administracyjnej | Szerokie okno kontekstowe (32 768 tokenów), zdolność przetwarzania dłuższych i bardziej złożonych tekstów |
Oba modele stanowią istotny krok naprzód w rozwoju polskiej sztucznej inteligencji, oferując zaawansowane narzędzia do przetwarzania języka naturalnego i wspierając różnorodne sektory gospodarki oraz administracji.
Rozwój sztucznej inteligencji w Polsce
Polskie modele językowe, takie jak PLLuM i BielikAI, stanowią przełom w rozwoju sztucznej inteligencji dla języka polskiego. PLLuM, opracowany przez konsorcjum wiodących instytucji badawczych, oferuje szeroką skalowalność i precyzję, wspierając administrację publiczną, biznes oraz naukę. Z kolei BielikAI, rozwijany przez Fundację SpeakLeash i Cyfronet AGH, koncentruje się na generowaniu treści i analizie tekstów, zapewniając otwartą dostępność dla społeczności badawczej i technologicznej.
Oba modele różnią się pod względem liczby parametrów, zakresu danych treningowych i zastosowań, jednak łączy je wspólny cel – rozwój innowacyjnych narzędzi językowych, które mogą usprawnić komunikację, automatyzację procesów oraz dostęp do zaawansowanych technologii AI w języku polskim. Wzrost liczby takich inicjatyw pokazuje, że Polska aktywnie uczestniczy w globalnym wyścigu o rozwój sztucznej inteligencji, tworząc własne, zaawansowane rozwiązania dostosowane do unikalnych potrzeb językowych i kulturowych.
Źródła:
gov.pl/web/cyfryzacja/polska-buduje-wlasna-sztuczna-inteligencje--pllum-gotowy-do-dzialania
poznaj-ai.pl/blog/aktualnosci/bielik-v2-wyladowal-polski-model-jezykowy-ai-otwarty-dla-wszystkich/
pllum.org.pl/