Polska scena technologiczna wzbogaciła się o nowy, zaawansowany model językowy – PLLuM (Polish Large Language Model). Ten otwarty projekt, zainicjowany przez konsorcjum sześciu wiodących polskich instytucji naukowych, ma na celu wsparcie administracji publicznej, biznesu oraz środowisk naukowych w zakresie przetwarzania i generowania tekstów w języku polskim.
 
                            
PLLuM: Nowa era polskiej sztucznej inteligencji
PLLuM został oficjalnie zaprezentowany 24 lutego 2025 roku przez Ministerstwo Cyfryzacji, a jego wdrożenie zapowiedziano na portalu gov.pl. Model ten wyróżnia się elastycznością i skalowalnością, operując na strukturach od 8 do 70 miliardów parametrów, co umożliwia precyzyjne generowanie treści w języku polskim. Jego fundamentem jest obszerny korpus tekstowy, zawierający około 150 miliardów tokenów, starannie wyselekcjonowanych i oczyszczonych pod kątem poprawności językowej oraz różnorodności tematycznej.
Projekt PLLuM to efekt współpracy następujących instytucji:
- Politechnika Wrocławska (lider projektu) angażuje się w rozwój algorytmów dla nowoczesnych modeli językowych. 
- NASK Państwowy Instytut Badawczy 
- Instytut Podstaw Informatyki Polskiej Akademii Nauk prowadzi badania nad etycznymi aspektami rozwoju sztucznej inteligencji w Polsce. 
- Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy 
- Uniwersytet Łódzki 
- Instytut Slawistyki Polskiej Akademii Nauk 
Celem projektu jest stworzenie narzędzia, które nie tylko zaspokoi potrzeby administracji publicznej, ale także będzie dostępne dla szerokiego grona użytkowników, wspierając rozwój innowacji w sektorze prywatnym.
BielikAI: Pionier w polskich modelach językowych
Innym znaczącym polskim modelem językowym jest BielikAI, opracowany przez Fundację SpeakLeash we współpracy z Akademickim Centrum Komputerowym Cyfronet AGH, który również działa w dziedzinie sztucznej inteligencji. Pierwsza wersja Bielika, oparta na architekturze Mistral-7B, została zaprezentowana w 2024 roku i zawierała 7 miliardów parametrów. Model ten został wytrenowany na korpusie języka polskiego, składającym się z ponad 70 miliardów tokenów.
W sierpniu 2024 roku ukazała się druga wersja – Bielik v2, która przyniosła znaczące usprawnienia w algorytmie przetwarzania języka naturalnego. Model ten został rozbudowany do 11 miliardów parametrów i posiada szerokie okno kontekstowe, obsługujące do 32 768 tokenów. Dzięki temu Bielik v2 potrafi przetwarzać dłuższe i bardziej złożone teksty, co czyni go jednym z najpotężniejszych modeli językowych stworzonych w Polsce.
Porównanie kluczowych cech polskich modeli językowych
Poniżej przedstawiamy zestawienie najważniejszych cech oraz zastosowań modeli PLLuM i BielikAI:
| Cecha/Zastosowanie | PLLuM | BielikAI | 
| Liczba parametrów | 8–70 miliardów | 11 miliardów | 
| Zakres danych treningowych | Około 150 miliardów tokenów | Ponad 70 miliardów tokenów | 
| Główne zastosowania BielikAI obejmują generowanie treści oraz wsparcie dla aplikacji AI, co czyni go wartościowym narzędziem w dziedzinie sztucznej inteligencji. | Administracja publiczna, biznes, nauka | Generowanie treści, analiza tekstów oraz wsparcie dla aplikacji AI, takich jak chatgpt, to kluczowe funkcje BielikAI. | 
| Dostępność | Otwarta licencja, dostępny dla wszystkich | Open-source, dostępny na platformie Hugging Face | 
| Unikalne cechy | Skalowalność, dostosowanie do specyfiki języka polskiego i terminologii administracyjnej | Szerokie okno kontekstowe (32 768 tokenów), zdolność przetwarzania dłuższych i bardziej złożonych tekstów | 
Oba modele stanowią istotny krok naprzód w rozwoju polskiej sztucznej inteligencji, oferując zaawansowane narzędzia do przetwarzania języka naturalnego i wspierając różnorodne sektory gospodarki oraz administracji.
Rozwój sztucznej inteligencji w Polsce
Polskie modele językowe, takie jak PLLuM i BielikAI, stanowią przełom w rozwoju sztucznej inteligencji dla języka polskiego. PLLuM, opracowany przez konsorcjum wiodących instytucji badawczych, oferuje szeroką skalowalność i precyzję, wspierając administrację publiczną, biznes oraz naukę. Z kolei BielikAI, rozwijany przez Fundację SpeakLeash i Cyfronet AGH, koncentruje się na generowaniu treści i analizie tekstów, zapewniając otwartą dostępność dla społeczności badawczej i technologicznej.
Oba modele różnią się pod względem liczby parametrów, zakresu danych treningowych i zastosowań, jednak łączy je wspólny cel – rozwój innowacyjnych narzędzi językowych, które mogą usprawnić komunikację, automatyzację procesów oraz dostęp do zaawansowanych technologii AI w języku polskim. Wzrost liczby takich inicjatyw pokazuje, że Polska aktywnie uczestniczy w globalnym wyścigu o rozwój sztucznej inteligencji, tworząc własne, zaawansowane rozwiązania dostosowane do unikalnych potrzeb językowych i kulturowych.
Źródła:
- gov.pl/web/cyfryzacja/polska-buduje-wlasna-sztuczna-inteligencje--pllum-gotowy-do-dzialania 
- poznaj-ai.pl/blog/aktualnosci/bielik-v2-wyladowal-polski-model-jezykowy-ai-otwarty-dla-wszystkich/ 
- pllum.org.pl/ 
 
                      
         
         
         
         
                     
                     
                     
                     
                     
                     
                     
                     
                     
                             
                             
                             
                            