Polski model AI: Czym jest PLLuM?

News

Polska scena technologiczna wzbogaciła się o nowy, zaawansowany model językowy – PLLuM (Polish Large Language Model). Ten otwarty projekt, zainicjowany przez konsorcjum sześciu wiodących polskich instytucji naukowych, ma na celu wsparcie administracji publicznej, biznesu oraz środowisk naukowych w zakresie przetwarzania i generowania tekstów w języku polskim.

Preview Image

PLLuM: Nowa era polskiej sztucznej inteligencji

PLLuM został oficjalnie zaprezentowany 24 lutego 2025 roku przez Ministerstwo Cyfryzacji, a jego wdrożenie zapowiedziano na portalu gov.pl. Model ten wyróżnia się elastycznością i skalowalnością, operując na strukturach od 8 do 70 miliardów parametrów, co umożliwia precyzyjne generowanie treści w języku polskim. Jego fundamentem jest obszerny korpus tekstowy, zawierający około 150 miliardów tokenów, starannie wyselekcjonowanych i oczyszczonych pod kątem poprawności językowej oraz różnorodności tematycznej.

Projekt PLLuM to efekt współpracy następujących instytucji:

  • Politechnika Wrocławska (lider projektu) angażuje się w rozwój algorytmów dla nowoczesnych modeli językowych.

  • NASK Państwowy Instytut Badawczy

  • Instytut Podstaw Informatyki Polskiej Akademii Nauk prowadzi badania nad etycznymi aspektami rozwoju sztucznej inteligencji w Polsce.

  • Ośrodek Przetwarzania Informacji Państwowy Instytut Badawczy

  • Uniwersytet Łódzki

  • Instytut Slawistyki Polskiej Akademii Nauk

Celem projektu jest stworzenie narzędzia, które nie tylko zaspokoi potrzeby administracji publicznej, ale także będzie dostępne dla szerokiego grona użytkowników, wspierając rozwój innowacji w sektorze prywatnym.

BielikAI: Pionier w polskich modelach językowych

Innym znaczącym polskim modelem językowym jest BielikAI, opracowany przez Fundację SpeakLeash we współpracy z Akademickim Centrum Komputerowym Cyfronet AGH, który również działa w dziedzinie sztucznej inteligencji. Pierwsza wersja Bielika, oparta na architekturze Mistral-7B, została zaprezentowana w 2024 roku i zawierała 7 miliardów parametrów. Model ten został wytrenowany na korpusie języka polskiego, składającym się z ponad 70 miliardów tokenów.

W sierpniu 2024 roku ukazała się druga wersja – Bielik v2, która przyniosła znaczące usprawnienia w algorytmie przetwarzania języka naturalnego. Model ten został rozbudowany do 11 miliardów parametrów i posiada szerokie okno kontekstowe, obsługujące do 32 768 tokenów. Dzięki temu Bielik v2 potrafi przetwarzać dłuższe i bardziej złożone teksty, co czyni go jednym z najpotężniejszych modeli językowych stworzonych w Polsce.

Porównanie kluczowych cech polskich modeli językowych

Poniżej przedstawiamy zestawienie najważniejszych cech oraz zastosowań modeli PLLuM i BielikAI:

Cecha/Zastosowanie

PLLuM

BielikAI

Liczba parametrów

8–70 miliardów

11 miliardów

Zakres danych treningowych

Około 150 miliardów tokenów

Ponad 70 miliardów tokenów

Główne zastosowania BielikAI obejmują generowanie treści oraz wsparcie dla aplikacji AI, co czyni go wartościowym narzędziem w dziedzinie sztucznej inteligencji.

Administracja publiczna, biznes, nauka

Generowanie treści, analiza tekstów oraz wsparcie dla aplikacji AI, takich jak chatgpt, to kluczowe funkcje BielikAI.

Dostępność

Otwarta licencja, dostępny dla wszystkich

Open-source, dostępny na platformie Hugging Face

Unikalne cechy

Skalowalność, dostosowanie do specyfiki języka polskiego i terminologii administracyjnej

Szerokie okno kontekstowe (32 768 tokenów), zdolność przetwarzania dłuższych i bardziej złożonych tekstów

Oba modele stanowią istotny krok naprzód w rozwoju polskiej sztucznej inteligencji, oferując zaawansowane narzędzia do przetwarzania języka naturalnego i wspierając różnorodne sektory gospodarki oraz administracji.

Rozwój sztucznej inteligencji w Polsce

Polskie modele językowe, takie jak PLLuM i BielikAI, stanowią przełom w rozwoju sztucznej inteligencji dla języka polskiego. PLLuM, opracowany przez konsorcjum wiodących instytucji badawczych, oferuje szeroką skalowalność i precyzję, wspierając administrację publiczną, biznes oraz naukę. Z kolei BielikAI, rozwijany przez Fundację SpeakLeash i Cyfronet AGH, koncentruje się na generowaniu treści i analizie tekstów, zapewniając otwartą dostępność dla społeczności badawczej i technologicznej.

Oba modele różnią się pod względem liczby parametrów, zakresu danych treningowych i zastosowań, jednak łączy je wspólny cel – rozwój innowacyjnych narzędzi językowych, które mogą usprawnić komunikację, automatyzację procesów oraz dostęp do zaawansowanych technologii AI w języku polskim. Wzrost liczby takich inicjatyw pokazuje, że Polska aktywnie uczestniczy w globalnym wyścigu o rozwój sztucznej inteligencji, tworząc własne, zaawansowane rozwiązania dostosowane do unikalnych potrzeb językowych i kulturowych.

Źródła:

  1. gov.pl/web/cyfryzacja/polska-buduje-wlasna-sztuczna-inteligencje--pllum-gotowy-do-dzialania

  2. poznaj-ai.pl/blog/aktualnosci/bielik-v2-wyladowal-polski-model-jezykowy-ai-otwarty-dla-wszystkich/

  3. pllum.org.pl/

Ka
Autor artykułu
Account Manager
Karolina

Z powodzeniem udało nam się wesprzeć
już ponad 70 firm

ABInBev logo
Preasidiad logo
ServicePlan logo
Tigers logo
Dood logo
Beer Hawk logo
Cobiro logo
LaSante logo
Platforma Opon logo
LiteGrav logo
Saveur Biere logo
Sweetco logo
Unicornly logo

...i zostaliśmy uznani za wartościowego partnera technologicznego, który potrafi elastycznie się rozwijać
4.8
...a za nasze wysiłki na przestrzeni lat zostaliśmy wielokrotnie nagrodzeni