Den polska teknologiscenen har berikats med en ny, avancerad språkmodell – PLLuM (Polish Large Language Model). Detta öppna projekt, initierat av ett konsortium av sex ledande polska vetenskapliga institutioner, syftar till att stödja offentlig förvaltning, näringsliv och akademiska miljöer i bearbetning och generering av texter på polska.
PLLuM: En ny era av polsk artificiell intelligens
PLLuM presenterades officiellt den 24 februari 2025 av Ministeriet för digitalisering, och dess implementering har tillkännagivits på portalen gov.pl. Modellen utmärker sig genom sin flexibilitet och skalbarhet och fungerar inom strukturer från 8 till 70 miljarder parametrar, vilket möjliggör exakt generering av innehåll på polska. Dess grund är en omfattande textkorpus med cirka 150 miljarder tokens, noggrant utvalda och rengjorda för språklig korrekthet och tematisk mångfald.
Projektet PLLuM är ett resultat av samarbetet mellan följande institutioner:
- Tekniska universitetet i Wrocław (projektledare) – engagerat i utvecklingen av algoritmer för moderna språkmodeller.
- NASK – Nationellt forskningsinstitut
- Institutet för grundläggande informatik vid Polska vetenskapsakademien – bedriver forskning om de etiska aspekterna av artificiell intelligens i Polen.
- Centrum för informationsbehandling – Nationellt forskningsinstitut
- Universitetet i Łódź
- Institutet för slavistik vid Polska vetenskapsakademien
Målet med projektet är att skapa ett verktyg som inte bara möter behoven hos offentlig förvaltning utan också är tillgängligt för en bred användarbas, vilket stöder innovation inom den privata sektorn.
BielikAI: En pionjär inom polska språkmodeller
En annan viktig polsk språkmodell är BielikAI, utvecklad av SpeakLeash Foundation i samarbete med Akademiska datorcentret Cyfronet AGH, som också är verksamt inom artificiell intelligens. Den första versionen av Bielik, baserad på Mistral-7B-arkitekturen, presenterades 2024 och innehöll 7 miljarder parametrar. Modellen tränades på en polsk språk-korpus bestående av över 70 miljarder tokens.
I augusti 2024 släpptes den andra versionen – Bielik v2, som medförde betydande förbättringar inom naturlig språkbehandling. Modellen utökades till 11 miljarder parametrar och har ett brett kontextfönster som hanterar upp till 32 768 tokens. Detta gör att Bielik v2 kan bearbeta längre och mer komplexa texter, vilket gör den till en av de mest kraftfulla språkmodellerna som skapats i Polen.
Jämförelse av nyckelfunktioner i polska språkmodeller
Nedan presenteras en jämförelse av de viktigaste egenskaperna och användningsområdena för modellerna PLLuM och BielikAI:
Funktion/Användningsområde | PLLuM | BielikAI |
---|---|---|
Antal parametrar | 8–70 miljarder | 11 miljarder |
Träningsdata | Cirka 150 miljarder tokens | Över 70 miljarder tokens |
Huvudsakliga användningsområden | Offentlig förvaltning, näringsliv, forskning | Innehållsgenerering, textanalys och AI-applikationer |
Tillgänglighet | Öppen licens, tillgänglig för alla | Open-source, tillgänglig på Hugging Face |
Unika egenskaper | Skalbarhet, anpassning till polsk språkstruktur och administrativ terminologi | Bred kontext (32 768 tokens), förmåga att bearbeta längre och mer komplexa texter |
Båda modellerna representerar ett betydande framsteg inom utvecklingen av polsk artificiell intelligens. De erbjuder avancerade verktyg för bearbetning av naturligt språk och stöder olika sektorer inom ekonomi och offentlig förvaltning.
Utvecklingen av artificiell intelligens i Polen
Polska språkmodeller som PLLuM och BielikAI utgör en milstolpe i utvecklingen av artificiell intelligens för det polska språket. PLLuM, utvecklad av ett konsortium av ledande forskningsinstitutioner, erbjuder hög skalbarhet och precision, vilket stödjer offentlig förvaltning, näringsliv och akademisk forskning. BielikAI, utvecklad av SpeakLeash Foundation och Cyfronet AGH, fokuserar på innehållsgenerering och textanalys, med öppen tillgänglighet för forskarsamhället och tekniksektorn.
Modellerna skiljer sig åt i fråga om parametrar, träningsdata och användningsområden, men de delar ett gemensamt mål – att utveckla innovativa språkverktyg som kan förbättra kommunikation, automatisering och tillgång till avancerad AI-teknologi på polska. Den växande mängden av sådana initiativ visar att Polen aktivt deltar i den globala kapplöpningen om AI-utveckling och skapar sina egna avancerade lösningar anpassade till landets språkliga och kulturella behov.