Dominacja anglojęzycznych modeli AI — GPT-4, Claude, Gemini — stwarza specyficzne wyzwania dla języka polskiego. Polszczyzna to język fleksyjny z bogatą morfologią, swobodnym szykiem zdania i specyficzną fonetką. Modele trenowane głównie na angielskim tekście radzą sobie z polskim, ale nie na poziomie, jaki oferują modele wytrenowane na dedykowanych polskich korpusach. Dlatego od kilku lat rozwijane są polskie modele językowe.
Dlaczego potrzebujemy polskich modeli?
1. Jakość przetwarzania polszczyzny
Modele wielojęzyczne (mBERT, XLM-R) traktują polski jako jeden z wielu języków. Dedykowane modele polskie:
- Lepiej radzą sobie z fleksją (odmianą przez przypadki, osoby, czasy)
- Lepiej rozumieją polską składnię (swobodny szyk zdania)
- Lepiej obsługują polskie encje (nazwy miejscowości, organizacji, osób)
- Mają lepszą tokenizację — polskie słowa nie są rozbijane na nonsensowne fragmenty
2. Suwerenność cyfrowa
Poleganie na zamkniętych modelach zagranicznych korporacji (OpenAI, Google, Anthropic) oznacza:
- Brak kontroli nad zachowaniem modelu
- Wysyłanie danych za granicę (GDPR, tajemnica przedsiębiorstwa)
- Zależność od polityki cenowej i dostępności usługi
- Brak wpływu na wartości i kulturowy kontekst modelu
Polskie modele open-source dają autonomię i kontrolę.
3. Koszty i dostępność
Lokalne modele polskie mogą działać na prywatnej infrastrukturze — bez opłat per token, bez limitów API, z pełną prywatnością danych.
Modele enkodowe (BERT-like)
Herbert
Herbert (Mroczkowski et al., Allegro AI) to pierwszy poważny polski model typu BERT. Wytrenowany od zera na dużym polskim korpusie (ok. 50 GB tekstu z polskiej Wikipedii, OSCAR, polskich stron internetowych).
- Architektura: BERT-base (12 warstw, 110 mln parametrów)
- Tokenizer: SentencePiece z polskim słownikiem (50 000 tokenów)
- Pretrenowanie: Masked Language Modeling na polskim tekście
- Zastosowania: NER, klasyfikacja tekstu, analiza sentymentu, semantic similarity
Herbert znacząco przewyższa mBERT i XLM-R na polskich benchmarkach (KLEJ — PolEval NLP tasks). Jest dostępny na Hugging Face.
Polbert
Polbert to model BERT wytrenowany na polskiej Wikipedii i korpusie NKJP. Mniejszy niż Herbert, ale prosty w użyciu.
Polish RoBERTa
Modele RoBERTa wytrenowane na polskim korpusie przez zespół SDR PoS (Wrocław). Bazują na ulepszonej procedurze treningu RoBERTa (bez NSP, dynamiczne maskowanie).
Modele generatywne (GPT-like)
PLLuM (Polish Large Language Universal Model)
PLLuM (Polish Large Language Model) to rodzina otwartych polskich modeli językowych. Projekt prowadzony przez konsorcjum pod przewodnictwem Politechniki Wrocławskiej (z NASK PIB, IPI PAN, OPI, IDEAS NCBR, Uniwersytetem Łódzkim, Cyfronetem AGH), finansowany przez Ministerstwo Cyfryzacji (dotacja 14,5 mln PLN). Projekt PLLuM formalnie zakończono 31 grudnia 2024; dalszy rozwój przejęła inicjatywa HIVE AI.
- Modele natywne: PLLuM-12B (base/instruct/chat) oraz PLLuM-8x7B (MoE, ~47B parametrów)
- Warianty fine-tune Llama 3.1: Llama-PLLuM-8B i Llama-PLLuM-70B (każdy w wariantach base/instruct/chat oraz nc-* na licencji niekomercyjnej)
- Llama-PLLuM-70B-instruct (opublikowany 5 listopada 2025 pod szyldem HIVE AI) — flagowy polski model 70B, fine-tune Llama 3.1
- Wszystkie modele dostępne na Hugging Face: CYFRAGOVPL
- Dane treningowe: dedykowany polski korpus — od polskiej Wikipedii i prasy po dokumenty urzędowe i książki
- Tokenizer: optymalizowany pod polszczyznę — polskie słowa nie są rozbijane na subword-y tak agresywnie jak w wielojęzycznych tokenizatorach
- Pretrenowanie: causal language modeling na polskim i angielskim tekście
- Cel: model bazowy do fine-tuningu na specyficzne zastosowania
PLLuM to pierwszy polski model o skali porównywalnej z Llama 2, wyznaczający nowy standard dla polskiego NLP.
Bielik
Bielik to polski model językowy rozwijany przez SpeakLeash — społeczność open-source. Nazwa nawiązuje do bielika — polskiego orła.
- Architektura: decoder-only, bazuje na Mistral 7B/Llama z adaptacją do polskiego
- Wersje: Bielik 7B v1 (2024), Bielik 11B v2.6 (2025) — ulepszony 11B, Bielik-11B-v3.0-Instruct (2025) — najnowszy flagowy Bielik (partnerstwo SpeakLeash + ACK Cyfronet AGH). Wszystkie z wariantami Instruct
- Dane: polski korpus SpeakLeash (jeden z największych otwartych polskich zbiorów tekstu)
- Wyróżnik: aktywna społeczność, szybki rozwój, dostępność na Hugging Face
- Licencja: Apache 2.0 — pełna swoboda komercyjnego użycia
Bielik Instruct dobrze radzi sobie z konwersacjami po polsku, streszczaniem, tłumaczeniem i prostym rozumowaniem — na poziomie dostępnym lokalnie bez API.
Qra
Qra (Quantitative Risk Analytics / Instytut Informatyki PAN) — seria polskich modeli o różnych rozmiarach, trenowanych z naciskiem na jakość polskiego tekstu i zgodność z polskim prawem (GDPR, AI Act).
Polskie korpusy i zasoby
SpeakLeash
Największy otwarty polski korpus tekstowy — ponad 40 miliardów tokenów polskiego tekstu. Zawiera:
- Polską Wikipedię
- Polskie strony internetowe (Common Crawl, filtrowane)
- Książki w domenie publicznej (Wolne Lektury)
- Dane parlamentarne
- Artykuły prasowe
NKJP (Narodowy Korpus Języka Polskiego)
Referencyjny korpus polszczyzny — 1,8 mld słów z różnych gatunków i epok. Standard dla badań lingwistycznych.
KLEJ Benchmark
Polski odpowiednik GLUE — zestaw zadań do ewaluacji modeli NLP w polskim:
- Analiza sentymentu (polskie recenzje)
- NER (polskie encje)
- Textual entailment
- Question answering
Zastosowania polskich modeli
Administracja publiczna
- Analiza dokumentów urzędowych
- Streszczanie aktów prawnych
- Chatboty obsługi obywatela
- Klasyfikacja petycji i wniosków
Biznes
- Analiza sentymentu polskich opinii produktowych
- Kategoryzacja zgłoszeń klienta
- Automatyczne odpowiedzi na FAQ
- Ekstrakcja informacji z polskich umów
Edukacja
- Systemy tutorskie po polsku
- Automatyczne ocenianie wypracowań
- Generowanie materiałów edukacyjnych
Media
- Streszczanie artykułów prasowych
- Detekcja fake news w polskim Internecie
- Automatyczna moderacja komentarzy
Polskie modele vs wielojęzyczne LLM
| Cecha | Polski model (PLLuM, Bielik) | Wielojęzyczny LLM (GPT-4, Claude) |
|---|---|---|
| Jakość polskiego | Bardzo dobra | Dobra (ale nie doskonała) |
| Rozmiar | 11B-70B (Bielik-11B-v3.0-Instruct, Llama-PLLuM-70B-instruct) | 100B-2T+ (GPT-5, Claude 4.7, Llama 4 Behemoth) |
| Ogólne zdolności | Ograniczone | Szerokie |
| Rozumowanie | Słabsze | Silne |
| Koszt | Darmowy (self-hosted) | Per token (API) |
| Prywatność | Pełna (lokalnie) | Dane wysyłane do USA |
| Kontrola | Pełna | Brak |
Kiedy użyć polskiego modelu?
- Prywatność danych jest krytyczna (medycyna, prawo, finanse)
- Koszt per token jest problemem (dużo zapytań)
- Potrzebujesz specjalistycznego fine-tuningu na polskich danych
- Zadanie dotyczy tylko polskiego tekstu (klasyfikacja, NER, sentyment)
Kiedy użyć wielojęzycznego LLM?
- Potrzebujesz zaawansowanego rozumowania
- Zadanie wymaga wiedzy ogólnej (question answering, generowanie treści)
- Wielojęzyczność jest zaletą
- Skala projektu nie uzasadnia self-hostingu
Przyszłość polskich modeli
- Skalowanie — PLLuM i Bielik w wersjach 30B+ i 70B+
- Multimodalność — polskie modele rozumiejące tekst, obraz i audio
- Specjalizacja — modele dziedzinowe (prawo, medycyna, finanse)
- EU AI Act — od sierpnia 2025 obowiązują kluczowe przepisy (general-purpose AI), do sierpnia 2026 pełna implementacja. Polskie modele open-weight mają przewagę zgodności z wymogami przejrzystości i suwerenności danych (RODO + AI Act)
- Federacja — polskie modele jako część europejskiej infrastruktury AI
Podsumowanie
Polskie modele językowe — PLLuM, Bielik, Herbert — to kluczowy element suwerenności cyfrowej i jakościowego przetwarzania języka naturalnego po polsku. Choć nie dorównują (jeszcze) globalnym LLM w ogólnych zdolnościach, oferują lepszą jakość polszczyzny, pełną prywatność i kontrolę. Rosnący ekosystem polskich korpusów i narzędzi sprawia, że przyszłość polskiego NLP jest obiecująca.