Dominacja anglojęzycznych modeli AI — GPT-4, Claude, Gemini — stwarza specyficzne wyzwania dla języka polskiego. Polszczyzna to język fleksyjny z bogatą morfologią, swobodnym szykiem zdania i specyficzną fonetką. Modele trenowane głównie na angielskim tekście radzą sobie z polskim, ale nie na poziomie, jaki oferują modele wytrenowane na dedykowanych polskich korpusach. Dlatego od kilku lat rozwijane są polskie modele językowe.

Dlaczego potrzebujemy polskich modeli?

1. Jakość przetwarzania polszczyzny

Modele wielojęzyczne (mBERT, XLM-R) traktują polski jako jeden z wielu języków. Dedykowane modele polskie:

  • Lepiej radzą sobie z fleksją (odmianą przez przypadki, osoby, czasy)
  • Lepiej rozumieją polską składnię (swobodny szyk zdania)
  • Lepiej obsługują polskie encje (nazwy miejscowości, organizacji, osób)
  • Mają lepszą tokenizację — polskie słowa nie są rozbijane na nonsensowne fragmenty

2. Suwerenność cyfrowa

Poleganie na zamkniętych modelach zagranicznych korporacji (OpenAI, Google, Anthropic) oznacza:

  • Brak kontroli nad zachowaniem modelu
  • Wysyłanie danych za granicę (GDPR, tajemnica przedsiębiorstwa)
  • Zależność od polityki cenowej i dostępności usługi
  • Brak wpływu na wartości i kulturowy kontekst modelu

Polskie modele open-source dają autonomię i kontrolę.

3. Koszty i dostępność

Lokalne modele polskie mogą działać na prywatnej infrastrukturze — bez opłat per token, bez limitów API, z pełną prywatnością danych.

Modele enkodowe (BERT-like)

Herbert

Herbert (Mroczkowski et al., Allegro AI) to pierwszy poważny polski model typu BERT. Wytrenowany od zera na dużym polskim korpusie (ok. 50 GB tekstu z polskiej Wikipedii, OSCAR, polskich stron internetowych).

  • Architektura: BERT-base (12 warstw, 110 mln parametrów)
  • Tokenizer: SentencePiece z polskim słownikiem (50 000 tokenów)
  • Pretrenowanie: Masked Language Modeling na polskim tekście
  • Zastosowania: NER, klasyfikacja tekstu, analiza sentymentu, semantic similarity

Herbert znacząco przewyższa mBERT i XLM-R na polskich benchmarkach (KLEJ — PolEval NLP tasks). Jest dostępny na Hugging Face.

Polbert

Polbert to model BERT wytrenowany na polskiej Wikipedii i korpusie NKJP. Mniejszy niż Herbert, ale prosty w użyciu.

Polish RoBERTa

Modele RoBERTa wytrenowane na polskim korpusie przez zespół SDR PoS (Wrocław). Bazują na ulepszonej procedurze treningu RoBERTa (bez NSP, dynamiczne maskowanie).

Modele generatywne (GPT-like)

PLLuM (Polish Large Language Universal Model)

PLLuM (Polish Large Language Model) to rodzina otwartych polskich modeli językowych. Projekt prowadzony przez konsorcjum pod przewodnictwem Politechniki Wrocławskiej (z NASK PIB, IPI PAN, OPI, IDEAS NCBR, Uniwersytetem Łódzkim, Cyfronetem AGH), finansowany przez Ministerstwo Cyfryzacji (dotacja 14,5 mln PLN). Projekt PLLuM formalnie zakończono 31 grudnia 2024; dalszy rozwój przejęła inicjatywa HIVE AI.

  • Modele natywne: PLLuM-12B (base/instruct/chat) oraz PLLuM-8x7B (MoE, ~47B parametrów)
  • Warianty fine-tune Llama 3.1: Llama-PLLuM-8B i Llama-PLLuM-70B (każdy w wariantach base/instruct/chat oraz nc-* na licencji niekomercyjnej)
  • Llama-PLLuM-70B-instruct (opublikowany 5 listopada 2025 pod szyldem HIVE AI) — flagowy polski model 70B, fine-tune Llama 3.1
  • Wszystkie modele dostępne na Hugging Face: CYFRAGOVPL
  • Dane treningowe: dedykowany polski korpus — od polskiej Wikipedii i prasy po dokumenty urzędowe i książki
  • Tokenizer: optymalizowany pod polszczyznę — polskie słowa nie są rozbijane na subword-y tak agresywnie jak w wielojęzycznych tokenizatorach
  • Pretrenowanie: causal language modeling na polskim i angielskim tekście
  • Cel: model bazowy do fine-tuningu na specyficzne zastosowania

PLLuM to pierwszy polski model o skali porównywalnej z Llama 2, wyznaczający nowy standard dla polskiego NLP.

Bielik

Bielik to polski model językowy rozwijany przez SpeakLeash — społeczność open-source. Nazwa nawiązuje do bielika — polskiego orła.

  • Architektura: decoder-only, bazuje na Mistral 7B/Llama z adaptacją do polskiego
  • Wersje: Bielik 7B v1 (2024), Bielik 11B v2.6 (2025) — ulepszony 11B, Bielik-11B-v3.0-Instruct (2025) — najnowszy flagowy Bielik (partnerstwo SpeakLeash + ACK Cyfronet AGH). Wszystkie z wariantami Instruct
  • Dane: polski korpus SpeakLeash (jeden z największych otwartych polskich zbiorów tekstu)
  • Wyróżnik: aktywna społeczność, szybki rozwój, dostępność na Hugging Face
  • Licencja: Apache 2.0 — pełna swoboda komercyjnego użycia

Bielik Instruct dobrze radzi sobie z konwersacjami po polsku, streszczaniem, tłumaczeniem i prostym rozumowaniem — na poziomie dostępnym lokalnie bez API.

Qra

Qra (Quantitative Risk Analytics / Instytut Informatyki PAN) — seria polskich modeli o różnych rozmiarach, trenowanych z naciskiem na jakość polskiego tekstu i zgodność z polskim prawem (GDPR, AI Act).

Polskie korpusy i zasoby

SpeakLeash

Największy otwarty polski korpus tekstowy — ponad 40 miliardów tokenów polskiego tekstu. Zawiera:

  • Polską Wikipedię
  • Polskie strony internetowe (Common Crawl, filtrowane)
  • Książki w domenie publicznej (Wolne Lektury)
  • Dane parlamentarne
  • Artykuły prasowe

NKJP (Narodowy Korpus Języka Polskiego)

Referencyjny korpus polszczyzny — 1,8 mld słów z różnych gatunków i epok. Standard dla badań lingwistycznych.

KLEJ Benchmark

Polski odpowiednik GLUE — zestaw zadań do ewaluacji modeli NLP w polskim:

  • Analiza sentymentu (polskie recenzje)
  • NER (polskie encje)
  • Textual entailment
  • Question answering

Zastosowania polskich modeli

Administracja publiczna

  • Analiza dokumentów urzędowych
  • Streszczanie aktów prawnych
  • Chatboty obsługi obywatela
  • Klasyfikacja petycji i wniosków

Biznes

  • Analiza sentymentu polskich opinii produktowych
  • Kategoryzacja zgłoszeń klienta
  • Automatyczne odpowiedzi na FAQ
  • Ekstrakcja informacji z polskich umów

Edukacja

  • Systemy tutorskie po polsku
  • Automatyczne ocenianie wypracowań
  • Generowanie materiałów edukacyjnych

Media

  • Streszczanie artykułów prasowych
  • Detekcja fake news w polskim Internecie
  • Automatyczna moderacja komentarzy

Polskie modele vs wielojęzyczne LLM

Cecha Polski model (PLLuM, Bielik) Wielojęzyczny LLM (GPT-4, Claude)
Jakość polskiego Bardzo dobra Dobra (ale nie doskonała)
Rozmiar 11B-70B (Bielik-11B-v3.0-Instruct, Llama-PLLuM-70B-instruct) 100B-2T+ (GPT-5, Claude 4.7, Llama 4 Behemoth)
Ogólne zdolności Ograniczone Szerokie
Rozumowanie Słabsze Silne
Koszt Darmowy (self-hosted) Per token (API)
Prywatność Pełna (lokalnie) Dane wysyłane do USA
Kontrola Pełna Brak

Kiedy użyć polskiego modelu?

  • Prywatność danych jest krytyczna (medycyna, prawo, finanse)
  • Koszt per token jest problemem (dużo zapytań)
  • Potrzebujesz specjalistycznego fine-tuningu na polskich danych
  • Zadanie dotyczy tylko polskiego tekstu (klasyfikacja, NER, sentyment)

Kiedy użyć wielojęzycznego LLM?

  • Potrzebujesz zaawansowanego rozumowania
  • Zadanie wymaga wiedzy ogólnej (question answering, generowanie treści)
  • Wielojęzyczność jest zaletą
  • Skala projektu nie uzasadnia self-hostingu

Przyszłość polskich modeli

  • Skalowanie — PLLuM i Bielik w wersjach 30B+ i 70B+
  • Multimodalność — polskie modele rozumiejące tekst, obraz i audio
  • Specjalizacja — modele dziedzinowe (prawo, medycyna, finanse)
  • EU AI Act — od sierpnia 2025 obowiązują kluczowe przepisy (general-purpose AI), do sierpnia 2026 pełna implementacja. Polskie modele open-weight mają przewagę zgodności z wymogami przejrzystości i suwerenności danych (RODO + AI Act)
  • Federacja — polskie modele jako część europejskiej infrastruktury AI

Podsumowanie

Polskie modele językowe — PLLuM, Bielik, Herbert — to kluczowy element suwerenności cyfrowej i jakościowego przetwarzania języka naturalnego po polsku. Choć nie dorównują (jeszcze) globalnym LLM w ogólnych zdolnościach, oferują lepszą jakość polszczyzny, pełną prywatność i kontrolę. Rosnący ekosystem polskich korpusów i narzędzi sprawia, że przyszłość polskiego NLP jest obiecująca.