Playground AI

Eksperymentuj z algorytmami AI bezpośrednio w przeglądarce.

Tokenizer

Tokenizacja to pierwszy krok przetwarzania tekstu przez modele AI — dzieli tekst na mniejsze jednostki (tokeny), które model rozumie. Metoda BPE (Byte Pair Encoding), stosowana w GPT i BERT, łączy najczęstsze pary znaków w subtokeny, osiągając balans między elastycznością a efektywnością. Liczba tokenów bezpośrednio wpływa na koszt wywołań API.

Czego się nauczysz

  • Czym różnią się tokenizacje: znakowa, słowna i BPE
  • Jak BPE buduje słownik subtokenów z par znaków
  • Dlaczego liczba tokenów wpływa na koszt i wydajność
  • Jak polski tekst jest tokenizowany w porównaniu do angielskiego

Jak korzystać z wizualizacji

Wizualizacja tokenizacji tekstu — fundamentalnego kroku w przetwarzaniu języka naturalnego. Wpisz tekst po polsku i porównaj trzy metody: znakową (char-level), słowną (word-level) i BPE (subword). Kolorowe boxy pokazują granice tokenów, a wykres porównuje liczbę tokenów dla każdej metody.

Ładowanie wizualizacji...

Poznaj teorię

Wizualizacja to świetny start, ale pełne zrozumienie wymaga teorii. Przeczytaj artykuł w bazie wiedzy, żeby dowiedzieć się jak to naprawdę działa pod maską.

Przeczytaj artykuł →