Czym różni się AI od ML i deep learning?

AI (sztuczna inteligencja) to najszersze pojęcie — obejmuje wszystkie systemy naśladujące ludzką inteligencję. ML (uczenie maszynowe) to podzbiór AI, w którym systemy uczą się z danych. Deep learning to podzbiór ML wykorzystujący wielowarstwowe sieci neuronowe.

Co to jest token w kontekście AI?

Token to podstawowa jednostka tekstu przetwarzana przez LLM. Może to być słowo, część słowa lub znak interpunkcyjny. Średnio 1 token to około 0,75 słowa w języku angielskim; w języku polskim tokeny są zazwyczaj krótsze ze względu na odmianę wyrazów.

Czym jest halucynacja AI?

Halucynacja to sytuacja, w której model AI generuje informacje fałszywe, ale brzmiące wiarygodnie. To poważny problem LLM — model nie wie, czego nie wie, i generuje odpowiedzi na podstawie wzorców statystycznych, nie zweryfikowanych faktów.

Słownik AI — 50 kluczowych pojęć sztucznej inteligencji

Q: Co to jest fine-tuning modelu AI?

Fine-tuning (dostrajanie) to proces dalszego trenowania wstępnie wytrenowanego modelu na mniejszym, specjalistycznym zbiorze danych. Pozwala dostosować ogólny model (np. GPT-4) do konkretnego zastosowania bez trenowania od zera.

Q: Czym jest RAG?

RAG (Retrieval-Augmented Generation) to technika łącząca LLM z zewnętrzną bazą wiedzy. Model najpierw wyszukuje relevantne fragmenty dokumentów, a następnie generuje odpowiedź na ich podstawie. Zmniejsza halucynacje i umożliwia pracę z aktualnymi danymi.

Ten słownik to kompendium najważniejszych terminów sztucznej inteligencji, uczenia maszynowego i głębokiego uczenia. Każda definicja jest napisana tak, żebyś mógł ją zrozumieć bez wcześniejszego przygotowania — ale z zachowaniem merytorycznej precyzji.

A

AGI (Artificial General Intelligence)

Sztuczna inteligencja ogólna — hipotetyczny system AI zdolny do wykonywania dowolnego zadania intelektualnego na poziomie człowieka. W kwietniu 2026 roku AGI nie istnieje. Obecne systemy (GPT-5, Claude 4.7 Opus, Gemini 2.5 Pro, Llama 4) to ANI — choć modele rozumujące o3 (~88% ARC-AGI, ~95% AIME) zbliżają niektóre benchmarki do progu uznawanego za „pre-AGI" — inteligencja wąska.

Algorytm genetyczny

Metaheurystyka optymalizacyjna inspirowana biologiczną ewolucją. Populacja rozwiązań-kandydatów ewoluuje przez selekcję, krzyżowanie i mutację, dążąc do coraz lepszych wyników. Szczegółowy opis: jak działają algorytmy genetyczne.

Attention (mechanizm atencji)

Mechanizm pozwalający modelowi AI „skupiać uwagę" na najistotniejszych częściach danych wejściowych. Fundament architektury transformera. Self-attention umożliwia modelowi analizowanie relacji między wszystkimi pozycjami w sekwencji jednocześnie.

B

Backpropagation (propagacja wsteczna)

Algorytm obliczający gradienty funkcji straty względem wag sieci neuronowej. Działa „wstecz" — od warstwy wyjściowej do wejściowej — propagując informację o błędzie. Fundamentalny mechanizm uczenia sieci neuronowych.

Batch Normalization

Technika normalizacji danych między warstwami sieci neuronowej. Stabilizuje trening, przyspiesza zbieżność i pozwala używać wyższych współczynników uczenia (learning rate).

Bias (stronniczość)

W kontekście AI: systematyczne odchylenie wyników modelu od sprawiedliwych/poprawnych wartości, często wynikające ze stronniczości danych treningowych. Np. model rekrutacyjny wytrenowany na danych z firmy zatrudniającej głównie mężczyzn może dyskryminować kobiety.

BERT (Bidirectional Encoder Representations from Transformers)

Model językowy Google (2018) oparty na architekturze transformera-enkodera. Rewolucyjny dzięki dwukierunkowej analizie kontekstu — rozumie słowo na podstawie zarówno lewego, jak i prawego kontekstu. Przełom w wyszukiwarkach, NLP i klasyfikacji tekstu.

C

CNN (Convolutional Neural Network)

Konwolucyjna sieć neuronowa — architektura specjalizująca się w przetwarzaniu danych z regularną strukturą przestrzenną (obrazy, sygnały). Wykorzystuje filtry konwolucyjne do wykrywania cech lokalnych (krawędzi, tekstur, kształtów).

Chain-of-Thought (CoT)

Technika promptowania LLM, w której model „myśli na głos" — generuje pośrednie kroki rozumowania przed podaniem ostatecznej odpowiedzi. Dramatycznie poprawia dokładność w zadaniach matematycznych i logicznych.

Clustering (grupowanie)

Metoda uczenia nienadzorowanego, w której algorytm dzieli dane na grupy (klastry) o podobnych cechach, bez etykiet. Popularne algorytmy: K-means, DBSCAN, hierarchiczne grupowanie.

D

Deep Learning (głębokie uczenie)

Podzbiór uczenia maszynowego wykorzystujący sieci neuronowe z wieloma warstwami ukrytymi (stąd „głębokie"). Umożliwia automatyczne uczenie się hierarchicznych reprezentacji danych — od prostych cech (krawędzie) do złożonych (twarze, koncepty).

Diffusion Model (model dyfuzyjny)

Architektura generatywna AI: stopniowo dodaje szum do danych (forward process), a potem uczy się go usuwać (reverse process). Podstawa systemów generowania obrazów: Stable Diffusion, DALL-E 3, Midjourney.

Dropout

Technika regularyzacji: podczas treningu losowo wyłącza część neuronów w każdej iteracji. Zapobiega przeuczeniu (overfitting) i zmusza sieć do uczenia się redundantnych reprezentacji.

E

Embedding (osadzenie)

Reprezentacja danych (słów, zdań, obrazów) jako wektorów w wielowymiarowej przestrzeni. Podobne koncepty mają bliskie wektory. Fundament wyszukiwania semantycznego, systemów rekomendacji i RAG.

Epoch (epoka)

Jedno pełne przejście przez cały zbiór treningowy podczas uczenia sieci neuronowej. Trening typowo wymaga wielu epok — model wielokrotnie „ogląda" te same dane, stopniowo poprawiając wagi.

F

Few-shot Learning

Zdolność modelu do wykonania zadania na podstawie kilku przykładów podanych w prompcie, bez dodatkowego treningu. Przykład: podajesz LLM trzy pary pytanie–odpowiedź, a model generuje odpowiedzi w tym samym formacie.

Fine-tuning (dostrajanie)

Proces dalszego trenowania wstępnie wytrenowanego modelu na mniejszym, specjalistycznym zbiorze danych. Pozwala dostosować ogólny model (np. GPT-4) do konkretnego zastosowania (np. analizy dokumentów prawnych).

Funkcja aktywacji

Nieliniowa funkcja stosowana do wyjścia neuronu, decydująca o jego „pobudzeniu". Popularne: ReLU, Sigmoid, Tanh. Bez funkcji aktywacji sieć neuronowa byłaby jedynie liniową transformacją danych.

Funkcja straty (Loss Function)

Mierzy rozbieżność między predykcją modelu a wartością oczekiwaną. Gradient descent minimalizuje tę funkcję. Przykłady: MSE (regresja), Cross-Entropy (klasyfikacja).

G

GAN (Generative Adversarial Network)

Architektura składająca się z dwóch sieci neuronowych rywalizujących ze sobą: generator tworzy fałszywe dane, dyskryminator próbuje odróżnić je od prawdziwych. Efekt: generator produkuje coraz bardziej realistyczne dane (obrazy, audio).

GPT (Generative Pre-trained Transformer)

Rodzina dużych modeli językowych OpenAI, opartych na architekturze transformera-dekodera. GPT generuje tekst token po tokenie, przewidując najbardziej prawdopodobny następny token na podstawie kontekstu.

Gradient Descent (spadek gradientowy)

Algorytm optymalizacji minimalizujący funkcję straty przez iteracyjne aktualizowanie wag sieci w kierunku przeciwnym do gradientu. Warianty: SGD (stochastyczny), mini-batch, Adam, AdaGrad.

H

Hallucination (halucynacja)

Sytuacja, w której model AI generuje informacje fałszywe, ale brzmiące wiarygodnie. Poważny problem LLM: model „nie wie, czego nie wie" i generuje odpowiedzi na podstawie wzorców statystycznych, nie faktów.

Hyperparameter (hiperparametr)

Parametr konfiguracyjny ustawiany przed treningiem (w odróżnieniu od parametrów/wag uczonych podczas treningu). Przykłady: learning rate, liczba warstw, batch size, liczba epok.

I

Inference (wnioskowanie)

Faza użytkowania modelu — przetwarzanie nowych danych wejściowych i generowanie predykcji/odpowiedzi. W odróżnieniu od treningu, inference nie zmienia wag modelu.

K

K-Nearest Neighbors (KNN)

Prosty algorytm klasyfikacji: przypisuje nowy punkt do klasy, do której należy większość z K najbliższych sąsiadów w przestrzeni cech. Łatwy do zrozumienia, ale wolny na dużych zbiorach.

L

Learning Rate (współczynnik uczenia)

Hiperparametr kontrolujący wielkość kroków w gradient descent. Za duży — model „przeskakuje" minimum. Za mały — trening trwa wieczność. Typowe wartości: 0,001–0,0001.

LLM (Large Language Model)

Duży model językowy — sieć neuronowa z miliardami parametrów, wytrenowana na ogromnych zbiorach tekstu. Przykłady: GPT-5, Claude 4.7 Opus (1M kontekstu, hybrid reasoning), Gemini 2.5 Pro, Llama 4 (Scout/Maverick/Behemoth), DeepSeek V3 (671B MoE), Mistral Large 2, Qwen 3, polskie Llama-PLLuM-70B-instruct i Bielik-11B-v3.0-Instruct. Generuje tekst przez przewidywanie kolejnych tokenów.

LoRA (Low-Rank Adaptation)

Efektywna technika fine-tuningu: zamiast aktualizować wszystkie parametry modelu, dodaje małe, niskorangowe macierze adaptacyjne. Dramatycznie zmniejsza koszty i wymagania sprzętowe dostrajania.

M

ML (Machine Learning)

Uczenie maszynowe — podzbiór AI, w którym systemy uczą się na podstawie danych, bez explicite programowania reguł. Trzy główne paradygmaty: nadzorowane, nienadzorowane, ze wzmocnieniem.

Multi-head Attention

Wariant mechanizmu atencji używany w transformerach: wiele „głów" atencji pracuje równolegle, każda ucząc się różnych aspektów relacji w danych. Wyniki są łączone i przetwarzane dalej.

Multimodalność

Zdolność modelu AI do przetwarzania wielu typów danych jednocześnie: tekstu, obrazów, dźwięku, wideo. GPT-4, Claude i Gemini to modele multimodalne.

N

NLP (Natural Language Processing)

Przetwarzanie języka naturalnego — dziedzina AI zajmująca się interakcją między komputerami a ludzkim językiem: rozumienie tekstu, tłumaczenie, generowanie, analiza sentymentu, ekstrakcja informacji.

Neuron (sztuczny)

Podstawowa jednostka obliczeniowa sieci neuronowej. Przyjmuje dane wejściowe, mnoży je przez wagi, sumuje, przepuszcza przez funkcję aktywacji i przekazuje wynik dalej.

O

Overfitting (przeuczenie)

Sytuacja, w której model zbyt dobrze dopasowuje się do danych treningowych, tracąc zdolność do generalizacji. Model „zapamiętuje" dane zamiast uczyć się wzorców. Leki: dropout, regularyzacja, augmentacja danych, walidacja krzyżowa.

P

Parametr

W kontekście sieci neuronowych: waga lub bias uczony podczas treningu. GPT-4 szacuje się na ~1,7 biliona parametrów (MoE), Llama 4 Behemoth — ~2T parametrów w architekturze Mixture of Experts. Liczba parametrów straciła rolę głównego wskaźnika jakości — modele MoE aktywują tylko podzbiór parametrów na zapytanie. Większa liczba parametrów → większa zdolność do reprezentowania złożonych wzorców (ale też większe ryzyko przeuczenia i wyższe koszty).

Perceptron

Najprostsza sieć neuronowa — pojedynczy neuron z wagami, biasem i funkcją aktywacji. Potrafi rozwiązywać problemy liniowo separowalne. Fundament, na którym zbudowano wielowarstwowe sieci neuronowe.

Prompt Engineering

Sztuka formułowania zapytań (promptów) do LLM w sposób maksymalizujący jakość odpowiedzi. Techniki: zero-shot, few-shot, chain-of-thought, role prompting, structured output.

R

RAG (Retrieval-Augmented Generation)

Technika łącząca LLM z bazą wiedzy: model wyszukuje relevantne fragmenty dokumentów, a następnie generuje odpowiedź na ich podstawie. Zmniejsza halucynacje i umożliwia aktualizację wiedzy bez ponownego treningu.

Recurrent Neural Network (RNN)

Sieć neuronowa z połączeniami zwrotnymi, przetwarzająca dane sekwencyjne (tekst, mowa, szeregi czasowe). Warianty: LSTM, GRU. W dużej mierze zastąpiona przez transformery, ale nadal używana w zadaniach wymagających przetwarzania strumieni danych.

Regularyzacja

Zbiór technik zapobiegających przeuczeniu: L1/L2 regularization (kara za duże wagi), dropout, early stopping, augmentacja danych. Cel: model, który generalizuje, nie zapamiętuje.

Reinforcement Learning (uczenie ze wzmocnieniem)

Paradygmat uczenia maszynowego: agent podejmuje akcje w środowisku, otrzymuje nagrody/kary i uczy się polityki maksymalizującej skumulowaną nagrodę. Zastosowania: gry (AlphaGo), robotyka, RLHF (uczenie LLM z ludzkiego feedbacku).

RLHF (Reinforcement Learning from Human Feedback)

Technika dostrajania LLM na podstawie ludzkich ocen jakości odpowiedzi. Model uczy się generować odpowiedzi preferowane przez ludzi. Kluczowy element treningu ChatGPT i Claude.

S

Self-Supervised Learning (uczenie samonadzorowane)

Model uczy się z nieustrukturyzowanych danych, sam generując „etykiety" z kontekstu. Przykład: maskowanie słów w tekście i przewidywanie brakujących (BERT), przewidywanie następnego tokenu (GPT). Dominujący paradygmat treningu LLM.

Softmax

Funkcja przekształcająca wektor liczb w rozkład prawdopodobieństwa (wartości sumują się do 1). Używana w ostatniej warstwie sieci klasyfikacyjnych i w mechanizmie atencji transformerów.

T

Temperature (temperatura)

Hiperparametr kontrolujący losowość generowania tekstu przez LLM. Niska temperatura (0,1) → deterministyczne, powtarzalne odpowiedzi. Wysoka (1,0+) → kreatywne, nieprzewidywalne.

Token

Podstawowa jednostka tekstu przetwarzana przez LLM. Może to być słowo, część słowa lub znak interpunkcyjny. Proces podziału tekstu na tokeny to tokenizacja. Średnio 1 token ≈ 0,75 słowa w języku angielskim, mniej w polskim.

Transformer

Architektura sieci neuronowej oparta na mechanizmie atencji, bez rekurencji. Fundament współczesnych LLM (GPT, Claude, Gemini, Llama). Szczegółowy opis: transformery i LLM.

Transfer Learning (uczenie transferowe)

Przenoszenie wiedzy z jednego zadania na drugie. Model wytrenowany na ogromnym zbiorze (np. GPT-4 na internecie) jest następnie dostrajany (fine-tuning) do konkretnego zastosowania. Klucz do efektywności współczesnego AI.

U

Underfitting (niedouczenie)

Przeciwieństwo przeuczenia — model jest zbyt prosty, żeby uchwycić wzorce w danych. Symptomy: niskie wyniki zarówno na danych treningowych, jak i testowych. Rozwiązania: zwiększenie złożoności modelu, więcej cech, dłuższy trening.

V

Vanishing Gradient (zanikający gradient)

Problem w głębokich sieciach neuronowych: gradienty maleją wykładniczo w miarę propagacji wstecznej przez kolejne warstwy, uniemożliwiając uczenie wczesnych warstw. Rozwiązania: ReLU, residual connections, batch normalization.

W

Wagi (Weights)

Parametry sieci neuronowej określające siłę połączeń między neuronami. Uczenie sieci to proces znajdowania optymalnych wag minimalizujących funkcję straty. Inicjalizowane losowo, aktualizowane przez gradient descent i backpropagation.

Z

Zero-shot Learning

Zdolność modelu do wykonania zadania bez żadnych przykładów — wyłącznie na podstawie opisu słownego. LLM wykazują silne zdolności zero-shot dzięki ogromnemu pretrainingowi na zróżnicowanych danych.

A