Ten słownik to kompendium najważniejszych terminów sztucznej inteligencji, uczenia maszynowego i głębokiego uczenia. Każda definicja jest napisana tak, żebyś mógł ją zrozumieć bez wcześniejszego przygotowania — ale z zachowaniem merytorycznej precyzji.
A
AGI (Artificial General Intelligence)
Sztuczna inteligencja ogólna — hipotetyczny system AI zdolny do wykonywania dowolnego zadania intelektualnego na poziomie człowieka. W 2026 roku AGI nie istnieje. Obecne systemy (ChatGPT, Claude) to ANI — inteligencja wąska.
Algorytm genetyczny
Metaheurystyka optymalizacyjna inspirowana biologiczną ewolucją. Populacja rozwiązań-kandydatów ewoluuje przez selekcję, krzyżowanie i mutację, dążąc do coraz lepszych wyników. Szczegółowy opis: jak działają algorytmy genetyczne.
Attention (mechanizm atencji)
Mechanizm pozwalający modelowi AI „skupiać uwagę" na najistotniejszych częściach danych wejściowych. Fundament architektury transformera. Self-attention umożliwia modelowi analizowanie relacji między wszystkimi pozycjami w sekwencji jednocześnie.
B
Backpropagation (propagacja wsteczna)
Algorytm obliczający gradienty funkcji straty względem wag sieci neuronowej. Działa „wstecz" — od warstwy wyjściowej do wejściowej — propagując informację o błędzie. Fundamentalny mechanizm uczenia sieci neuronowych.
Batch Normalization
Technika normalizacji danych między warstwami sieci neuronowej. Stabilizuje trening, przyspiesza zbieżność i pozwala używać wyższych współczynników uczenia (learning rate).
Bias (stronniczość)
W kontekście AI: systematyczne odchylenie wyników modelu od sprawiedliwych/poprawnych wartości, często wynikające ze stronniczości danych treningowych. Np. model rekrutacyjny wytrenowany na danych z firmy zatrudniającej głównie mężczyzn może dyskryminować kobiety.
BERT (Bidirectional Encoder Representations from Transformers)
Model językowy Google (2018) oparty na architekturze transformera-enkodera. Rewolucyjny dzięki dwukierunkowej analizie kontekstu — rozumie słowo na podstawie zarówno lewego, jak i prawego kontekstu. Przełom w wyszukiwarkach, NLP i klasyfikacji tekstu.
C
CNN (Convolutional Neural Network)
Konwolucyjna sieć neuronowa — architektura specjalizująca się w przetwarzaniu danych z regularną strukturą przestrzenną (obrazy, sygnały). Wykorzystuje filtry konwolucyjne do wykrywania cech lokalnych (krawędzi, tekstur, kształtów).
Chain-of-Thought (CoT)
Technika promptowania LLM, w której model „myśli na głos" — generuje pośrednie kroki rozumowania przed podaniem ostatecznej odpowiedzi. Dramatycznie poprawia dokładność w zadaniach matematycznych i logicznych.
Clustering (grupowanie)
Metoda uczenia nienadzorowanego, w której algorytm dzieli dane na grupy (klastry) o podobnych cechach, bez etykiet. Popularne algorytmy: K-means, DBSCAN, hierarchiczne grupowanie.
D
Deep Learning (głębokie uczenie)
Podzbiór uczenia maszynowego wykorzystujący sieci neuronowe z wieloma warstwami ukrytymi (stąd „głębokie"). Umożliwia automatyczne uczenie się hierarchicznych reprezentacji danych — od prostych cech (krawędzie) do złożonych (twarze, koncepty).
Diffusion Model (model dyfuzyjny)
Architektura generatywna AI: stopniowo dodaje szum do danych (forward process), a potem uczy się go usuwać (reverse process). Podstawa systemów generowania obrazów: Stable Diffusion, DALL-E 3, Midjourney.
Dropout
Technika regularyzacji: podczas treningu losowo wyłącza część neuronów w każdej iteracji. Zapobiega przeuczeniu (overfitting) i zmusza sieć do uczenia się redundantnych reprezentacji.
E
Embedding (osadzenie)
Reprezentacja danych (słów, zdań, obrazów) jako wektorów w wielowymiarowej przestrzeni. Podobne koncepty mają bliskie wektory. Fundament wyszukiwania semantycznego, systemów rekomendacji i RAG.
Epoch (epoka)
Jedno pełne przejście przez cały zbiór treningowy podczas uczenia sieci neuronowej. Trening typowo wymaga wielu epok — model wielokrotnie „ogląda" te same dane, stopniowo poprawiając wagi.
F
Few-shot Learning
Zdolność modelu do wykonania zadania na podstawie kilku przykładów podanych w prompcie, bez dodatkowego treningu. Przykład: podajesz LLM trzy pary pytanie–odpowiedź, a model generuje odpowiedzi w tym samym formacie.
Fine-tuning (dostrajanie)
Proces dalszego trenowania wstępnie wytrenowanego modelu na mniejszym, specjalistycznym zbiorze danych. Pozwala dostosować ogólny model (np. GPT-4) do konkretnego zastosowania (np. analizy dokumentów prawnych).
Funkcja aktywacji
Nieliniowa funkcja stosowana do wyjścia neuronu, decydująca o jego „pobudzeniu". Popularne: ReLU, Sigmoid, Tanh. Bez funkcji aktywacji sieć neuronowa byłaby jedynie liniową transformacją danych.
Funkcja straty (Loss Function)
Mierzy rozbieżność między predykcją modelu a wartością oczekiwaną. Gradient descent minimalizuje tę funkcję. Przykłady: MSE (regresja), Cross-Entropy (klasyfikacja).
G
GAN (Generative Adversarial Network)
Architektura składająca się z dwóch sieci neuronowych rywalizujących ze sobą: generator tworzy fałszywe dane, dyskryminator próbuje odróżnić je od prawdziwych. Efekt: generator produkuje coraz bardziej realistyczne dane (obrazy, audio).
GPT (Generative Pre-trained Transformer)
Rodzina dużych modeli językowych OpenAI, opartych na architekturze transformera-dekodera. GPT generuje tekst token po tokenie, przewidując najbardziej prawdopodobny następny token na podstawie kontekstu.
Gradient Descent (spadek gradientowy)
Algorytm optymalizacji minimalizujący funkcję straty przez iteracyjne aktualizowanie wag sieci w kierunku przeciwnym do gradientu. Warianty: SGD (stochastyczny), mini-batch, Adam, AdaGrad.
H
Hallucination (halucynacja)
Sytuacja, w której model AI generuje informacje fałszywe, ale brzmiące wiarygodnie. Poważny problem LLM: model „nie wie, czego nie wie" i generuje odpowiedzi na podstawie wzorców statystycznych, nie faktów.
Hyperparameter (hiperparametr)
Parametr konfiguracyjny ustawiany przed treningiem (w odróżnieniu od parametrów/wag uczonych podczas treningu). Przykłady: learning rate, liczba warstw, batch size, liczba epok.
I
Inference (wnioskowanie)
Faza użytkowania modelu — przetwarzanie nowych danych wejściowych i generowanie predykcji/odpowiedzi. W odróżnieniu od treningu, inference nie zmienia wag modelu.
K
K-Nearest Neighbors (KNN)
Prosty algorytm klasyfikacji: przypisuje nowy punkt do klasy, do której należy większość z K najbliższych sąsiadów w przestrzeni cech. Łatwy do zrozumienia, ale wolny na dużych zbiorach.
L
Learning Rate (współczynnik uczenia)
Hiperparametr kontrolujący wielkość kroków w gradient descent. Za duży — model „przeskakuje" minimum. Za mały — trening trwa wieczność. Typowe wartości: 0,001–0,0001.
LLM (Large Language Model)
Duży model językowy — sieć neuronowa z miliardami parametrów, wytrenowana na ogromnych zbiorach tekstu. Przykłady: GPT-4, Claude Opus 4, Gemini, Llama. Generuje tekst przez przewidywanie kolejnych tokenów.
LoRA (Low-Rank Adaptation)
Efektywna technika fine-tuningu: zamiast aktualizować wszystkie parametry modelu, dodaje małe, niskorangowe macierze adaptacyjne. Dramatycznie zmniejsza koszty i wymagania sprzętowe dostrajania.
M
ML (Machine Learning)
Uczenie maszynowe — podzbiór AI, w którym systemy uczą się na podstawie danych, bez explicite programowania reguł. Trzy główne paradygmaty: nadzorowane, nienadzorowane, ze wzmocnieniem.
Multi-head Attention
Wariant mechanizmu atencji używany w transformerach: wiele „głów" atencji pracuje równolegle, każda ucząc się różnych aspektów relacji w danych. Wyniki są łączone i przetwarzane dalej.
Multimodalność
Zdolność modelu AI do przetwarzania wielu typów danych jednocześnie: tekstu, obrazów, dźwięku, wideo. GPT-4, Claude i Gemini to modele multimodalne.
N
NLP (Natural Language Processing)
Przetwarzanie języka naturalnego — dziedzina AI zajmująca się interakcją między komputerami a ludzkim językiem: rozumienie tekstu, tłumaczenie, generowanie, analiza sentymentu, ekstrakcja informacji.
Neuron (sztuczny)
Podstawowa jednostka obliczeniowa sieci neuronowej. Przyjmuje dane wejściowe, mnoży je przez wagi, sumuje, przepuszcza przez funkcję aktywacji i przekazuje wynik dalej.
O
Overfitting (przeuczenie)
Sytuacja, w której model zbyt dobrze dopasowuje się do danych treningowych, tracąc zdolność do generalizacji. Model „zapamiętuje" dane zamiast uczyć się wzorców. Leki: dropout, regularyzacja, augmentacja danych, walidacja krzyżowa.
P
Parametr
W kontekście sieci neuronowych: waga lub bias uczony podczas treningu. GPT-4 ma szacunkowo ponad bilion parametrów. Większa liczba parametrów → większa zdolność do reprezentowania złożonych wzorców (ale też większe ryzyko przeuczenia i wyższe koszty).
Perceptron
Najprostsza sieć neuronowa — pojedynczy neuron z wagami, biasem i funkcją aktywacji. Potrafi rozwiązywać problemy liniowo separowalne. Fundament, na którym zbudowano wielowarstwowe sieci neuronowe.
Prompt Engineering
Sztuka formułowania zapytań (promptów) do LLM w sposób maksymalizujący jakość odpowiedzi. Techniki: zero-shot, few-shot, chain-of-thought, role prompting, structured output.
R
RAG (Retrieval-Augmented Generation)
Technika łącząca LLM z bazą wiedzy: model wyszukuje relevantne fragmenty dokumentów, a następnie generuje odpowiedź na ich podstawie. Zmniejsza halucynacje i umożliwia aktualizację wiedzy bez ponownego treningu.
Recurrent Neural Network (RNN)
Sieć neuronowa z połączeniami zwrotnymi, przetwarzająca dane sekwencyjne (tekst, mowa, szeregi czasowe). Warianty: LSTM, GRU. W dużej mierze zastąpiona przez transformery, ale nadal używana w zadaniach wymagających przetwarzania strumieni danych.
Regularyzacja
Zbiór technik zapobiegających przeuczeniu: L1/L2 regularization (kara za duże wagi), dropout, early stopping, augmentacja danych. Cel: model, który generalizuje, nie zapamiętuje.
Reinforcement Learning (uczenie ze wzmocnieniem)
Paradygmat uczenia maszynowego: agent podejmuje akcje w środowisku, otrzymuje nagrody/kary i uczy się polityki maksymalizującej skumulowaną nagrodę. Zastosowania: gry (AlphaGo), robotyka, RLHF (uczenie LLM z ludzkiego feedbacku).
RLHF (Reinforcement Learning from Human Feedback)
Technika dostrajania LLM na podstawie ludzkich ocen jakości odpowiedzi. Model uczy się generować odpowiedzi preferowane przez ludzi. Kluczowy element treningu ChatGPT i Claude.
S
Self-Supervised Learning (uczenie samonadzorowane)
Model uczy się z nieustrukturyzowanych danych, sam generując „etykiety" z kontekstu. Przykład: maskowanie słów w tekście i przewidywanie brakujących (BERT), przewidywanie następnego tokenu (GPT). Dominujący paradygmat treningu LLM.
Softmax
Funkcja przekształcająca wektor liczb w rozkład prawdopodobieństwa (wartości sumują się do 1). Używana w ostatniej warstwie sieci klasyfikacyjnych i w mechanizmie atencji transformerów.
T
Temperature (temperatura)
Hiperparametr kontrolujący losowość generowania tekstu przez LLM. Niska temperatura (0,1) → deterministyczne, powtarzalne odpowiedzi. Wysoka (1,0+) → kreatywne, nieprzewidywalne.
Token
Podstawowa jednostka tekstu przetwarzana przez LLM. Może to być słowo, część słowa lub znak interpunkcyjny. Proces podziału tekstu na tokeny to tokenizacja. Średnio 1 token ≈ 0,75 słowa w języku angielskim, mniej w polskim.
Transformer
Architektura sieci neuronowej oparta na mechanizmie atencji, bez rekurencji. Fundament współczesnych LLM (GPT, Claude, Gemini, Llama). Szczegółowy opis: transformery i LLM.
Transfer Learning (uczenie transferowe)
Przenoszenie wiedzy z jednego zadania na drugie. Model wytrenowany na ogromnym zbiorze (np. GPT-4 na internecie) jest następnie dostrajany (fine-tuning) do konkretnego zastosowania. Klucz do efektywności współczesnego AI.
U
Underfitting (niedouczenie)
Przeciwieństwo przeuczenia — model jest zbyt prosty, żeby uchwycić wzorce w danych. Symptomy: niskie wyniki zarówno na danych treningowych, jak i testowych. Rozwiązania: zwiększenie złożoności modelu, więcej cech, dłuższy trening.
V
Vanishing Gradient (zanikający gradient)
Problem w głębokich sieciach neuronowych: gradienty maleją wykładniczo w miarę propagacji wstecznej przez kolejne warstwy, uniemożliwiając uczenie wczesnych warstw. Rozwiązania: ReLU, residual connections, batch normalization.
W
Wagi (Weights)
Parametry sieci neuronowej określające siłę połączeń między neuronami. Uczenie sieci to proces znajdowania optymalnych wag minimalizujących funkcję straty. Inicjalizowane losowo, aktualizowane przez gradient descent i backpropagation.
Z
Zero-shot Learning
Zdolność modelu do wykonania zadania bez żadnych przykładów — wyłącznie na podstawie opisu słownego. LLM wykazują silne zdolności zero-shot dzięki ogromnemu pretrainingowi na zróżnicowanych danych.