Uczenie ze wzmocnieniem

Reinforcement learning — Q-learning, DQN, policy gradient, RLHF.

Uczenie ze wzmocnieniem — jak AI uczy się przez doświadczenie

Uczenie ze wzmocnieniem to paradygmat AI, w którym agent uczy się optymalnych decyzji przez interakcję ze środowiskiem. Poznaj MDP, politykę, nagrody, Q-learning, DQN i PPO — od podstaw po AlphaGo.

13 min czytania Czytaj przewodnik

Artykuły w tym temacie

Q-learning — algorytm uczenia ze wzmocnieniem

Q-learning to fundamentalny algorytm uczenia ze wzmocnieniem, który uczy się optymalnych decyzji bez modelu środowiska. Poznaj tablicę Q, TD learning, eksplo...

10 min czytania

Deep Q-Network (DQN) — połączenie RL z sieciami neuronowymi

Deep Q-Network (DQN) to przełomowa architektura łącząca Q-learning z głębokimi sieciami neuronowymi. Poznaj algorytm, experience replay, target network i jak...

9 min czytania

RLHF — uczenie ze wzmocnieniem od ludzkiej oceny

RLHF (Reinforcement Learning from Human Feedback) to technika dostosowywania modeli językowych do ludzkich preferencji. Poznaj trzy etapy — SFT, reward model...

10 min czytania