Uczenie ze wzmocnieniem
Reinforcement learning — Q-learning, DQN, policy gradient, RLHF.
Wprowadzenie do tematu
Uczenie ze wzmocnieniem — jak AI uczy się przez doświadczenie
Uczenie ze wzmocnieniem to paradygmat AI, w którym agent uczy się optymalnych decyzji przez interakcję ze środowiskiem. Poznaj MDP, politykę, nagrody, Q-learning, DQN i PPO — od podstaw po AlphaGo.
Artykuły w tym temacie
Q-learning — algorytm uczenia ze wzmocnieniem
Q-learning to fundamentalny algorytm uczenia ze wzmocnieniem, który uczy się optymalnych decyzji bez modelu środowiska. Poznaj tablicę Q, TD learning, eksplo...
Deep Q-Network (DQN) — połączenie RL z sieciami neuronowymi
Deep Q-Network (DQN) to przełomowa architektura łącząca Q-learning z głębokimi sieciami neuronowymi. Poznaj algorytm, experience replay, target network i jak...
RLHF — uczenie ze wzmocnieniem od ludzkiej oceny
RLHF (Reinforcement Learning from Human Feedback) to technika dostosowywania modeli językowych do ludzkich preferencji. Poznaj trzy etapy — SFT, reward model...