RLHF (Reinforcement Learning from Human Feedback) to technika dostosowywania modeli językowych do ludzkich preferencji. Trzy etapy: 1) SFT — fine-tuning na wzorcowych odpowiedziach, 2) Reward model — trening modelu oceniającego jakość odpowiedzi z ludzkich rankingów, 3) PPO — optymalizacja modelu by maksymalizować reward.

Dlaczego RLHF jest potrzebne?

Model po pretrenowaniu przewiduje następny token — nie jest zoptymalizowany pod użyteczność. Może generować treści toksyczne, halucynować, kontynuować tekst zamiast odpowiadać. RLHF uczy model, jakie odpowiedzi ludzie preferują — pomocne, prawdziwe i bezpieczne. InstructGPT 1.3B z RLHF jest preferowany nad GPT-3 175B bez RLHF.

Czym DPO różni się od RLHF?

DPO (Direct Preference Optimization) eliminuje reward model i PPO — bezpośrednio optymalizuje model na parach preferencji (lepsza/gorsza odpowiedź) prostą stratą. Prostsza implementacja, stabilniejszy trening, tańsze obliczeniowo. Stało się standardem dla mniejszych zespołów i modeli open-source.

Co to jest reward hacking?

Reward hacking to sytuacja, gdy model uczy się oszukiwać reward model zamiast generować lepsze odpowiedzi. Np. produkuje rozwlekłe, pewne siebie odpowiedzi, bo reward model to nagradzał — nawet gdy treść jest błędna. Regularyzacja KL (kara za odchylenie od modelu bazowego) łagodzi ten problem.

RLHF — uczenie od ludzkiej oceny w AI

RLHF (Reinforcement Learning from Human Feedback) to technika, która przekształca surowy model językowy w asystenta AI odpowiadającego zgodnie z ludzkimi preferencjami — pomocnego, bezpiecznego i uczciwego. To RLHF sprawia, że ChatGPT brzmi naturalnie i sensownie, zamiast generować surowy, nieprzewidywalny tekst. RLHF łączy uczenie ze wzmocnieniem z ludzkim osądem — przekształcając subiektywne preferencje „lepsza vs gorsza odpowiedź" w sygnał treningowy dla modelu.

Problem: dlaczego pretrenowanie nie wystarczy?

Model językowy po pretrenowaniu (np. GPT-3 bazowy) potrafi generować tekst — ale robi to na zasadzie przewidywania następnego tokenu. Jego cel to maksymalizacja prawdopodobieństwa tekstu w zbiorze treningowym (Internet), nie maksymalizacja użyteczności dla użytkownika.

Efekt:

Model może kontynuować tekst zamiast odpowiadać na pytanie
Może generować treści toksyczne, bo takie też były w danych
Może podawać fałszywe informacje z pewnością siebie (halucynacje)
Nie wie, w jakim formacie odpowiadać
Nie odróżnia dobrej odpowiedzi od złej

RLHF rozwiązuje ten problem — uczy model, jakie odpowiedzi ludzie preferują i optymalizuje go ku tym preferencjom.

Trzy etapy RLHF

Etap 1: Supervised Fine-Tuning (SFT)

Cel: nauczyć model formatu instrukcja → odpowiedź.

Dane: tysiące par (instrukcja, wzorcowa odpowiedź) napisanych przez ludzi — tzw. demonstration data.

Przykład: Instrukcja: „Wyjaśnij grawitację 5-latkowi" Odpowiedź: „Wiesz, dlaczego piłka spada na ziemię? To dlatego, że Ziemia przyciąga do siebie wszystkie rzeczy..."

Trening: standardowy fine-tuning — minimalizacja cross-entropy loss na wzorcowych odpowiedziach.

Wynik: model SFT — potrafi odpowiadać na pytania, ale nie wie jeszcze, jakie odpowiedzi są „lepsze" od innych.

Etap 2: Reward Model (RM)

Cel: wytrenować model, który ocenia jakość odpowiedzi — przypisuje skalar (wynik) odpowiedzi modelu.

Zbieranie danych:

Model SFT generuje K odpowiedzi na to samo pytanie
Ludzcy oceniający (annotators) rankują odpowiedzi od najlepszej do najgorszej
Pary (lepsza, gorsza) odpowiedzi stają się danymi treningowymi

Przykład: Pytanie: „Jak oszczędzać energię w domu?" Odpowiedź A: „Wyłącz światła, które nie są potrzebne. Używaj żarówek LED. Izoluj okna." Odpowiedź B: „Możesz wyłączyć lodówkę." Ranking: A > B

Trening RM: Reward model (zwykle ten sam model LLM z warstwą liniową na wyjściu) uczy się dawać wyższy wynik lepszej odpowiedzi w każdej parze:

Loss = -log(σ(r(x, y_w) - r(x, y_l)))

Gdzie y_w = lepsza odpowiedź, y_l = gorsza, r = reward model, σ = sigmoid.

Wynik: reward model RM(prompt, response) → skalar (jakość odpowiedzi).

Etap 3: RL Fine-Tuning (PPO)

Cel: zoptymalizować model językowy, by generował odpowiedzi maksymalizujące reward z reward modelu.

Algorytm: PPO (Proximal Policy Optimization) — stabilny algorytm policy gradient z uczenia ze wzmocnieniem. W odróżnieniu od klasycznych metod jak Q-learning, PPO bezpośrednio optymalizuje politykę modelu zamiast funkcji wartości — to kluczowe dla generatywnych modeli językowych z ogromną przestrzenią akcji (cały słownik tokenów).

Mapowanie na RL:

Policy (π): model językowy — policy to rozkład prawdopodobieństwa nad tokenami
State: prompt + dotychczas wygenerowane tokeny
Action: następny token
Reward: wynik reward modelu na pełnej odpowiedzi (sparse reward)
Environment: ludzkie preferencje zakodowane w reward modelu

Regularyzacja KL: Kluczowa: kara za zbyt duże odchylenie od modelu SFT:

Reward_total = RM(x, y) - β · KL(π_RL || π_SFT)

Bez KL penalty model może „zhackować" reward model — produkować dziwne odpowiedzi, które oszukują RM, ale nie są faktycznie dobre (reward hacking). KL penalty utrzymuje model blisko SFT.

Wynik: model zoptymalizowany pod ludzkie preferencje — pomocny, bezpieczny, uczciwy.

Ludzcy oceniający (annotators)

Jakość RLHF zależy krytycznie od jakości ludzkich ocen:

Wytyczne

Annotatorzy dostają szczegółowe wytyczne oceniania — co oznacza „lepsza odpowiedź":

Pomocność (helpfulness) — czy odpowiada na pytanie, jest kompletna
Prawdziwość (truthfulness) — czy fakty są poprawne
Bezpieczeństwo (harmlessness) — czy nie jest toksyczna, niebezpieczna
Spójność — logiczna, dobrze zorganizowana
Format — odpowiedni ton, długość, struktura

Wyzwania

Subiektywność — różni oceniający mogą się nie zgadzać
Jakość annotatorów — niedoświadczeni oceniający generują szum
Koszt — tysiące par ocen, wynagrodzenie annotatorów
Bias — oceniający mogą faworyzować pewne style odpowiedzi
Skala — potrzeba tysięcy godzin ludzkiej pracy

Alternatywy dla RLHF

DPO (Direct Preference Optimization)

Eliminuje reward model i PPO — bezpośrednio optymalizuje model na parach preferencji.

DPO pokazuje, że optymalna polityka RLHF ma zamkniętą formę — można ją wyrazić bez pośrednictwa reward modelu. Model trenowany jest prostą stratą:

Loss = -log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))

Zalety: prostsza implementacja (brak RM, brak PPO), stabilniejszy trening, tańsze obliczeniowo. Wady: mniej elastyczne niż RLHF, brak jawnego reward modelu do ewaluacji.

DPO stało się de facto standardem dla mniejszych zespołów i modeli open-source — także coraz częściej w dużych laboratoriach.

GRPO (Group Relative Policy Optimization)

Wariant PPO bez critic network, wprowadzony przez DeepSeek (2024). Polityka oceniana względem grupy próbek z tego samego promptu — eliminuje potrzebę osobnego value model. Kluczowy w treningu DeepSeek R1 (2025) — pierwszego open-source reasoning model dorównującego o1.

RLVR (Reinforcement Learning with Verifiable Rewards)

Reward pochodzi z weryfikowalnego sygnału (test jednostkowy przechodzi, dowód matematyczny poprawny), nie z reward modelu trenowanego na preferencjach. Kluczowy paradygmat dla reasoning models (o1, o3, R1, Claude 4.7). Eliminuje reward hacking — model nie może oszukać kompilatora czy weryfikatora dowodu.

SimPO i ORPO

SimPO (2024) — reference-free wariant DPO eliminujący potrzebę modelu referencyjnego. ORPO (2024) — łączy SFT i preference optimization w jednym kroku. PRM (Process Reward Models) — modele oceniające pojedyncze kroki rozumowania, krytyczne dla treningu chain-of-thought.

RLAIF (RL from AI Feedback)

Zamiast ludzi, inny model AI ocenia odpowiedzi. Constitutional AI (Anthropic) używa AI do generowania i oceniania odpowiedzi na podstawie zestawu zasad (constitution).

Proces:

Model generuje odpowiedź
Model AI krytykuje odpowiedź na podstawie zasad
Model generuje poprawioną odpowiedź
Pary (oryginał, poprawiona) → trening preferencyjny

Zalety: skalowalność (AI ocenia miliony par), niższy koszt. Wady: jakość ograniczona zdolnościami AI-krytyka, ryzyko pętli bias.

KTO (Kahneman-Tversky Optimization)

Nie wymaga par preferencji — działa na niezależnych ocenach (thumbs up/down per odpowiedź). Inspirowany teorią perspektywy Kahnemana i Tversky'ego — awersja do strat.

ORPO (Odds Ratio Preference Optimization)

Łączy SFT i alignment w jednym etapie — bez potrzeby osobnego fine-tuningu.

RLHF w praktyce — kto tego używa?

OpenAI (ChatGPT/GPT-4)

Pełny pipeline: SFT → RM → PPO. Kluczowy moment: InstructGPT (2022) — demonstracja, że RLHF dramatycznie poprawia użyteczność. GPT-3 + RLHF (InstructGPT 1.3B) jest preferowany przez ludzi nad GPT-3 (175B). GPT-4o, o1 (2024), o3 (2024-2025) i GPT-5 (2025) wykorzystują RL nie tylko do alignmentu, ale głównie do trenowania rozumowania (test-time compute scaling).

Anthropic (Claude)

Constitutional AI + RLHF + RLAIF (Claude 3.x i 4.x rodzina). Claude 4.7 Opus (2026) — reasoning model z extended thinking trenowany RL, najlepszy w branży na SWE-bench.

Meta (Llama 2/3)

Llama 2 Chat: SFT + 5 iteracji RLHF. Llama 3.1 i Llama 4 (2024-2025): DPO + iterative refinement, publiczny opis w research papers Meta.

Google (Gemini)

RLHF i RL dla rozumowania w Gemini 2.5 (2025) z trybem thinking. AlphaProof i AlphaGeometry 2 (DeepMind, 2024) — neurosymboliczne systemy RL, które zdobyły poziom srebrnego medalisty IMO 2024.

DeepSeek (nowość 2025)

DeepSeek R1 (styczeń 2025) — pierwszy open-source reasoning model trenowany czystym RL (GRPO + RLVR), dorównujący o1. Zademonstrował, że emergent reasoning może powstać bez SFT — przełom w open-source RL.

Problemy i ograniczenia RLHF

Reward Hacking

Model uczy się oszukiwać reward model zamiast faktycznie generować lepsze odpowiedzi. Np. model produkuje rozwlekłe, pewne siebie odpowiedzi, bo RM to nagradzał — nawet gdy treść jest błędna.

Alignment Tax

RLHF może pogorszyć zdolności modelu na benchmarkach — model staje się bezpieczniejszy, ale mniej zdolny. Kompromis safety vs capability.

Sycophancy

Model nauczony przez RLHF ma tendencję do zgadzania się z użytkownikiem — bo annotatorzy preferowali odpowiedzi potwierdzające ich zdanie. Efekt: model mówi to, co użytkownik chce usłyszeć, nie to, co jest prawdą.

Homogenizacja

RLHF może prowadzić do jednolitego stylu odpowiedzi — model unika kontrowersji, daje wyważone odpowiedzi na wszystko. Traci „osobowość" i zdolność do wyrażania silnych opinii.

Podsumowanie

RLHF zrewolucjonizowało sztuczną inteligencję, przekształcając surowe modele językowe w użytecznych asystentów AI. Trzy etapy — SFT, reward model, PPO — tworzą pipeline alignmentu ludzkich preferencji. Alternatywy (DPO, RLAIF) upraszczają proces. Mimo ograniczeń (reward hacking, sycophancy), RLHF i jego warianty pozostają kluczową techniką tworzenia bezpiecznej i pomocnej AI.

RLHF — uczenie ze wzmocnieniem od ludzkiej oceny

Problem: dlaczego pretrenowanie nie wystarczy?

Trzy etapy RLHF

Etap 1: Supervised Fine-Tuning (SFT)

Etap 2: Reward Model (RM)

Etap 3: RL Fine-Tuning (PPO)

Ludzcy oceniający (annotators)

Wytyczne

Wyzwania

Alternatywy dla RLHF

DPO (Direct Preference Optimization)

GRPO (Group Relative Policy Optimization)

RLVR (Reinforcement Learning with Verifiable Rewards)

SimPO i ORPO

RLAIF (RL from AI Feedback)

KTO (Kahneman-Tversky Optimization)

ORPO (Odds Ratio Preference Optimization)

RLHF w praktyce — kto tego używa?

OpenAI (ChatGPT/GPT-4)

Anthropic (Claude)

Meta (Llama 2/3)

Google (Gemini)

DeepSeek (nowość 2025)

Problemy i ograniczenia RLHF

Reward Hacking

Alignment Tax

Sycophancy

Homogenizacja

Podsumowanie

Najczęściej zadawane pytania

Czym jest RLHF?

Dlaczego RLHF jest potrzebne?

Czym DPO różni się od RLHF?

Co to jest reward hacking?

Problem: dlaczego pretrenowanie nie wystarczy?

Trzy etapy RLHF

Etap 1: Supervised Fine-Tuning (SFT)

Etap 2: Reward Model (RM)

Etap 3: RL Fine-Tuning (PPO)

Ludzcy oceniający (annotators)

Wytyczne

Wyzwania

Alternatywy dla RLHF

DPO (Direct Preference Optimization)

GRPO (Group Relative Policy Optimization)

RLVR (Reinforcement Learning with Verifiable Rewards)

SimPO i ORPO

RLAIF (RL from AI Feedback)

KTO (Kahneman-Tversky Optimization)

ORPO (Odds Ratio Preference Optimization)

RLHF w praktyce — kto tego używa?

OpenAI (ChatGPT/GPT-4)

Anthropic (Claude)

Meta (Llama 2/3)

Google (Gemini)

DeepSeek (nowość 2025)

Problemy i ograniczenia RLHF

Reward Hacking

Alignment Tax

Sycophancy

Homogenizacja

Podsumowanie

Najczęściej zadawane pytania

Czym jest RLHF?

Dlaczego RLHF jest potrzebne?

Czym DPO różni się od RLHF?

Co to jest reward hacking?

Powiązane artykuły