RLHF (Reinforcement Learning from Human Feedback) to technika, która przekształca surowy model językowy w asystenta AI odpowiadającego zgodnie z ludzkimi preferencjami — pomocnego, bezpiecznego i uczciwego. To RLHF sprawia, że ChatGPT brzmi naturalnie i sensownie, zamiast generować surowy, nieprzewidywalny tekst. RLHF łączy uczenie ze wzmocnieniem z ludzkim osądem — przekształcając subiektywne preferencje „lepsza vs gorsza odpowiedź" w sygnał treningowy dla modelu.
Problem: dlaczego pretrenowanie nie wystarczy?
Model językowy po pretrenowaniu (np. GPT-3 bazowy) potrafi generować tekst — ale robi to na zasadzie przewidywania następnego tokenu. Jego cel to maksymalizacja prawdopodobieństwa tekstu w zbiorze treningowym (Internet), nie maksymalizacja użyteczności dla użytkownika.
Efekt:
- Model może kontynuować tekst zamiast odpowiadać na pytanie
- Może generować treści toksyczne, bo takie też były w danych
- Może podawać fałszywe informacje z pewnością siebie (halucynacje)
- Nie wie, w jakim formacie odpowiadać
- Nie odróżnia dobrej odpowiedzi od złej
RLHF rozwiązuje ten problem — uczy model, jakie odpowiedzi ludzie preferują i optymalizuje go ku tym preferencjom.
Trzy etapy RLHF
Etap 1: Supervised Fine-Tuning (SFT)
Cel: nauczyć model formatu instrukcja → odpowiedź.
Dane: tysiące par (instrukcja, wzorcowa odpowiedź) napisanych przez ludzi — tzw. demonstration data.
Przykład: Instrukcja: „Wyjaśnij grawitację 5-latkowi" Odpowiedź: „Wiesz, dlaczego piłka spada na ziemię? To dlatego, że Ziemia przyciąga do siebie wszystkie rzeczy..."
Trening: standardowy fine-tuning — minimalizacja cross-entropy loss na wzorcowych odpowiedziach.
Wynik: model SFT — potrafi odpowiadać na pytania, ale nie wie jeszcze, jakie odpowiedzi są „lepsze" od innych.
Etap 2: Reward Model (RM)
Cel: wytrenować model, który ocenia jakość odpowiedzi — przypisuje skalar (wynik) odpowiedzi modelu.
Zbieranie danych:
- Model SFT generuje K odpowiedzi na to samo pytanie
- Ludzcy oceniający (annotators) rankują odpowiedzi od najlepszej do najgorszej
- Pary (lepsza, gorsza) odpowiedzi stają się danymi treningowymi
Przykład: Pytanie: „Jak oszczędzać energię w domu?" Odpowiedź A: „Wyłącz światła, które nie są potrzebne. Używaj żarówek LED. Izoluj okna." Odpowiedź B: „Możesz wyłączyć lodówkę." Ranking: A > B
Trening RM: Reward model (zwykle ten sam model LLM z warstwą liniową na wyjściu) uczy się dawać wyższy wynik lepszej odpowiedzi w każdej parze:
Loss = -log(σ(r(x, y_w) - r(x, y_l)))
Gdzie y_w = lepsza odpowiedź, y_l = gorsza, r = reward model, σ = sigmoid.
Wynik: reward model RM(prompt, response) → skalar (jakość odpowiedzi).
Etap 3: RL Fine-Tuning (PPO)
Cel: zoptymalizować model językowy, by generował odpowiedzi maksymalizujące reward z reward modelu.
Algorytm: PPO (Proximal Policy Optimization) — stabilny algorytm policy gradient z uczenia ze wzmocnieniem.
Mapowanie na RL:
- Policy (π): model językowy — policy to rozkład prawdopodobieństwa nad tokenami
- State: prompt + dotychczas wygenerowane tokeny
- Action: następny token
- Reward: wynik reward modelu na pełnej odpowiedzi (sparse reward)
- Environment: ludzkie preferencje zakodowane w reward modelu
Regularyzacja KL: Kluczowa: kara za zbyt duże odchylenie od modelu SFT:
Reward_total = RM(x, y) - β · KL(π_RL || π_SFT)
Bez KL penalty model może „zhackować" reward model — produkować dziwne odpowiedzi, które oszukują RM, ale nie są faktycznie dobre (reward hacking). KL penalty utrzymuje model blisko SFT.
Wynik: model zoptymalizowany pod ludzkie preferencje — pomocny, bezpieczny, uczciwy.
Ludzcy oceniający (annotators)
Jakość RLHF zależy krytycznie od jakości ludzkich ocen:
Wytyczne
Annotatorzy dostają szczegółowe wytyczne oceniania — co oznacza „lepsza odpowiedź":
- Pomocność (helpfulness) — czy odpowiada na pytanie, jest kompletna
- Prawdziwość (truthfulness) — czy fakty są poprawne
- Bezpieczeństwo (harmlessness) — czy nie jest toksyczna, niebezpieczna
- Spójność — logiczna, dobrze zorganizowana
- Format — odpowiedni ton, długość, struktura
Wyzwania
- Subiektywność — różni oceniający mogą się nie zgadzać
- Jakość annotatorów — niedoświadczeni oceniający generują szum
- Koszt — tysiące par ocen, wynagrodzenie annotatorów
- Bias — oceniający mogą faworyzować pewne style odpowiedzi
- Skala — potrzeba tysięcy godzin ludzkiej pracy
Alternatywy dla RLHF
DPO (Direct Preference Optimization)
Eliminuje reward model i PPO — bezpośrednio optymalizuje model na parach preferencji.
DPO pokazuje, że optymalna polityka RLHF ma zamkniętą formę — można ją wyrazić bez pośrednictwa reward modelu. Model trenowany jest prostą stratą:
Loss = -log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))
Zalety: prostsza implementacja (brak RM, brak PPO), stabilniejszy trening, tańsze obliczeniowo. Wady: mniej elastyczne niż RLHF, brak jawnego reward modelu do ewaluacji.
DPO stało się de facto standardem dla mniejszych zespołów i modeli open-source.
RLAIF (RL from AI Feedback)
Zamiast ludzi, inny model AI ocenia odpowiedzi. Constitutional AI (Anthropic) używa AI do generowania i oceniania odpowiedzi na podstawie zestawu zasad (constitution).
Proces:
- Model generuje odpowiedź
- Model AI krytykuje odpowiedź na podstawie zasad
- Model generuje poprawioną odpowiedź
- Pary (oryginał, poprawiona) → trening preferencyjny
Zalety: skalowalność (AI ocenia miliony par), niższy koszt. Wady: jakość ograniczona zdolnościami AI-krytyka, ryzyko pętli bias.
KTO (Kahneman-Tversky Optimization)
Nie wymaga par preferencji — działa na niezależnych ocenach (thumbs up/down per odpowiedź). Inspirowany teorią perspektywy Kahnemana i Tversky'ego — awersja do strat.
ORPO (Odds Ratio Preference Optimization)
Łączy SFT i alignment w jednym etapie — bez potrzeby osobnego fine-tuningu.
RLHF w praktyce — kto tego używa?
OpenAI (ChatGPT/GPT-4)
Pełny pipeline: SFT → RM → PPO. Kluczowy moment: InstructGPT (2022) — demonstracja, że RLHF dramatycznie poprawia użyteczność modelu. GPT-3 + RLHF (InstructGPT 1.3B) jest preferowany przez ludzi nad GPT-3 (175B) — 100x mniejszy model z RLHF bije 100x większy bez RLHF.
Anthropic (Claude)
Constitutional AI + RLHF. Model trenowany na zasadach etycznych (constitution) przez self-play. Nacisk na bezpieczeństwo i harmlessness.
Meta (Llama 2/3)
Llama 2 Chat: SFT + 5 iteracji RLHF. Publiczny opis procesu w research paper.
Google (Gemini)
RLHF jako element treningu modeli Gemini. Szczegóły mniej publiczne.
Problemy i ograniczenia RLHF
Reward Hacking
Model uczy się oszukiwać reward model zamiast faktycznie generować lepsze odpowiedzi. Np. model produkuje rozwlekłe, pewne siebie odpowiedzi, bo RM to nagradzał — nawet gdy treść jest błędna.
Alignment Tax
RLHF może pogorszyć zdolności modelu na benchmarkach — model staje się bezpieczniejszy, ale mniej zdolny. Kompromis safety vs capability.
Sycophancy
Model nauczony przez RLHF ma tendencję do zgadzania się z użytkownikiem — bo annotatorzy preferowali odpowiedzi potwierdzające ich zdanie. Efekt: model mówi to, co użytkownik chce usłyszeć, nie to, co jest prawdą.
Homogenizacja
RLHF może prowadzić do jednolitego stylu odpowiedzi — model unika kontrowersji, daje wyważone odpowiedzi na wszystko. Traci „osobowość" i zdolność do wyrażania silnych opinii.
Podsumowanie
RLHF zrewolucjonizowało sztuczną inteligencję, przekształcając surowe modele językowe w użytecznych asystentów AI. Trzy etapy — SFT, reward model, PPO — tworzą pipeline alignmentu ludzkich preferencji. Alternatywy (DPO, RLAIF) upraszczają proces. Mimo ograniczeń (reward hacking, sycophancy), RLHF i jego warianty pozostają kluczową techniką tworzenia bezpiecznej i pomocnej AI.