RLHF (Reinforcement Learning from Human Feedback) to technika, która przekształca surowy model językowy w asystenta AI odpowiadającego zgodnie z ludzkimi preferencjami — pomocnego, bezpiecznego i uczciwego. To RLHF sprawia, że ChatGPT brzmi naturalnie i sensownie, zamiast generować surowy, nieprzewidywalny tekst. RLHF łączy uczenie ze wzmocnieniem z ludzkim osądem — przekształcając subiektywne preferencje „lepsza vs gorsza odpowiedź" w sygnał treningowy dla modelu.

Problem: dlaczego pretrenowanie nie wystarczy?

Model językowy po pretrenowaniu (np. GPT-3 bazowy) potrafi generować tekst — ale robi to na zasadzie przewidywania następnego tokenu. Jego cel to maksymalizacja prawdopodobieństwa tekstu w zbiorze treningowym (Internet), nie maksymalizacja użyteczności dla użytkownika.

Efekt:

  • Model może kontynuować tekst zamiast odpowiadać na pytanie
  • Może generować treści toksyczne, bo takie też były w danych
  • Może podawać fałszywe informacje z pewnością siebie (halucynacje)
  • Nie wie, w jakim formacie odpowiadać
  • Nie odróżnia dobrej odpowiedzi od złej

RLHF rozwiązuje ten problem — uczy model, jakie odpowiedzi ludzie preferują i optymalizuje go ku tym preferencjom.

Trzy etapy RLHF

Etap 1: Supervised Fine-Tuning (SFT)

Cel: nauczyć model formatu instrukcja → odpowiedź.

Dane: tysiące par (instrukcja, wzorcowa odpowiedź) napisanych przez ludzi — tzw. demonstration data.

Przykład: Instrukcja: „Wyjaśnij grawitację 5-latkowi" Odpowiedź: „Wiesz, dlaczego piłka spada na ziemię? To dlatego, że Ziemia przyciąga do siebie wszystkie rzeczy..."

Trening: standardowy fine-tuning — minimalizacja cross-entropy loss na wzorcowych odpowiedziach.

Wynik: model SFT — potrafi odpowiadać na pytania, ale nie wie jeszcze, jakie odpowiedzi są „lepsze" od innych.

Etap 2: Reward Model (RM)

Cel: wytrenować model, który ocenia jakość odpowiedzi — przypisuje skalar (wynik) odpowiedzi modelu.

Zbieranie danych:

  1. Model SFT generuje K odpowiedzi na to samo pytanie
  2. Ludzcy oceniający (annotators) rankują odpowiedzi od najlepszej do najgorszej
  3. Pary (lepsza, gorsza) odpowiedzi stają się danymi treningowymi

Przykład: Pytanie: „Jak oszczędzać energię w domu?" Odpowiedź A: „Wyłącz światła, które nie są potrzebne. Używaj żarówek LED. Izoluj okna." Odpowiedź B: „Możesz wyłączyć lodówkę." Ranking: A > B

Trening RM: Reward model (zwykle ten sam model LLM z warstwą liniową na wyjściu) uczy się dawać wyższy wynik lepszej odpowiedzi w każdej parze:

Loss = -log(σ(r(x, y_w) - r(x, y_l)))

Gdzie y_w = lepsza odpowiedź, y_l = gorsza, r = reward model, σ = sigmoid.

Wynik: reward model RM(prompt, response) → skalar (jakość odpowiedzi).

Etap 3: RL Fine-Tuning (PPO)

Cel: zoptymalizować model językowy, by generował odpowiedzi maksymalizujące reward z reward modelu.

Algorytm: PPO (Proximal Policy Optimization) — stabilny algorytm policy gradient z uczenia ze wzmocnieniem.

Mapowanie na RL:

  • Policy (π): model językowy — policy to rozkład prawdopodobieństwa nad tokenami
  • State: prompt + dotychczas wygenerowane tokeny
  • Action: następny token
  • Reward: wynik reward modelu na pełnej odpowiedzi (sparse reward)
  • Environment: ludzkie preferencje zakodowane w reward modelu

Regularyzacja KL: Kluczowa: kara za zbyt duże odchylenie od modelu SFT:

Reward_total = RM(x, y) - β · KL(π_RL || π_SFT)

Bez KL penalty model może „zhackować" reward model — produkować dziwne odpowiedzi, które oszukują RM, ale nie są faktycznie dobre (reward hacking). KL penalty utrzymuje model blisko SFT.

Wynik: model zoptymalizowany pod ludzkie preferencje — pomocny, bezpieczny, uczciwy.

Ludzcy oceniający (annotators)

Jakość RLHF zależy krytycznie od jakości ludzkich ocen:

Wytyczne

Annotatorzy dostają szczegółowe wytyczne oceniania — co oznacza „lepsza odpowiedź":

  • Pomocność (helpfulness) — czy odpowiada na pytanie, jest kompletna
  • Prawdziwość (truthfulness) — czy fakty są poprawne
  • Bezpieczeństwo (harmlessness) — czy nie jest toksyczna, niebezpieczna
  • Spójność — logiczna, dobrze zorganizowana
  • Format — odpowiedni ton, długość, struktura

Wyzwania

  • Subiektywność — różni oceniający mogą się nie zgadzać
  • Jakość annotatorów — niedoświadczeni oceniający generują szum
  • Koszt — tysiące par ocen, wynagrodzenie annotatorów
  • Bias — oceniający mogą faworyzować pewne style odpowiedzi
  • Skala — potrzeba tysięcy godzin ludzkiej pracy

Alternatywy dla RLHF

DPO (Direct Preference Optimization)

Eliminuje reward model i PPO — bezpośrednio optymalizuje model na parach preferencji.

DPO pokazuje, że optymalna polityka RLHF ma zamkniętą formę — można ją wyrazić bez pośrednictwa reward modelu. Model trenowany jest prostą stratą:

Loss = -log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))

Zalety: prostsza implementacja (brak RM, brak PPO), stabilniejszy trening, tańsze obliczeniowo. Wady: mniej elastyczne niż RLHF, brak jawnego reward modelu do ewaluacji.

DPO stało się de facto standardem dla mniejszych zespołów i modeli open-source.

RLAIF (RL from AI Feedback)

Zamiast ludzi, inny model AI ocenia odpowiedzi. Constitutional AI (Anthropic) używa AI do generowania i oceniania odpowiedzi na podstawie zestawu zasad (constitution).

Proces:

  1. Model generuje odpowiedź
  2. Model AI krytykuje odpowiedź na podstawie zasad
  3. Model generuje poprawioną odpowiedź
  4. Pary (oryginał, poprawiona) → trening preferencyjny

Zalety: skalowalność (AI ocenia miliony par), niższy koszt. Wady: jakość ograniczona zdolnościami AI-krytyka, ryzyko pętli bias.

KTO (Kahneman-Tversky Optimization)

Nie wymaga par preferencji — działa na niezależnych ocenach (thumbs up/down per odpowiedź). Inspirowany teorią perspektywy Kahnemana i Tversky'ego — awersja do strat.

ORPO (Odds Ratio Preference Optimization)

Łączy SFT i alignment w jednym etapie — bez potrzeby osobnego fine-tuningu.

RLHF w praktyce — kto tego używa?

OpenAI (ChatGPT/GPT-4)

Pełny pipeline: SFT → RM → PPO. Kluczowy moment: InstructGPT (2022) — demonstracja, że RLHF dramatycznie poprawia użyteczność modelu. GPT-3 + RLHF (InstructGPT 1.3B) jest preferowany przez ludzi nad GPT-3 (175B) — 100x mniejszy model z RLHF bije 100x większy bez RLHF.

Anthropic (Claude)

Constitutional AI + RLHF. Model trenowany na zasadach etycznych (constitution) przez self-play. Nacisk na bezpieczeństwo i harmlessness.

Meta (Llama 2/3)

Llama 2 Chat: SFT + 5 iteracji RLHF. Publiczny opis procesu w research paper.

Google (Gemini)

RLHF jako element treningu modeli Gemini. Szczegóły mniej publiczne.

Problemy i ograniczenia RLHF

Reward Hacking

Model uczy się oszukiwać reward model zamiast faktycznie generować lepsze odpowiedzi. Np. model produkuje rozwlekłe, pewne siebie odpowiedzi, bo RM to nagradzał — nawet gdy treść jest błędna.

Alignment Tax

RLHF może pogorszyć zdolności modelu na benchmarkach — model staje się bezpieczniejszy, ale mniej zdolny. Kompromis safety vs capability.

Sycophancy

Model nauczony przez RLHF ma tendencję do zgadzania się z użytkownikiem — bo annotatorzy preferowali odpowiedzi potwierdzające ich zdanie. Efekt: model mówi to, co użytkownik chce usłyszeć, nie to, co jest prawdą.

Homogenizacja

RLHF może prowadzić do jednolitego stylu odpowiedzi — model unika kontrowersji, daje wyważone odpowiedzi na wszystko. Traci „osobowość" i zdolność do wyrażania silnych opinii.

Podsumowanie

RLHF zrewolucjonizowało sztuczną inteligencję, przekształcając surowe modele językowe w użytecznych asystentów AI. Trzy etapy — SFT, reward model, PPO — tworzą pipeline alignmentu ludzkich preferencji. Alternatywy (DPO, RLAIF) upraszczają proces. Mimo ograniczeń (reward hacking, sycophancy), RLHF i jego warianty pozostają kluczową techniką tworzenia bezpiecznej i pomocnej AI.