Playground AI

Eksperymentuj z algorytmami AI bezpośrednio w przeglądarce.

RLHF Demo

RLHF (Reinforcement Learning from Human Feedback) to kluczowa technika trenowania modeli językowych takich jak ChatGPT. Ludzie porównują pary odpowiedzi i wskazują lepszą. Z tych preferencji budowany jest model nagrody (reward model), który następnie służy do optymalizacji modelu AI metodą PPO. RLHF sprawia, że AI jest bardziej pomocna, bezpieczna i zgodna z intencjami użytkownika.

Czego się nauczysz

  • Jak ludzkie preferencje trenują model nagrody
  • Czym jest RLHF i dlaczego ChatGPT go używa
  • Jak model nagrody ocenia jakość odpowiedzi
  • Dlaczego porównywanie par jest łatwiejsze niż bezpośrednia ocena

Jak korzystać z wizualizacji

Demonstracja Reinforcement Learning from Human Feedback. Porównuj pary odpowiedzi AI na 10 tematów, wybierając lepszą. Model nagrody uczy się Twoich preferencji. Wykres słupkowy wyników, ranking odpowiedzi, pasek postępu.

Ładowanie wizualizacji...

Poznaj teorię

Wizualizacja to świetny start, ale pełne zrozumienie wymaga teorii. Przeczytaj artykuł w bazie wiedzy, żeby dowiedzieć się jak to naprawdę działa pod maską.

Przeczytaj artykuł →