machine learning Reinforcement Learning for Human Feedback rlhf

Notes on Reinforcement Learning for Human Feedback

Hannes Hapke 12 Jan 2023

Reinforcement Learning for Human Feedback (RLHF) is the concept with powers recent models like ChatGPT. In my notes, I am covering resources I found helpful to get started with RLHF.

Paper

A classic paper on Reinforcement Learning for Human Feedback (RLHF) is @OpenAI's "Learning to summarize from human feedback".

Our talented engineer @PhungVanDuy1 replicated this paper using our trlX library!

Read our report (w/ a code walk-through) here: https://t.co/b06Nk8iKDv
— Carper (@carperai) January 12, 2023