What Is RLHF? Reinforcement Learning from Human Feedback Explained