Reinforcement Learning from Human Feedback (RLHF)

A technique for aligning models by using human feedback to train a reward model, subsequently fine-tuning a large language model.

Previous Term

Response Quality

Next Term

Reinforcement Learning