Model hizalama için popüler bir teknik, bir ödül modelini eğitmek için insan geri bildirimini kullanmaktır; bu da bir LLM'ye ince ayar yapmak için kullanılır.