İnsan Geri Bildiriminden Takviyeli Öğrenim (RLHF)

Model hizalama için popüler bir teknik, bir ödül modelini eğitmek için insan geri bildirimini kullanmaktır; bu da bir LLM'ye ince ayar yapmak için kullanılır.

Kaynaklar

Generative AI terminology

Önceki Terim

Yanıt Kalitesi

Sonraki Terim

Takviyeli Öğrenme (Reinforcement Learning)

İlgili Terimler

Gözetimli İnce Ayarlama Yapay Zeka (AI) Eğitmeni

İnsan Geri Bildiriminden Takviyeli Öğrenim (RLHF)

Kaynaklar

İlgili Terimler

Hizmetlerimiz hakkında bilgi alın!

Zeo ekibine katılın!

Merak ettiklerinizi bize sorun!