Belirli ölçütler olmadan bir hedef belirleyen ve modeli tek bir cevap bulmak yerine farklı senaryoları test etmeye teşvik eden bir yapay zeka öğretme yöntemi. İnsan geri bildirimlerine dayanarak, model daha iyi sonuçlar elde etmek için bir sonraki senaryoyu manipüle edebilir.