Yakın Politika Optimizasyonu (PPO)

Model eğitimini iyileştirmek için takviyeli öğrenmede kullanılan bir optimizasyon algoritması.

Önceki Terim

Python

Sonraki Terim

Hızlı Enjeksiyon (Prompt Injection)