Bandit Optimizasyonu, belirli bir seçeneği seçmenin ve optimize etmenin nasıl bir strateji gerektirdiğini inceleyen bir olasılık teorisidir. Bu teorinin temelinde şu düşünce vardır: Bir kişi veya bir sistem, birçok farklı seçenek arasından seçim yapmalıdır. Her seçenek belirli bir ödül veya maliyetle ilişkilendirilir, ancak bu ödüllerin veya maliyetlerin tam olarak bilinmediği bir ortamda kararlar alınmalıdır. Bandit optimizasyonu, bu tür belirsiz ortamlarda en iyi stratejiyi geliştirmek için kullanılır.