What is overestimation bias in Q-Learning?

Updated May 17, 2026

Short answer

Overestimation bias occurs when Q-values are systematically overestimated.

Using max operator in noisy estimates causes inflated Q-values, which can mislead learning.

Can lead to suboptimal policies in robotics navigation.