What is optimizer.zero_grad() used for?

Updated May 17, 2026

Short answer

It resets gradients before backpropagation.

PyTorch accumulates gradients by default, so zero_grad clears previous gradients.

Essential in every training loop.