Do i need to do optimizer.zero_grad() when using Adam solver?

Nick_Young · May 19, 2017, 1:30pm

lgelderloos · May 19, 2017, 1:34pm

Related: are model.zero_grad() and optimizer.zero_grad() equivalent when using an optimizer?

albanD · May 19, 2017, 1:45pm

@Nick_Young yes, the buffer for the gradient are never zeroed out automatically.
@lgelderloos only if you created your optimizer as optimizer = optim.some_optim_func(model.parameters(), ...). Basically model.zero_grad() will zero all the parameters in the model. optimizer.zero_grad() will zero out all parameters associated with this optimizer. Depending on how you created the optimizer, they will be the same or not.

lgelderloos · May 19, 2017, 1:46pm

Thanks for the clarification!

Nick_Young · May 19, 2017, 2:42pm

Thank you! @albanD