How SGD works in pytorch

chenyuntc (Yun Chen) September 29, 2017, 10:56am 2

You are right. SGD optimizer in PyTorch actually is Mini-batch Gradient Descent with momentum.

2 Likes

When I use mini batch gradient descent, what optimizer should I use?

Dataloader shuffling best practice