What is the best practice for finding the best set of hyperparameters in PyTorch?

Capo_Mestre · September 22, 2020, 9:43am

It feels that the parameter space is so huge that one could get lost while trying to manually adjust them.

Using grid-approach for hyperparameters is extensively long procedure.
It also feels that random grid, where a set of hyperparameters randomly sampled would also take a lot of time for, say, 20 different hyperparameters, especially when datasets are big, so one would wait quite a while while different versions of a neural network are being trained for each of the hyperparameter sets.

Is there a systematic approach (or the best accepted practice) to this problem in the cases of big datasets and a large hyperparameter space, so it would still be time efficient?

suraj.pt · September 22, 2020, 2:29pm

You might want to check Ray Tune

Capo_Mestre · September 22, 2020, 6:13pm

@suraj.pt Thanks! I will check that out!

Capo_Mestre · September 23, 2020, 9:03am

I discovered three practices so far:

Bayesian optimization
Random search
Genetic algorithm

Any more that can be added to the list?

KaiHoo · September 23, 2020, 9:11am

Maybe this paper can help:

Capo_Mestre · September 24, 2020, 9:57am

Other suggestions include:

PyTorch Ecosystem https://medium.com/pytorch/accelerate-your-hyperparameter-optimization-with-pytorchs-ecosystem-tools-bc17001b9a49
Hyperband
RayTune
BoTorch
Ax
Optuna
HyperOpt
scikit-optimize
Spearmint.

Might be useful:

Comparison between hyperparameter optimizers: https://medium.com/@ramrajchandradevan/comparison-among-hyper-parameter-optimizers-cd37483cd47

Capo_Mestre · September 24, 2020, 9:58am

Thanks for this interesting resource!

Capo_Mestre · September 25, 2020, 10:08am

One more suggestion is to use

Optuna

Capo_Mestre · January 23, 2021, 11:52am

Optunity is yet another library for haperparameter-tuning optimizers: Example — Optunity 1.1.0 documentation