看到一个图片,就是那个表情包,大家都知道:
Adadelta 》 NAG 》 Momentum》 Remsprop 》Adagrad 》SGD
但是我觉得看情况而定,比如有http://blog.51cto.com/12568470/1898367常见优化算法 (tensorflow对应参数)就认为实际工作上实践中觉得是ADAM ,但是谁说的准呢是吧,每个工程师的场景不一样,得到的实践的经验也不一样,也说不准呢。
所以有的人建议:调试时用快的优化器去训练,等发论文时,所有的优化器都尝试一次,取最好的效果就好。