一言でいうと
分散学習時の学習率チューニングを不要にするようなSGDの拡張
論文リンク
https://arxiv.org/abs/2007.05105
著者/所属機関
Tyler B. Johnson, Pulkit Agrawal, Haijie Gu, Carlos Guestrin (Apple)
投稿日付(yyyy/MM/dd)
2020/07/09
概要

新規性・差分
既存のスケジューリングルールであるIdentity scaling ruleとlinear scaling ruleを適応的にした.
手法

結果


コメント