hack-SysML/frameworks/pytorch/debug-loss.md at master · Songhbops/hack-SysML · GitHub

16 lines (10 loc) · 724 Bytes

loss 在训练过程中没有迅速降低

红色是正常的，黄色是不正常的，loss 虽然也降低了，但在 50 之后就波动式向上走了

看 grad-norm，发现一直相对较大

所以思路是排查看 grad-norm 是咋回事，有谁比较大：

有些参数的梯度为 0

pp=2，此时查看是哪些参数的梯度为 0:

然后发现这部分参数虽然初始化了，但是并没有参与计算，所以梯度是0: optimizer 里有个 zero grad，然后再 fwd bwd 的阶段