Skip to content

Latest commit

 

History

History
16 lines (10 loc) · 724 Bytes

File metadata and controls

16 lines (10 loc) · 724 Bytes

loss 在训练过程中没有迅速降低

红色是正常的,黄色是不正常的,loss 虽然也降低了,但在 50 之后就波动式向上走了

看 grad-norm,发现一直相对较大

所以思路是排查看 grad-norm 是咋回事,有谁比较大:

有些参数的梯度为 0

pp=2,此时查看是哪些参数的梯度为 0:

然后发现这部分参数虽然初始化了,但是并没有参与计算,所以梯度是0: optimizer 里有个 zero grad,然后再 fwd bwd 的阶段