什么是层归一化LayerNorm,为什么Transformer使用层归一化
发布人