“神经元的死因”原来是学习动力驱动的锅,深探ReLU Transformer中与层相关的激活稀疏模式
发布人