Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索
发布人