13 Transformer的多头注意力,Multi-Head Self-Attention(从空间角度解释为什么做多头)
发布人