Megatron-LM张量并行的行切分和列切分核心原理 #大模型 #分布式并行 #分布式训练
发布人