AWQ大模型量化INT4比FP16 推理快2倍,GPU内存1/3
发布人