论文分享|ArXiv-23|BLIP-2:基于冻结的视觉模型和大规模语言模型进行视觉-语言预训练
发布人