亚马逊学者提出了既能看又能读的多模态场景理解模型,支持传统的VQA以及文本VQA!
发布人