【VALSE论文速览-162期】基于预训练图像生成模型的语言引导风格迁移

发布人

论文题目：StylerDALLE: 基于预训练图像生成模型的语言引导风格迁移（StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model）
论文作者：Zipeng Xu, Enver Sangineto, Nicu Sebe
报告嘉宾：徐子彭（University of Trento）
讲者简介： 
徐子彭是特伦托大学多媒体与人类理解小组的博士生，她的研究课题为视觉与语言的内容理解与生成，博士导师为Prof. Nicu Sebe。她目前在NAVER LABS Europe实习，使用视觉语言基础模型帮助计算机视觉应用在现实世界中的主动学习。
个人主页：
https://zipengxuc.github.io/
报告摘要：
尽管风格迁移任务取得了许多进展，但大多数先前的工作只关注于迁移相对简单的特征，如颜色或纹理，而忽略了更抽象的概念，如整体艺术表达或画家特定的特征。然而，这些抽象语义可以通过 DALL-E 或 CLIP 等模型来捕获，这些模型已经使用大量图像和文本数据集进行了训练。在本文中，我们提出了 StylerDALLE，一种利用这两种模型并使用自然语言来描述抽象艺术风格的风格迁移方法。 具体来说，我们将语言引导的风格转移任务形式化为非自回归的序列翻译，即，在大规模预训练向量量化标记器（Vector-Quantized Tokenizer，如 DALL-E 的dVAE）的离散潜在空间中，从输入内容图像的序列表示到输出风格化图像的序列表示。为了引入风格信息，我们提出了一种基于 CLIP 的语言监督的强化学习策略，可同时确保风格化和内容保存。实验结果证明了我们方法的优越性，它可以使用不同粒度的语言指令有效地传递艺术风格。代码可在https://github.com/zipengxuc/StylerDALLE获取。

打开封面下载高清视频观看高清视频视频下载器

【VALSE论文速览-162期】基于预训练图像生成模型的语言引导风格迁移

20230816【数字虚拟人的研究进展与未来】韩晓光：基于图像的三维毛发重建

【VALSE论文速览-02期】探索简单孪生网络表征学习

【VALSE论文速览-140期】通过纯文本训练解码CLIP隐空间的零样本描述方法

【VALSE论文速览-122期】Low-Light Image Enhancement via Structure Modeling and Guidance

20240918【医学视觉语言大模型：进展与展望】郑冶枫：Medical Imaging Meets Vision-Language Model

【VALSE论文速览-61期】FPMVS-CAG: 基于一致锚点引导的大规模无参多视图子空间聚类

【VALSE论文速览-170期】HumanMAC: Masked Motion Completion for Human Motion Prediction

【VALSE论文速览-03期】可解释解耦表征中的位置与内容假设

20230719【Segment Anything开启图像分割新时代】Panel

保姆级别YOLOV11-环境配置、 数据集介绍、训练、验证、推理 详细教学视频，看了它，跑YOLOV11 没问题~

【VALSE论文速览-15期】图像超分辨率中的稀疏性及高效推理

20231206【三维大模型探索】白磊：风乌 - 人工智能驱动的3D大气数据建模及应用

【VALSE2023】0610 朱军《扩散概率模型的前沿进展》

【VALSE论文速览-151期】Revisiting Discriminative vs. Generative Classifiers: Theory……

【VALSE2024】0505 卢志武《APR：视频生成》

20231011【医疗基础模型 (上)】王德泉：借助医学文本提升基础模型在病理图像识别任务的迁移应用

20230719【Segment Anything开启图像分割新时代】王兴刚：从预训练和小型化角度来分析图像分割

【VALSE2023】0611 吴思《Tutorial ：计算神经科学-上》

【3D点云+三维重建】最好出论文的研究方向，博导带你从零解读两大方向的核心算法PointNet与NeuralRecon！赶紧收藏

【VALSE论文速览-82期】Causality Inspired Representation Learning for Domain Generalizat

【VALSE2023】0610 陈熙霖 《计算机视觉-从孤立到系统性方法》

【yolov8】一小时掌握！从0开始搭建部署YOLOv8，环境安装+推理+自定义数据集搭建与训练，入门到精通！

【VALSE论文速览-51期】Cross-Encoder for Unsupervised Gaze Representation Learning

20230920【复杂场景下的多模态感知学习】胡迪：平衡多模态学习

YOLOv5零基础入门！博导耗时10小时精讲YOLOv5从环境配置到项目实战，带你快速训练自己的数据集！

【VALSE2023】0610 胡瀚《视觉自监督学习年度进展评述》

20210816【VALSE短教程】《视觉语言导航》特邀讲师：吴琦副教授（澳大利亚阿德莱德大学）

【VALSE论文速览-198期】：AbdomenAtlas-8K: Annotating 8,000 CT Volumes for Multi-Organ...

【VALSE2023】0610 邓成/杨二昆《多模态融合感知年度进展综述》

【VALSE论文速览-04期】用于3D人体姿态估计的可微的数据增强框

【VALSE2024】0505 王兴刚《APR：面向大模型的新型高效率网络架构》

【VALSE论文速览-06期】基于非平衡态热力学的三维点云生成

目前B站最完整的【图神经网络从入门到精通】讲解，我居然20小时就学懂了GNN原理模型与应用，纯干货！超详细！看完血赚！神经网络深度学习/AI 人工智能

【VALSE论文速览-57期】DeepMIH: Deep Invertible Network for Multiple Image Hiding

【VALSE论文速览-52期】Class-aware Sounding Objects Localization via Audiovisual Corresp

20210811【知其所以然：因果推理与学习】张含望：真正的无偏模型

【VALSE论文速览-96期】Label Matching Semi-Supervised Object Detection

强推！我竟花2小时就学会了对抗生成网络GAN原理及实战，他是真的想教会我啊！

【VALSE论文速览-17期】基于对比预测的缺失视图聚类方法

【VALSE论文速览-26期】面向视频目标跟踪的对抗模糊攻击

保姆级别YOLOV11-环境配置、数据集介绍、训练、验证、推理详细教学视频，看了它，跑YOLOV11 没问题~

【VALSE2023】0610 陈熙霖《计算机视觉-从孤立到系统性方法》