【阿里最新工作】2023阿里最新可控图像合成工作Composer，生成图像的多样性优于ControlNet，T2I-Adapter

发布人

Composer是来自于阿里巴巴的最新工作，主要用于解决多种condition组合下的图像合成问题。

打开封面下载高清视频观看高清视频视频下载器

【2023 ControlNet】斯坦福最新的可控文本生成图像扩散模型

【北大-腾讯最新工作】T2I-Adapter 更加可控的文本生成图像

AI生成视频失败案例，胆小警告

【ICLR 2023】Image as Set of Points.计算机视觉新范式，利用聚类的思想实现图像建模。在多个下游任务上不输ViT和ConvNets

抠图精细到头发丝！全新图像抠图方法，收录顶会SIGGRAPH 2024！

图像超分辨率技术更上一层楼的神技：单步有效扩散网络打破传统局限！计算效率极高

【ICLR2023 DreamFusion】谷歌基于Diffusion Model的文本到3D内容生成工作

CVPR'24 Highlight 北大 | 扩展动态人景交互建模新突破，生成的动作质量均优于现有技术

深度学习 | 通用特征融合模块 | SCI一区2023 | YOLO可替换拼接层| PSFM多尺度图像特征融合模块，所有CV任务通用的高频低频图像特征融合模块

多模态图像生成最新工作 Muse: Text-To-Image Generation via Masked Generative Transformers

【腾讯文本3D生成最新工作】Dream3D

Metaf发布，LMMs王者登场！Transformer和Diffusion强势融合，促进语言模型和图像生成大一统

【yolov8】一小时掌握！从0开始搭建部署YOLOv8，环境安装+推理+自定义数据集搭建与训练，入门到精通！

【腾讯】IP-Adapter论文解读，拿捏图生图，人脸更不在话下。

发文首选：KAN用于图像处理！效果炸裂好，最新9种创新思路

【CVPR2023 PiMAE】点云图像多模态MAE最新工作

【阿里，港中深等】VideoMV: 微调预训练视频生成模型，生成3D一致多视角图片

结合创新，小波变换+注意力机制，实现100%分类准确率

【北大，字节】自回归图像生成模型 Visual Autoregressive Model（VAR），通过Next-Scale预测方式实现图像生成

【今年各大顶会的焦点！】扩散模型这绝对是发论文超火的一个方向！各大顶会上榜方向！

图神经网络GNN实战系列：清华大佬带你手撕GCN、GAT、PyG、GTN、DySAT等项目源码，全程比刷剧还爽！

【YOLOv10】12分钟通关YOLOv10，环境搭建、模型训练、验证推理、导出、数据集

[SIGGRAPH2024 Talk] DiLightNet: 用于基于扩散的图像生成的细粒度光照控制

【北京智源 CVPR2023】视觉预训练最新工作，EVA系列工作EVA-01

【全198集】CV入门到起飞！一口气学完Python、OpenCV、深度学习基础、Pytorch、卷积神经网络、物体检测、图像分割、等八大计算机视觉必备基础！

【FAIR Segment Anything】图像分割领域首个基于Prompt Learning的大模型，视觉的GPT时代！

腾讯XR实验室 | Sketch2Scene：”神笔马良”，你随意画的草图就可自动生成交互式3D游戏场景，且效果紧密契合你的意图

【讨论班】Step-by-Step Diffusion - An Elementary Tutorial (1)

ECCV'24 NVIDIA | DiPIR：堪称"变色龙",可将3D物体无缝融合进各种场景，提升视觉真实感

【TUM，Meta】ViewDiff：借助预训练文生图模型，生成3D一致的场景图像

CVPR22 Oral, GLIP: Grounded Language-Image Pre-training

【小红书 InstantX】InstantStyle 论文讲解，效果炸裂

【南京大学等】STAG4D：时空锚定的4D资产生成

【CVPR'24】扩散模型中时间区间端点奇异性的解决

【手搓代码】从零手搓扩散模型Flow Matching（Rectified Flow）第二回：条件生成，算法、模型、训练、推理全覆盖，github同步开源

【旷视 3D表征学习新工作】掩码学习和对比学习的强强联合，性能SOTA

发明Netron的人真是个天才，能把复杂难懂的代码以图形化的方式展示！

【清华大学】Make-your-3D：高效一致的主题驱动3D内容生成

读博期间，有那本书你恨不得把它全部内容都背诵下来？知乎2.7w赞！豆瓣9.5！最好的SCI科研论文写作指导书！看完再也不担心写paper

不愧是GitHub大佬！半天就教会了我YOLO、SSD、FasterRCNN、FastRCNN、SPPNet、RCNN等六大目标检测算法！深度学习/物体检测

【阿里最新工作】2023阿里最新可控图像合成工作Composer，生成图像的多样性优于ControlNet，T2I-Adapter

【2023 ControlNet】斯坦福最新的可控文本生成图像扩散模型

【北大-腾讯最新工作】T2I-Adapter 更加可控的文本生成图像

AI生成视频失败案例，胆小警告

【ICLR 2023】Image as Set of Points.计算机视觉新范式，利用聚类的思想实现图像建模。在多个下游任务上不输ViT和ConvNets

抠图精细到头发丝！全新图像抠图方法，收录顶会SIGGRAPH 2024！

图像超分辨率技术更上一层楼的神技：单步有效扩散网络打破传统局限！计算效率极高

【ICLR2023 DreamFusion】谷歌基于Diffusion Model的文本到3D内容生成工作

CVPR'24 Highlight 北大 | 扩展动态人景交互建模新突破， 生成的动作质量均优于现有技术

深度学习 | 通用特征融合模块 | SCI一区2023 | YOLO可替换拼接层| PSFM多尺度图像特征融合模块，所有CV任务通用的高频低频图像特征融合模块

多模态图像生成最新工作 Muse: Text-To-Image Generation via Masked Generative Transformers

【腾讯文本3D生成最新工作】Dream3D

Metaf发布，LMMs王者登场！Transformer和Diffusion强势融合，促进语言模型和图像生成大一统

【yolov8】一小时掌握！从0开始搭建部署YOLOv8，环境安装+推理+自定义数据集搭建与训练，入门到精通！

【腾讯】IP-Adapter论文解读，拿捏图生图，人脸更不在话下。

发文首选：KAN用于图像处理！效果炸裂好，最新9种创新思路

【CVPR2023 PiMAE】点云图像多模态MAE最新工作

【阿里，港中深等】VideoMV: 微调预训练视频生成模型，生成3D一致多视角图片

结合创新，小波变换+注意力机制，实现100%分类准确率

【北大，字节】自回归图像生成模型 Visual Autoregressive Model（VAR）， 通过Next-Scale预测方式实现图像生成

【今年各大顶会的焦点！】扩散模型这绝对是发论文超火的一个方向！各大顶会上榜方向！

图神经网络GNN实战系列：清华大佬带你手撕GCN、GAT、PyG、GTN、DySAT等项目源码，全程比刷剧还爽！

【YOLOv10】12分钟通关YOLOv10，环境搭建、模型训练、验证推理、导出、数据集

[SIGGRAPH2024 Talk] DiLightNet: 用于基于扩散的图像生成的细粒度光照控制

【北京智源 CVPR2023】视觉预训练最新工作，EVA系列工作EVA-01

【全198集】CV入门到起飞！一口气学完Python、OpenCV、深度学习基础、Pytorch、卷积神经网络、物体检测、图像分割、等八大计算机视觉必备基础！

【FAIR Segment Anything】图像分割领域首个基于Prompt Learning的大模型，视觉的GPT时代！

腾讯XR实验室 | Sketch2Scene：”神笔马良”，你随意画的草图就可自动生成交互式3D游戏场景，且效果紧密契合你的意图

【讨论班】Step-by-Step Diffusion - An Elementary Tutorial (1)

ECCV'24 NVIDIA | DiPIR：堪称"变色龙",可将3D物体无缝融合进各种场景，提升视觉真实感

【TUM，Meta】ViewDiff：借助预训练文生图模型，生成3D一致的场景图像

CVPR22 Oral, GLIP: Grounded Language-Image Pre-training

【小红书 InstantX】InstantStyle 论文讲解，效果炸裂

【南京大学 等】STAG4D：时空锚定的4D资产生成

【CVPR'24】扩散模型中时间区间端点奇异性的解决

【手搓代码】从零手搓扩散模型Flow Matching（Rectified Flow）第二回：条件生成，算法、模型、训练、推理全覆盖，github同步开源

【旷视 3D表征学习新工作】掩码学习和对比学习的强强联合，性能SOTA

发明Netron的人真是个天才，能把复杂难懂的代码以图形化的方式展示！

【清华大学】Make-your-3D：高效一致的主题驱动3D内容生成

读博期间，有那本书你恨不得把它全部内容都背诵下来？知乎2.7w赞！豆瓣9.5！最好的SCI科研论文写作指导书！看完再也不担心写paper

不愧是GitHub大佬！半天就教会了我YOLO、SSD、FasterRCNN、FastRCNN、SPPNet、RCNN等六大目标检测算法！深度学习/物体检测

CVPR'24 Highlight 北大 | 扩展动态人景交互建模新突破，生成的动作质量均优于现有技术

【北大，字节】自回归图像生成模型 Visual Autoregressive Model（VAR），通过Next-Scale预测方式实现图像生成

【南京大学等】STAG4D：时空锚定的4D资产生成