[论文简析]MaskGIT: Masked Generative Image Transformer[2202.04200] - 视频下载 Video Downloader

[论文简析]MaskGIT: Masked Generative Image Transformer[2202.04200]

发布人

论文题目:MaskGIT: Masked Generative Image Transformer
论文地址:http://arxiv.org/abs/2202.04200
VQGAN: BV1ym4y1d7iP
* 视频受up能力限制经常出现中英混杂，散装英语等现象，请见谅。如论文理解报道出了偏差，欢迎各位怒斥。
** 新论文推荐，过往论文查找，欢迎编辑这个文档：
https://docs.qq.com/sheet/DSUdOTG9xWUdydVB6
*** Slides每1-2月会上传到置顶动态地址

打开封面下载高清视频观看高清视频视频下载器

[论文速览]Taming Transformers for High-Resolution Image Synthesis[2012.09841]

[论文速览]Masked-attention Mask Tr. for Universal Image Segmentation[2112.01527]

[论文夕拾]Diffusion Models for Robotics

强烈建议大家来找我们文科女研谈恋爱

[论文速览]LLaVA: Visual Instruction Tuning[2304.08485]

[论文简析]PolyFormer: Referring Image Seg. as Sequential Polygon Gen [2302.07387]

[论文速览]GENIMA: Generative Image as Action Models[2407.07875]

[论文速览]Theia: Distilling Diverse Vision Foundation Models for Robot..[2407.20179]

[论文简析]Finding an Unsupervised Image Segmenter in .. Generative Model[2105.08127]

[论文简析]Visual Autoregressive Modeling: ...via Next-Scale Prediction[2404.02905]

[论文简析]Location-Aware Self-Supervised Transformers for Semantic Seg.[2212.02400]

[论文简析]A Laplacian Pyramid Translation Network[2105.09188]

[论文简析]DeiT: Data-efficient Image Transformers[2012.12877]

[论文速览]Rethinking the Truly Unsupervised Image-to-Image Translation[2006.06500]

[论文简析]How Do Vision Transformers Work?[2202.06709]

[论文简析]Contrastive Learning for Unpaired Image-to-Image Translation[2007.15651]

[论文简析]Keeping Your Eye on the Ball: Trajectory Attention...[2106.05392]

[论文速览]Flamingo: a Visual Language Model for Few-Shot Learning[2204.14198]

[论文速览]EViT: Expediting Vision Transformers via Token Reorganizations[2202.07800]

[论文简析]SlowFast Networks for Video Recognition[1812.03982]

[论文简析]Point Transformer[2012.09164]

[论文简析]Energy-Inspired Self-Supervised Pretraining for Vision Models[2302.01384]

[论文简析]Improving fine-grained understanding in image-text pre-training[2401.0986]

[论文简析]Toolformer: Language Models Can Teach Themselves to Use Tools[2302.04761]

[论文速览]BLIP-2 ...with Frozen Image Encoders and Large Language Models[2301.12597]

[论文速览]Generative Modeling by Estimating Gradients of the Data Dist[1907.05600]

[论文速览]DDPG&TD3[1509.02971][1802.09477]

[论文简析]MoCo: Momentum Contrast Learning[1911.05722/2003.04297]

[论文简析]DreamBooth: Fine Tuning Text-to-Image Diffusion Models...[2208.12242]

[论文简析]End-to-End Video-Language Transformers..Masked Visual-token..[2111.12681]

[论文速览]CRG: Improving Grounding in VLM w/o training[2403.02325]

[论文简析]Deep Unsupervised Learning using Nonequilibrium Thermodynamics[1503.03585]

[论文简析]Multimodal Unsupervised Image-to-Image Translation[1804.04732]

[论文简析]DeepLab: Semantic Image Segmentation with DCN..[1606.00915]

[论文简析]β-VAE Learning basic visual concepts with a constrained variational...

[论文速览]Visual Prompt Tuning / VPT[2203.12119]

[论文简析]Point Transformer V2[2210.05666]

[论文简析]Exploring Self-attention for Image Recognition[2004.13621]

[论文简析]A Generalist Agent / Gato[2205.06175]

[论文简析]NeRF: Representing Scenes as Neural Radiance Fields...[2003.08934]