MarDini：一个基于masked auto-regression和DiT的非对称视频生成模型 - 视频下载 Video Downloader

MarDini：一个基于masked auto-regression和DiT的非对称视频生成模型

发布人

arxiv：https://arxiv.org/abs/2410.20280
GitHub：https://mardini-vidgen.github.io/

打开封面下载高清视频观看高清视频视频下载器

【Stable Diffusion】最强AI生成视频详细教程！极度爆炸的视频生成！真的太实用了，这3个新功能一个比一个炸~（附SD安装包及插件）保姆级AI绘教程

【NeurIPS2024 Oral】VAR：使用next scale prediction，基于自回归架构的图片生成模型

RAR：一个基于token shuffling的提升自回归架构图片生成模型表现的策略

【生成式AI】李宏毅大佬2024新课：【扩散模型-diffusion model 背后的数学原理】内容优质且易懂，看完直接跑通！（含配套资料）

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

Emu3：统一理解和生成的多模态大模型

mini-omni：实时可交互语音大模型

OLMoE：基于MoE的全开源大模型

Fluid：使用连续token表示，随机顺序生成的自回归文生图模型

2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI）这绝对是ai大模型教程天花板！

Research Track 6：多模态大模型最新的一些论文

transfusion：统一transformer和diffusion框架的多模态大模型

PS 2025鹰标 Ai创成式填充国内使用方法（新功能介绍+安装教程）PS2024 PSBeta都可以安装。

可以操作电脑的AI大模型来了！Claude 发布最新版3.5 Sonnet模型，秒杀GPT-4o

Talk | 北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

LLaMA3.2：LLaMA3.2大模型系列

Janus：基于分离视觉编码器的统一理解与生成的多模态大模型

agent Q: 超强网页交互agent

Aria：基于MoE架构的原生多模态大模型

Research Track 7：多模态大模型最新的一些论文

SHOW-o：统一理解和生成任务的transformer

SlowFast-LLaVA：无需训练的视频理解多模态大模型

Allegro：开源的SOTA视频生成模型

LLM工程-掌握AI与大型语言模型 - LLM Engineering: Master AI & Large Language Models (LLMs)

【Stable diffusion】AI生成视频再出王炸！SD文生视频横空出世！极度爆炸的视频生成！真的太实用了，这3个新功能一个比一个炸~（附插件）保姆级教程

MM1.5：Apple多模态大模型系列

Research Track 5：多模态大模型最新的一些论文

Vidu AI 1.5动画演示，AI版“我的世界”视频

ChartMoE：使用MoE adapter的Chart理解多模态大模型

AVG-LLaVA：自适应尺度视觉特征选择的多模态大模型

扩散模型论文概述（一）：OpenAI系列工作

Research Track 3：多模态大模型最新的一些论文

如果能重来，我要选Ai

Cambrian-1：以视觉为中心，基于多个vision encoder的多模态大模型

mini-Gemini：支持高精度图片输入的多模态大模型

Qwen-2.5 Coder (32B)+ Cursor+ Aider：这个最强开源代码模型击败了 Claude、GPT-4o？

eagle：多个Vision Encoder的多模态大模型

【AI搞钱实操】利用AI月入过万？5分钟生成AI火柴人视频火爆全网，打工人必学的AI副业项目！

【2024最新完整版】不愧是李宏毅教授！一口气学完机器学习、深度学习、强化学习、生成式AI等课程！一套全解决！

【【Stable diffusion】AI生成视频再出王炸！SD文生视频横空出世！极度爆炸的视频生成！真的太实用了，这3个新功能一个比一个炸~（附插件）保姆级教