V
主页
斯坦福学者提出ControlNet,通过对Stable Diffussion生成结果进行控制,即将补完AIGC工业化的最后一块拼图!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
注意:内容系AI生成,请仔细辨别。
微软提出了KOSMOS-G,利用MLLM来指导通用视觉-语言输入生成图像!!
15项将改变未来的新型技术( 纳米技术 6G 机器人 无人机 3D打印 人工智能AI AR)
继EMO之后又火了!阿里提出Image-to-Video新框架AtomoVideo!
解锁CLIP长文本能力!即插即用替换CLIP!上海AI Lab提出Long-CLIP!
仅需0.5M!可集成任意扩散模型!字节提出灵活分辨率适配器ResAdapter!
1分钟内快速完成学术润色,全网最简易论文润色教程来啦!
任意文献PDF内容,30秒自动生成思维导图,助力科研学习每一天!
NVIDIA放大招了!在生成模型基础上提出Action-GPT:利用GPT实现任意文本生成动作!效果绝了!
【多模态+大模型+知识图谱】2024完整版:这绝对是B站最全的教程,论文创新点终于解决了!——人工智能/深度学习/aigc/计算机视觉
搞科研论文看不懂咋办?
【AI换脸】有 脚 就行!喂饭级小软件!
Google 前 CEO 埃里克·施密特近期在斯坦福 CS323 课堂上的访谈(完整版)
支持语音,图像,文本,音乐等模态输入!上海AI Lab提出任意多模态语言模型AnyGPT!
2024最新!这可能是目前最系统的【AI大模型】教程了,一口气带你学完LLM主流开源大模型,看完这一下全跑通了!!!(文心一言/百度千帆/讯飞星火大模型)
AI 如何快速文献检索?
【EMNLP 2023】MoE的替代品MEO横空出世,可以轻松提高混合专家的计算效率!
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
[CVPR 2024]Pose引导的舞蹈视频生成新方法!南洋理工联合微软提出DISCO!
原来AI真的能生成高颜值美女,快来试试多模态生成模型吧!
【多模态+大模型+知识图谱】2024最好创新的研究方向!绝对是B站最全的教程,论文创新点终于解决了!——人工智能|深度学习|aigc|计算机视觉
来自真实用户的百万级文本视频数据!Sora时代的视频生成数据集VidProM开源了!
北京
最强视觉backbone网络ConvNext v2来了!Meta AI融合了视觉掩码自监督框架,提出新的新的SOTA算法!目前代码和模型已开源!
开学季盛宴,全球最强 AI 应用平台联合RAG Flow 知识库系统正式上线!
当AI进入医学,会有多少人失业?LLaVA-Med为何性能这么好?
Adobe提出超越Stable Diffusion的GAN网络,10亿参数量模型速度吊打Stable Diffusion!目前已被CVPR2023接收!
斯坦福大学AI博士,揭秘最新多模态AI - 杨俊睿 Jackie,MAUI
文本引导的虚拟试衣来了,多模态在时尚领域的又一杀器!一键更换模特服装!目前代码模型已开源!
Mamba卷到多模态了!基于Mamba的多模态大语言模型VL-Mamba来了!
【脑客中国·科研】第155位讲者 | 王杰:多模态磁共振成像与脑科学
SAM+CLIP,会擦出什么样的火花!模型组合大法霸榜图像分割Zero-Shot!
微软联合北大提出了首个用于音视频联合生成的多模态扩散模型MM-Difussion!可以给定视频生成音频或给定音频生成视频!
微软学者整理了100页图文多模态预训练综述,涉及各种多模态模型和应用,并且附带视频教程,需要的同学快来领取!
多模态还能助力NLP任务!上交学者提出TILT方法,利用多模态检索图像增强文本表征,多项NLP下游任务达到SOTA!
几秒钟完成图像定制化生成!清华联合腾讯提出无需微调的AIGC新框架!
ChatGPT 越狱模式正式启动!学术版更新语音朗读功能并支持同时询问多个AI模型
中科大提出All-in-One多模态预训练方法,利用统一的多模态互信息提升多模态性能,下游检测分割性能超过BEIT V3!
阿里多模态团队基于OFA多模态预训练模型,提出最强中文OCR模型,效果惊艳!
太厉害了 已跪!终于有人能把OpenCV图像处理讲的这么通俗易懂了,现在计算机视觉opencv全套分享给大家。