V
主页
LLaVA+SEEM+GLIGEN,微软提出多模态交互原型Demo LLaVA-Interactive!
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
我居然只花一小时就学懂了如何通过重编程LLM进行时间序列预测!论文解读,附原文+代码!!!(llm大模型/跨模态交互/时序预测/人工智能)
04_多模态_基于vLLM进行模型推理与源码讲解
【多模态+大模型+知识图谱】2024最好创新的研究方向!绝对是B站最全的教程,论文创新点终于解决了!——人工智能|深度学习|aigc|计算机视觉
【通往AGI值得探索的方向:具身智能】北大董豪精讲具身智能关键技术研究:操纵、决策、导航!多模态大模型、机器人
【面壁学术沙龙】第5期:多模态大模型 偏好对齐
【肝疯了】全B站最详细的【如何寻找论文创新点】教程,一年水6篇SCI不是梦想!存下吧,比自己看一百篇文献有用多了!(人工智能/机器学习/深度学习)
研究生必备!里面99%的论文都能找到,一个代码复现的神级网站!人工智能/机器学习/深度学习/论文复现/代码
AI模型的大一统!微软多模态组提出了多模态领域杀疯了的多边形战士BEIT V3!多项视觉,多模态任务达到SOTA!
多模态大模型 MiniCPM-V 2.6「实时视频理解」首次上端!
【三维目标跟踪+3D点云+多模态3D目标检测】博士精讲三维重建PointNet++算法及源码项目!B站最全教程!
阿里发布最强中文图文多模态模型:Chinese CLIP,基于两亿中文图文多模态数据!
深度学习最热方向!今年最全的多模态大模型综述来啦!-神经网络/大模型/LLM
幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!
一小时深度解析【Sora分析】视频生成模型,如何做到文本生成视频?详解背后的技术原理与应用案例!!!
看完直接带走一篇二区!多模态融合注意力机制暴力涨点发论文!
ChatSpot:更精确的带参考坐标多模态指令微调,目前已开源!#计算机 #论文 #nlp #ai #chatgpt
基于Diffusion模型的DiffFace来了,交换效果超过之前的经典模型!代码和模型即将开源!
强烈推荐!吴恩达大模型微调+langchain+RAG+Mistral系列教程!不愧是圈内公认的大佬!多模态大模型
NVIDIA放大招了!在生成模型基础上提出Action-GPT:利用GPT实现任意文本生成动作!效果绝了!
国内智驾老兵百度开源BEVWorld:通过统一BEV潜在空间实现自动驾驶的多模态世界模型
【全256集】多模态方向是不是同时得学nlp和cv?2024(最新)多模态大模型教程VIT、Clip、SAM等模型实战,由我精讲多模态大模型原理!
UIUC学者发现冻结LLM中的Transformer是有效的视觉编码器层!多项视觉任务性能均有提升!
当医学图像遇上SAM,会产生什么样的火花,基于SAM的医学图像分割finetune框架来了,附代码!
Mamba卷到多模态了!基于Mamba的多模态大语言模型VL-Mamba来了!
Kaiming He团队在多模态领域提出的FLIP,结合MAE Masking Image 策略与CLIP,保证精度的同时 大幅提升训练效率!
InternVL 多模态模型语音功能小剧透!
腾讯联合浙大提出新的视觉Transformer网络CrossFormer,参数量更少同时性能超过Swin!目前已开源!
一个神级AI写论文工具,实测知网查重率11%,不得不服!
审了100多篇SCI论文!今天说点审稿人拒稿的“真实原因”!
05_多模态_基于MiniCPM-V进行全参微调和lora微调
原来AI真的能生成高颜值美女,快来试试多模态生成模型吧!
DeepMind提出De-Diffusion,仅使用图像数据提升多项多模态任务性能!
CVPR 2023,EVA升级,智源开源更强的视觉预训练模型EVA-2,Vit-L Imagenet精度达到90+!
我们把ALOHA机器人和多模态大模型结合了起来,来看看效果如何?
支持语音,图像,文本,音乐等模态输入!上海AI Lab提出任意多模态语言模型AnyGPT!
鹏城实验室学者提出了一种新的视频语言多模态预训练模型SOTA-VLP,融合了空间时序建模方法,捕获细粒度特征,多项任务取得SOTA!
开学季盛宴,全球最强 AI 应用平台联合RAG Flow 知识库系统正式上线!
阿里提出用于视频文本理解的高效多模态模型MuLTI,通过设计了Multiway Sampler和多项选择建模任务 在多项视频理解任务上达到新SOTA!
读博后才知道,一周写完文献综述其实很简单。
【20集完整版】目前B站最完整的论文写作教程,包含所有干货内容!这还没人看,我不更了!