V
主页
本地安装Qwen2-VL 2B-Instruct 效果最好的视觉语言模型
发布人
https://www.youtube.com/watch?v=r8PnomIhD98
打开封面
下载高清视频
观看高清视频
视频下载器
北大发布多模态大模型LLaVA-o1,推理计算Scaling新思路
qwen2-vl 7b模型,外置4060ti 16g显存,Win11本地部署视频识别测试
Talk | 香港科技大学叶汉荣:X-VILA - 大语言模型的跨模态对齐
BibiGPT 播放器大升级 & 视觉化总结初体验:无声画面也能分析!
2025年五大惊人AI趋势!人工智能技术
人工智能将在未来十年,以十种可怕的方式,改变你的生活!
Ollama 全新升级:多模态 Llama3.2Vision 强势登场!在linux环境下实现图生文大模型丨模型本地安装部署丨性能多维度测评
【研三】自研多模态大模型架构——长时程、高鲁棒
强大的可怕!AutoGLM炸裂的PhoneUse能力!给力!国产大模型快速跟进!
第90集 | 视觉语言模型 | 多模态、图像描述、文本生成图像 | VLM 的优势
YOLOv11多模态 结合CFT模块 融合可见光+红外光双输入
20分钟学会Qwen2-7b本地部署GraphRAG,无需Ollama,从环境搭建到报错解决全流程,草履虫都能学会~
深度学习+遥感,这口饭得趁热吃啊!绝佳A会创新点!!!
明知不敌 GPT-4,大厂为何还趋之若鹜?大模型领域究竟会如何发展演变,是会出现新的王者颠覆现有格局,还是 GPT - 4 继续领跑,让我们拭目以待。大模型
新时代降临!多模态大模型的结构范式都有啥?
腾讯推出最强开源,混合专家模型架构MoE,Hunyuan-Large 大模型,官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型
国产AI-一口气讲清楚可灵AI免费生成内容
EMNLP2024分享会之多模态主题
都在聊大模型,那怎么评价多模态大模型的好坏呢?
李飞飞团队佳作不断:聚焦机器人抓取交互,让机器人操作真正地适应各种环境
2045年实现永生!纳米机器人!人工智能技术
英伟达发布MM-Embed:融合文本和图像的跨模态信息检索新模型
北京智源开源OmniGen统一图像生成模型 再也不用controlnet啦 直接文字控制 基于流匹配加transformer架构
2025年AI科研做点啥——我用两张3090实现了开源版的SearchGPT
dify AI 教程:图文智控链
年薪40W的提示词工程师需要掌握什么?吴恩达大佬1小时精讲Prompt:OpenAI调用,上下文构建,任务导向,关键词...看完就能写进简历!-大模型/人工智能
Cross Attention is al you need!交叉注意力机制13篇必读
马斯克:AI能力每年至少增长10倍,2028年左右具备所有人类的综合能力!人工智能课程
颠覆 AI 绘图工具交互多模态人工智能就是魔法
AI使人类的智力变得无关紧要!AI教父&新晋诺贝尔物理学奖得主:业革命使人类的力量变得无关紧要!
到2030年,互联网终结,奇点AI带来的新世界秩序!人工智能课程
OpenAI前灵魂人物Ilya: AGI需要身体才能实现意识吗?人工智能课程
【AI虚拟伙伴】对接本地Ollama VLM教程 图像识别多模态大模型推荐
OmniGen一键包,AI图像修改,AI人物迁移,多模态图片融合提示词,多模态图像理解,8bit量化版本,8G显存可玩
多模态模型CLIP深度讲解
使用自己的数据简单微调LLAMA-3.1 🦙
开源 | 场景语言的力量:用程序、单词和嵌入表示 场景,精准描绘3D/4D世界
斯坦福大学 CS229 构建大语言模型
硅基多模态大模型DUIX发布!
Ferret-UI 2:拥有跨平台UI理解的多模态大模型