V
主页
CogVLM2:第二代视觉大模型,19B即可比肩 GPT-4V
发布人
近期将推出新一代多模态大模型 CogVLM2 ,与上一代的 CogVLM 模型相比,CogVLM2 系列模型具有以下改进: 在不损失任何通用能力的前提下,在许多关键指标上有了显著提升,如在 OCRbench 基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等; 支持 8K 文本长度; 支持高达 1344 * 1344 的图像分辨率; 提供支持中英文双语的开源模型版本。
打开封面
下载高清视频
观看高清视频
视频下载器
【我 们 上 央 视 了!】Hugging Face 抱抱脸呼吁人工智能开源
GLM-4V:如何让大模型具备视觉理解
[不读论文] 新赛道: 大语言模型+复杂系统| Identify Critical Nodes in Complex Network with LLM
多模态大模型LLaVA模型讲解——transformers源码解读
第二代开源多模态大模型,超越GPT-4V,效果绝对让你震撼,智谱开源CogVLM2模型
大模型技术栈全览
最接近GPT-4V的可商用开源大模型,实测效果很强
清华智谱开源视觉大模型 CogVLM,可免费商用
Agent丨工作流
突破开源天花板!ChatTTS:对话式高可控的语音合成模型
实测2360亿参数的最大开源大模型DeepSeek V2,学生党一样可以玩儿
CogVLM:清华和智谱AI合作发布多模态模型CogVLM-17B,对标gpt-4vision,采用了类似p-tuning的方式训练visual权重
从0开始训练1.4b中文大模型的经验分享
1700多种开源大模型随意部署!一键本地搭建大模型+知识库,不挑环境、不挑配置
【开源项目】浏览器在线使用,实时语言AI对话,STT+流式LLM(智谱)+TTS(GPT-SOVITS),浏览器录音+播放,文本内容回显
智谱GLM-4-9B开源多模态视觉图生文大模型实测,超越Llama3,比肩GPT4V,本地搭建部署教程,OCR 文字识别强大
AI之父「辛顿」质疑「马斯克」:2025年年实现不了AGI,AGI有可能5-20年内实现。
具身智能基础技术路线
【 Hugging Face 课程 🤗 】 3D 机器学习 - 第二节 什么是3D?
Claude宣布在理解ai模型内部机制方面取得重大进展,衬托出openai前AI安全团队牛逼
视觉大模型SAM2.0,分割一切!从环境配置到本地部署、推理
你觉得你会视觉大模型嘛?CV不存在了?从零解读Meta最新计算机视觉大模型—Segment Anything Meta,带你一次性掌握核心科技!——人工智能
2024最新模型Mamba详解,Transformer已死,你想知道的都在这里了!3小时带你吃透颠覆Transformer的全新视觉架构—Mamba!(深度学习
CogVLM2 本地部署体验(Docker容器版)
开源了,基于大模型、知识图谱、rag的李白项目,欢迎大家去github给个star
「官方教程」GLM-4-9B 实战部署和微调
安装测试MiniCPM-Llama3-V2.5多模态模型图像识别能力
GPT-4V视觉能力诚实评测 | 多模态ChatGPT
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
LLaVA:正面硬刚GPT-4V、Cogvlm,开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完,附运行示例
【CogAgent】一键包 带Agent能力的视觉模型
GLM-4 两个核心:scaling & 对齐
智谱视觉大模型CogVLM快速上手
【面壁学术沙龙】第3期:MiniCPM-V:如何构建GPT-4V级别的端侧多模态大模型
视觉大模型已出?CV将死?
视觉大模型-LVM,计算机视觉的GPT时刻来了吗?
小白也能开发游戏!最强编程大模型Codestral发布!ollama本地部署+AutoGen Studio打造最强编程AI智能体
【官方教程】ChatGLM-6B 微调:P-Tuning,LoRA,Full parameter
【Github爆火】一个月获得 9000 Star! 这个开源项目真牛!大语言模型!Ollama !
「智谱AI OpenDay」新一代视频生成模型 CogVideoX