CogVLM2：第二代视觉大模型，19B即可比肩 GPT-4V - 视频下载 Video Downloader

CogVLM2：第二代视觉大模型，19B即可比肩 GPT-4V

发布人

近期将推出新一代多模态大模型 CogVLM2 ,与上一代的 CogVLM 模型相比，CogVLM2 系列模型具有以下改进：
在不损失任何通用能力的前提下，在许多关键指标上有了显著提升，如在 OCRbench 基准上性能提升32%，在TextVQA基准上性能提升21.9%，且模型具备了较强的文档图像理解能力（DocVQA）等；
支持 8K 文本长度；
支持高达 1344 * 1344 的图像分辨率；
提供支持中英文双语的开源模型版本。

打开封面下载高清视频观看高清视频视频下载器

【我们上央视了！】Hugging Face 抱抱脸呼吁人工智能开源

GLM-4V：如何让大模型具备视觉理解

[不读论文] 新赛道: 大语言模型+复杂系统｜ Identify Critical Nodes in Complex Network with LLM

多模态大模型LLaVA模型讲解——transformers源码解读

第二代开源多模态大模型，超越GPT-4V，效果绝对让你震撼，智谱开源CogVLM2模型

大模型技术栈全览

最接近GPT-4V的可商用开源大模型，实测效果很强

清华智谱开源视觉大模型 CogVLM，可免费商用

Agent丨工作流

突破开源天花板！ChatTTS：对话式高可控的语音合成模型

实测2360亿参数的最大开源大模型DeepSeek V2，学生党一样可以玩儿

CogVLM：清华和智谱AI合作发布多模态模型CogVLM-17B，对标gpt-4vision，采用了类似p-tuning的方式训练visual权重

从0开始训练1.4b中文大模型的经验分享

1700多种开源大模型随意部署！一键本地搭建大模型+知识库，不挑环境、不挑配置

【开源项目】浏览器在线使用，实时语言AI对话，STT+流式LLM（智谱）+TTS（GPT-SOVITS），浏览器录音+播放，文本内容回显

智谱GLM-4-9B开源多模态视觉图生文大模型实测，超越Llama3，比肩GPT4V，本地搭建部署教程，OCR 文字识别强大

AI之父「辛顿」质疑「马斯克」：2025年年实现不了AGI，AGI有可能5-20年内实现。

具身智能基础技术路线

【 Hugging Face 课程 🤗 】 3D 机器学习 - 第二节什么是3D?

Claude宣布在理解ai模型内部机制方面取得重大进展，衬托出openai前AI安全团队牛逼

视觉大模型SAM2.0，分割一切！从环境配置到本地部署、推理

你觉得你会视觉大模型嘛？CV不存在了？从零解读Meta最新计算机视觉大模型—Segment Anything Meta，带你一次性掌握核心科技！——人工智能

2024最新模型Mamba详解，Transformer已死，你想知道的都在这里了！3小时带你吃透颠覆Transformer的全新视觉架构—Mamba！（深度学习

CogVLM2 本地部署体验(Docker容器版)

开源了，基于大模型、知识图谱、rag的李白项目，欢迎大家去github给个star

「官方教程」GLM-4-9B 实战部署和微调

安装测试MiniCPM-Llama3-V2.5多模态模型图像识别能力

GPT-4V视觉能力诚实评测 | 多模态ChatGPT

2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍

LLaVA：正面硬刚GPT-4V、Cogvlm，开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完，附运行示例

【CogAgent】一键包带Agent能力的视觉模型

GLM-4 两个核心：scaling & 对齐

智谱视觉大模型CogVLM快速上手

【面壁学术沙龙】第3期：MiniCPM-V：如何构建GPT-4V级别的端侧多模态大模型

视觉大模型已出？CV将死？

视觉大模型-LVM，计算机视觉的GPT时刻来了吗？

小白也能开发游戏！最强编程大模型Codestral发布！ollama本地部署+AutoGen Studio打造最强编程AI智能体

【官方教程】ChatGLM-6B 微调：P-Tuning，LoRA，Full parameter

【Github爆火】一个月获得 9000 Star！这个开源项目真牛！大语言模型！Ollama ！

「智谱AI OpenDay」新一代视频生成模型 CogVideoX