智谱GLM-4-9B开源多模态视觉图生文大模型实测，超越Llama3，比肩GPT4V，本地搭建部署教程，OCR 文字识别强大

发布人

最新一代预训练模型 GLM-4 系列中的开源版本。GLM-4-9B 拥有更强的基础能力，更长的上下文，实现了更加精准的函数调用和 All Tools 能力，并首次拥有多模态能力。
基于强大的预训练基座，GLM-4-9B 的中英文综合性能相比 ChatGLM3-6B 提升了 40%，在中文对齐能力 AlignBench、指令遵从 IFeval、工程代码 Natural Code Bench 等基准数据上都取得了非常显著的提升。对比训练量更大的 Llama 3 8B 也并不逊色，英文方面实现小幅领先，中文学科方面更是有着高达 50% 的提升。
新模型的上下文长度从 128K 扩展到了 1M，意味着模型能同时处理 200 万字输入，相当于两本红楼梦或者 125 篇论文。在长度为 128K 的 LongBench-Chat 上，GLM-4-9B-Chat 模型相比上一代提升了 20%。在长度为 1M 的大海捞针测试中，GLM-4-9B-Chat-1M 也获得了全绿的好成绩。


新一代的大模型还提升了对多语言的支持。模型词表从 6 万升级到了 15 万，在中英文之外的语言编码效率平均提升了 30%，意味着模型可以更快处理小语种的任务。评测显示，ChatGLM-4-9B 模型的多语言能力全面超过了 Llama-3 8B。
在支持消费级显卡本地运行的情况下，GLM-4-9B 不仅展示出了强大的对话能力，支持 100 万长文本，覆盖多语言，更重要的是：智谱发布的大模型完全免费且开源。现在，每个开发者都能在本地跑通这个版本的 GLM-4 模型。

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中， GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（支持最大 128K 上下文）等高级功能。本代模型增加了多语言支持，支持包括日语，韩语，德语在内的 26 种语言。我们还推出了支持 1M 上下文长度（约 200 万中文字符）的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中，GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

打开封面下载高清视频观看高清视频视频下载器

智谱GLM-4-9B开源多模态视觉图生文大模型实测，超越Llama3，比肩GPT4V，本地搭建部署教程，OCR 文字识别强大

【喂饭教程】Ollama+OpenWebUI部署本地大模型，畅玩上万个开源大模型~小白入门必看的保姆级教程！

【什么是OCR？】强推！2024最容易上手的OCR文字识别教程分享！10小时带你全面解读OCR算法，详解OCR识别的优势！

【Python教程】教你用Python实现超精准且免费识别图片中的文字，零基础小白也能学会！附源码

2024最新超简单实现Python图片识别、颜色识别、文字识别Ocr教程

【多模态论文解读】llama3.2-vision

【AI虚拟伙伴】对接本地Ollama VLM教程 图像识别多模态大模型推荐

【Python自动化】教你用Python实现超精准识别图片中的文字（附源码）操作简单，小白也能轻松学会！

【Coze教程】这可能是全网最系统的Coze入门教程了！手把手教你用Coze手搓Agent智能体到搭建Coze工作流，入门到精通！

2025年五大惊人AI趋势！人工智能技术

【AI项目实战】全网最适合新手入门的【RAG医疗问答系统】教程：如何搭建一个基于RAG的医疗问答系统，我竟30分钟就搞懂了？

【Python教程】用Python实现OCR识别提取图片文字，多语言支持，操作简单，易上手，新手也能学会，附源码！！！

OmniParser：微软发布截屏解析器， 可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作

绝对通俗易懂！9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手

绝对通俗易懂！6个小时带你啃透四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！手把手教如何训练多模态大模型！

【研三】自研多模态大模型架构——长时程、高鲁棒

大模型RAG企业项目实战：手把手带你基于Langchain搭建一套完整的RAG系统，原理讲解+代码解析，看完就能跑通！LLM大模型_RAG_大模型微调_多模态

比啃书快多了！这可能是B站最全的【知识图谱】实战系列，附课件源码，入门巨简单学不会你打我！人工智能/深度学习/AI/大模型

2024年最容易上手的计算机视觉项目：OCR文字识别实战教程！CTPN、CRNN、卷积3D、PyTorch框架一次学完！学完就能跑通！！——人工智能|AI

2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI）这绝对是ai大模型教程天花板！

【吴恩达最新课程】面向初学者的 AI Python：AI Python 编码基础知识！最适合AI大模型小白的Python入门教程！

北京智源开源OmniGen统一图像生成模型 再也不用controlnet啦 直接文字控制 基于流匹配加transformer架构

Noteey小技巧： 怎么使用OCR实现图片转文字

20分钟学会Qwen2-7b本地部署GraphRAG，无需Ollama，从环境搭建到报错解决全流程，草履虫都能学会~

英伟达发布MM-Embed：融合文本和图像的跨模态信息检索新模型

【去AI味保姆教程】原地起飞🚀1分钟去除文章AI味❗️

最强OCR图片提取文字工具！支持图片提取表格，手写体识别等，效果强大免费使用，建议收藏

完全可以轻松自学LLama3，从下载安装-微调-量化-部署，算法原理+代码精讲，太通俗易懂了，草履虫都能学会！机器学习|计算机视觉|自然语言处理|大模型

Ferret-UI 2：拥有跨平台UI理解的多模态大模型

【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！绝对的通俗易懂的大模型应用教程！

InternVL2 40B 《书生·万象》 最新的多模态大语言模型安装部署

硅基多模态大模型DUIX发布!

开源文生图AI绘画大模型实测：腾讯混元dit 本地搭建部署教程

多模态模型CLIP深度讲解

【精华35分钟】这应该是全网AI Agent讲解得最透彻的教程了，从什么是Agent到创建自己的Agent智能体！一次搞懂！大模型/LLM

深度学习+遥感，这口饭得趁热吃啊！绝佳A会创新点！！！

【大模型技术】这是B站见过讲的最好的大模型入门教程！—LLM对话系统、LangChain、提示工程、微调预训练、多模态大模型

【AI数字人】数字人新技术TANGO，全面超越Heygen的开源数字人框架！一键生成手势和语音协调同步的数字人！

使用LunaTranslator一键翻译游戏，永久开源免费

分享免费，无需翻墙，无限次数使用的ChatGPT3.5和GPT4.0安装教程教程！

2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)全程干货，拿走不谢，允许白嫖！！

【AI虚拟伙伴】对接本地Ollama VLM教程图像识别多模态大模型推荐

OmniParser：微软发布截屏解析器，可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作

北京智源开源OmniGen统一图像生成模型再也不用controlnet啦直接文字控制基于流匹配加transformer架构

Noteey小技巧：怎么使用OCR实现图片转文字

InternVL2 40B 《书生·万象》最新的多模态大语言模型安装部署