V
主页
智谱GLM-4-9B开源多模态视觉图生文大模型实测,超越Llama3,比肩GPT4V,本地搭建部署教程,OCR 文字识别强大
发布人
最新一代预训练模型 GLM-4 系列中的开源版本。GLM-4-9B 拥有更强的基础能力,更长的上下文,实现了更加精准的函数调用和 All Tools 能力,并首次拥有多模态能力。 基于强大的预训练基座,GLM-4-9B 的中英文综合性能相比 ChatGLM3-6B 提升了 40%,在中文对齐能力 AlignBench、指令遵从 IFeval、工程代码 Natural Code Bench 等基准数据上都取得了非常显著的提升。对比训练量更大的 Llama 3 8B 也并不逊色,英文方面实现小幅领先,中文学科方面更是有着高达 50% 的提升。 新模型的上下文长度从 128K 扩展到了 1M,意味着模型能同时处理 200 万字输入,相当于两本红楼梦或者 125 篇论文。在长度为 128K 的 LongBench-Chat 上,GLM-4-9B-Chat 模型相比上一代提升了 20%。在长度为 1M 的大海捞针测试中,GLM-4-9B-Chat-1M 也获得了全绿的好成绩。 新一代的大模型还提升了对多语言的支持。模型词表从 6 万升级到了 15 万,在中英文之外的语言编码效率平均提升了 30%,意味着模型可以更快处理小语种的任务。评测显示,ChatGLM-4-9B 模型的多语言能力全面超过了 Llama-3 8B。 在支持消费级显卡本地运行的情况下,GLM-4-9B 不仅展示出了强大的对话能力,支持 100 万长文本,覆盖多语言,更重要的是:智谱发布的大模型完全免费且开源。现在,每个开发者都能在本地跑通这个版本的 GLM-4 模型。 GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
打开封面
下载高清视频
观看高清视频
视频下载器
【喂饭教程】Ollama+OpenWebUI部署本地大模型,畅玩上万个开源大模型~小白入门必看的保姆级教程!
【什么是OCR?】强推!2024最容易上手的OCR文字识别教程分享!10小时带你全面解读OCR算法,详解OCR识别的优势!
【Python教程】教你用Python实现超精准且免费识别图片中的文字,零基础小白也能学会!附源码
2024最新超简单实现Python图片识别、颜色识别、文字识别Ocr教程
【多模态论文解读】llama3.2-vision
【AI虚拟伙伴】对接本地Ollama VLM教程 图像识别多模态大模型推荐
【Python自动化】教你用Python实现超精准识别图片中的文字(附源码)操作简单,小白也能轻松学会!
【Coze教程】这可能是全网最系统的Coze入门教程了!手把手教你用Coze手搓Agent智能体到搭建Coze工作流,入门到精通!
2025年五大惊人AI趋势!人工智能技术
【AI项目实战】全网最适合新手入门的【RAG医疗问答系统】教程:如何搭建一个基于RAG的医疗问答系统,我竟30分钟就搞懂了?
【Python教程】用Python实现OCR识别提取图片文字,多语言支持,操作简单,易上手,新手也能学会,附源码!!!
OmniParser:微软发布截屏解析器, 可识别任何截屏中的可交互图标,理解屏幕中各个元素的含义,从而可准确地将预期动作与屏幕上的相应区域关联操作
绝对通俗易懂!9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手
绝对通俗易懂!6个小时带你啃透四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!手把手教如何训练多模态大模型!
【研三】自研多模态大模型架构——长时程、高鲁棒
大模型RAG企业项目实战:手把手带你基于Langchain搭建一套完整的RAG系统,原理讲解+代码解析,看完就能跑通!LLM大模型_RAG_大模型微调_多模态
比啃书快多了!这可能是B站最全的【知识图谱】实战系列,附课件源码,入门巨简单学不会你打我!人工智能/深度学习/AI/大模型
2024年最容易上手的计算机视觉项目:OCR文字识别实战教程!CTPN、CRNN、卷积3D、PyTorch框架一次学完!学完就能跑通!!——人工智能|AI
2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI)这绝对是ai大模型教程天花板!
【吴恩达最新课程】面向初学者的 AI Python:AI Python 编码基础知识!最适合AI大模型小白的Python入门教程!
北京智源开源OmniGen统一图像生成模型 再也不用controlnet啦 直接文字控制 基于流匹配加transformer架构
Noteey小技巧: 怎么使用OCR实现图片转文字
20分钟学会Qwen2-7b本地部署GraphRAG,无需Ollama,从环境搭建到报错解决全流程,草履虫都能学会~
英伟达发布MM-Embed:融合文本和图像的跨模态信息检索新模型
【去AI味保姆教程】原地起飞🚀1分钟去除文章AI味❗️
最强OCR图片提取文字工具!支持图片提取表格,手写体识别等,效果强大免费使用,建议收藏
完全可以轻松自学LLama3,从下载安装-微调-量化-部署,算法原理+代码精讲,太通俗易懂了,草履虫都能学会!机器学习|计算机视觉|自然语言处理|大模型
Ferret-UI 2:拥有跨平台UI理解的多模态大模型
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
InternVL2 40B 《书生·万象》 最新的多模态大语言模型安装部署
硅基多模态大模型DUIX发布!
开源文生图AI绘画大模型实测:腾讯混元dit 本地搭建部署教程
多模态模型CLIP深度讲解
【精华35分钟】这应该是全网AI Agent讲解得最透彻的教程了,从什么是Agent到创建自己的Agent智能体!一次搞懂!大模型/LLM
深度学习+遥感,这口饭得趁热吃啊!绝佳A会创新点!!!
【大模型技术】这是B站见过讲的最好的大模型入门教程!—LLM对话系统、LangChain、提示工程、微调预训练、多模态大模型
【AI数字人】数字人新技术TANGO,全面超越Heygen的开源数字人框架!一键生成手势和语音协调同步的数字人!
使用LunaTranslator一键翻译游戏,永久开源免费
分享免费,无需翻墙,无限次数使用的ChatGPT3.5和GPT4.0安装教程教程!
2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)全程干货,拿走不谢,允许白嫖!!