CogVLM：清华和智谱AI合作发布多模态模型CogVLM-17B，对标gpt-4vision，采用了类似p-tuning的方式训练visual权重 - 视频下载 Video Downloader

CogVLM：清华和智谱AI合作发布多模态模型CogVLM-17B，对标gpt-4vision，采用了类似p-tuning的方式训练visual权重

发布人

CogVLM：清华和智谱AI合作发布多模态模型CogVLM-17B，对标gpt-4vision，采用了类似p-tuning的方式训练visual权重

github：https://github.com/THUDM/CogVLM

colab：https://colab.research.google.com/drive/1KbWL3xiQF-FgjsQfnabXtfjmMr08WT85#scrollTo=B6MZjN_Zo1xg

打开封面下载高清视频观看高清视频视频下载器

LLaVA：正面硬刚GPT-4V、Cogvlm，开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完，附运行示例

GPT-4 Vision：多模态的又一重磅，图像推理能力可达到普通人的75-80分，对AI1.0时代的各种ai产生是价值击穿，对教育、医疗等领域有巨大革命意义

2024第三届AIGC开发者大会圆桌论坛：AI Agent中国落地发展现状及多模态结合具身智能的发展展望

ChatDev：清华发布替代软件公司的AI Agent智能体，该虚拟软件公司的多个AI角色（首席执行官、首席技术官、程序员、测试员）可协作完成软件开发

Devon：基于GPT-4O的AI程序员，轻松完成各种初中级编程任务，devin的开源版平替

SuperDuperDB：零门槛将任何AI模型（无论是开源、商业模型还是自行开发的）与每个公司的数据库集成、训练和管理，仅需一行Python连接数据库和大模型

llama3：meta发布llama3的80亿和700亿参数的大模型，大模型领域即将迎来GPT-4 时刻, 同时llama3增加了生图能力后续会开放多模态版本

claude-3.5-sonnet：干翻市场已有的PDF解析器和OCR解析器，适用于分析理解各种图表和表格、提取文档的结构化信息，大大促进AI文档处理的准确率

【独家】如何提升大模型数学推理能力？微软发布可手机上部署大模型phi3-mini 3.8b，性能堪比gpt-3.5

CHATGPT重磅发布：gpt可以直接语音对话了，语音模态正式发布支持，继文字、图片模态之后第三大模态，未来openai开放语音接口后对电销、咨询领域等影响巨大

OpenHands：15个代码agent组成的AI程序员，涵盖了人类开发者所有操作：写代码、修改代码、运行命令、浏览网页、调用 API等

GoogleGenerativeAI：谷歌大模型api如期上线，langchain+Gemini 实现文本聊天和多模态vision图像识别

Supersonic：腾讯发布新一代基于大模型和语义建模完美结合的AI+BI平台，融合了Chat BI和Headless BI，大大提升了text2sql的能力

openai发布GPT-4o：AGI时代来临，覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景，ai女友、ai个性化辅导老师等实现了

GLM-4-Long：智谱AI BigModel开放平台推出100万上下⽂的模型，提升长文本对话能力、RAG召回率等，基于该模型实操构建简单的AI搜索用例

Mistral Large：欧洲大模型厂商mistral发布仅次于gpt-4的大模型，比谷歌的gemini pro、claude更强大，在欧洲本土语言更有优势

LiveKit Agent+ OpenAI Realtime：AI实时语音GPT-4o开源实现，本运行OpenAi的Realtime API，可实现AI外呼

Maestro：3分钟生成完整的项目代码，结合claude3就是个牛逼的AI程序员，支持Claude Opus、GPT 和本地 LLMs 编排子代理的新框架

Llama2 Code Interpreter：llama2的本地代码解释执行器，本地化实现数据分析、图像转换、python执行等，对标gpt的code解释器

GOOGLE Gemini多模态：如何使用谷歌的Gemini Vision模型进行图像理解，实现地图上餐馆个性化推荐

gpt-llm-trainer：一句描述实现数据集生成、llama2微调、合并模型权重等，高效实现特定任务模型微调

大模型多模态时代的临界点来了：1、 google和openai多模态战争？ 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响

LangGPT：一句话创建高质量提示词prompt模版，1、人人都可以成为提示词专家，2、结合pezzo解决构建AI Agent提示词模版难及版本管理问题

GPT PILOT：可互动的研发AI Agent，带人干活的AI项目经理，比完全自动化的gpt-engineer更加强大，可以与人沟通确认需求、沟通写代码测试等

Recurrent-LLM：交互式式创建小说、剧本、论文、公文等，采用基于段落语言的RNN的方式，突破了大模型本身受制于上下文窗口无法生成长内容的限制

Pipecat：构建语音对话的AI应用，构建儿童故事机、私人助理、翻译机器人、社交伴侣、ai女友等多模态AI应用

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

openV0：替代UI岗位的生成式UI组件工具，v0.dev的开源版，AI创建、迭代前端组件、页面等

xrayglm、xraygpt：医疗X光胸片大模型辅助医疗咨询的ai助手，医生的好帮手 #xrayglm #xraygpt #medpalm#华佗gpt

llama3.1-405B：首个接近头部闭源大模型的开源大模型，meta发布千亿参数的大模型，模型原生具备工具使用能力、多语言能力等，在很多测评指标上超越gpt

Qwen2.5-Coder：阿里通义千问开源性能达到GPT-4o的编程专用模型，具备artifact能力、以及结合cursor使用qwen2.5-coder

PandasAI：轻松使用自然语言对话数据（CSV、XLSX、PostgreSQL、MySQL、Snowflake 等），大大降低了数据分析工程师门槛

langchain：帮助企业0门槛利用各种大模型来训练企业私有数据，定制企业专属AI模型和私有chatgpt的三个解决方案 #langchain #企业专属ai

OmniParser：微软发布截屏解析器，可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作

YouDub-webui：AI搬运将外语类高质量视频翻译成中文视频，且自动发布在哔哩哔哩，使用tts、AI翻译、 AI 声音克隆等，提供与原视频相似的中文配音

VisRAG：清华和面壁智能提出了多模态RAG新方法，基于视觉的多模态文档检索增强生成，专用于处理含有图表等复杂信息的多模态文档，比传统RAG提高25-39%

Open Search GPT：人人都可拥有个性化AI搜索引擎，不光能平替SearchGPT / Perplexity ，还能提供更强个性化记忆

Farfalle：开源的AI搜索引擎，支持本地化部署运行ollama本地大模型，也支持gpt4-o、groq等云端大模型，perplexity的平替

IoA：AI Agent的互联网时代来临，面壁智能发布agent协同协议，该协议可解决各种agent能力孤岛的问题，带领人工智能进入Agent的跨网协同时代

Q-star引领人类未来走向AGI ？agent可以自动迭代？1.集简云➕GPTs构建好玩的AI Agent 2.Q-Star、RAILF、GPT-zero