V
主页
CogVLM:清华和智谱AI合作发布多模态模型CogVLM-17B,对标gpt-4vision,采用了类似p-tuning的方式训练visual权重
发布人
CogVLM:清华和智谱AI合作发布多模态模型CogVLM-17B,对标gpt-4vision,采用了类似p-tuning的方式训练visual权重 github:https://github.com/THUDM/CogVLM colab:https://colab.research.google.com/drive/1KbWL3xiQF-FgjsQfnabXtfjmMr08WT85#scrollTo=B6MZjN_Zo1xg
打开封面
下载高清视频
观看高清视频
视频下载器
LLaVA:正面硬刚GPT-4V、Cogvlm,开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完,附运行示例
GPT-4 Vision:多模态的又一重磅,图像推理能力可达到普通人的75-80分,对AI1.0时代的各种ai产生是价值击穿,对教育、医疗等领域有巨大革命意义
2024第三届AIGC开发者大会圆桌论坛:AI Agent中国落地发展现状及多模态结合具身智能的发展展望
ChatDev:清华发布替代软件公司的AI Agent智能体,该虚拟软件公司的多个AI角色(首席执行官、首席技术官、程序员、测试员)可协作完成软件开发
Devon:基于GPT-4O的AI程序员,轻松完成各种初中级编程任务,devin的开源版平替
SuperDuperDB:零门槛将任何AI模型(无论是开源、商业模型还是自行开发的)与每个公司的数据库集成、训练和管理,仅需一行Python连接数据库和大模型
llama3:meta发布llama3的80亿和700亿参数的大模型,大模型领域即将迎来GPT-4 时刻, 同时llama3增加了生图能力后续会开放多模态版本
claude-3.5-sonnet:干翻市场已有的PDF解析器和OCR解析器,适用于分析理解各种图表和表格、提取文档的结构化信息,大大促进AI文档处理的准确率
【独家】如何提升大模型数学推理能力? 微软发布可手机上部署大模型phi3-mini 3.8b,性能堪比gpt-3.5
CHATGPT重磅发布:gpt可以直接语音对话了,语音模态正式发布支持,继文字、图片模态之后第三大模态,未来openai开放语音接口后对电销、咨询领域等影响巨大
OpenHands:15个代码agent组成的AI程序员,涵盖了人类开发者所有操作:写代码、修改代码、运行命令、浏览网页、调用 API等
GoogleGenerativeAI:谷歌大模型api如期上线,langchain+Gemini 实现文本聊天和多模态vision图像识别
Supersonic:腾讯发布新一代基于大模型和语义建模完美结合的AI+BI平台,融合了Chat BI和Headless BI,大大提升了text2sql的能力
openai发布GPT-4o:AGI时代来临,覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景,ai女友、ai个性化辅导老师等实现了
GLM-4-Long:智谱AI BigModel开放平台推出100万上下⽂的模型,提升长文本对话能力、RAG召回率等,基于该模型实操构建简单的AI搜索用例
Mistral Large:欧洲大模型厂商mistral发布仅次于gpt-4的大模型,比谷歌的gemini pro、claude更强大,在欧洲本土语言更有优势
LiveKit Agent+ OpenAI Realtime:AI实时语音GPT-4o开源实现,本运行OpenAi的Realtime API,可实现AI外呼
Maestro:3分钟生成完整的项目代码,结合claude3就是个牛逼的AI程序员,支持Claude Opus、GPT 和本地 LLMs 编排子代理的新框架
Llama2 Code Interpreter:llama2的本地代码解释执行器,本地化实现数据分析、图像转换、python执行等,对标gpt的code解释器
GOOGLE Gemini多模态:如何使用谷歌的Gemini Vision模型进行图像理解,实现地图上餐馆个性化推荐
gpt-llm-trainer:一句描述实现数据集生成、llama2微调、合并模型权重等,高效实现特定任务模型微调
大模型多模态时代的临界点来了:1、 google和openai多模态战争? 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响
LangGPT:一句话创建高质量提示词prompt模版,1、人人都可以成为提示词专家,2、结合pezzo解决构建AI Agent提示词模版难及版本管理问题
GPT PILOT:可互动的研发AI Agent,带人干活的AI项目经理,比完全自动化的gpt-engineer更加强大,可以与人沟通确认需求、沟通写代码测试等
Recurrent-LLM:交互式式创建小说、剧本、论文、公文等,采用基于段落语言的RNN的方式,突破了大模型本身受制于上下文窗口无法生成长内容的限制
Pipecat:构建语音对话的AI应用,构建儿童故事机、私人助理、翻译机器人、社交伴侣、ai女友等多模态AI应用
RAGFlow:采用OCR和深度文档理解结合的新一代 RAG 引擎,具备深度文档理解、引用来源等能力,大大提升知识库RAG的召回率降低幻觉
openV0:替代UI岗位的生成式UI组件工具,v0.dev的开源版,AI创建、迭代前端组件、页面等
xrayglm、xraygpt:医疗X光胸片大模型辅助医疗咨询的ai助手,医生的好帮手 #xrayglm #xraygpt #medpalm#华佗gpt
llama3.1-405B:首个接近头部闭源大模型的开源大模型,meta发布千亿参数的大模型,模型原生具备工具使用能力、多语言能力等,在很多测评指标上超越gpt
Qwen2.5-Coder:阿里通义千问开源性能达到GPT-4o的编程专用模型,具备artifact能力、以及结合cursor使用qwen2.5-coder
PandasAI:轻松使用自然语言对话数据(CSV、XLSX、PostgreSQL、MySQL、Snowflake 等),大大降低了数据分析工程师门槛
langchain:帮助企业0门槛利用各种大模型来训练企业私有数据,定制企业专属AI模型和私有chatgpt的三个解决方案 #langchain #企业专属ai
OmniParser:微软发布截屏解析器, 可识别任何截屏中的可交互图标,理解屏幕中各个元素的含义,从而可准确地将预期动作与屏幕上的相应区域关联操作
YouDub-webui:AI搬运将外语类高质量视频翻译成中文视频,且自动发布在哔哩哔哩,使用tts、AI翻译、 AI 声音克隆等,提供与原视频相似的中文配音
VisRAG:清华和面壁智能提出了多模态RAG新方法,基于视觉的多模态文档检索增强生成,专用于处理含有图表等复杂信息的多模态文档,比传统RAG提高25-39%
Open Search GPT:人人都可拥有个性化AI搜索引擎,不光能平替SearchGPT / Perplexity ,还能提供更强个性化记忆
Farfalle:开源的AI搜索引擎,支持本地化部署运行ollama本地大模型,也支持gpt4-o、groq等云端大模型,perplexity的平替
IoA:AI Agent的互联网时代来临,面壁智能发布agent协同协议,该协议可解决各种agent能力孤岛的问题,带领人工智能进入Agent的跨网协同时代
Q-star引领人类未来走向AGI ?agent可以自动迭代?1.集简云➕GPTs构建好玩的AI Agent 2.Q-Star、RAILF、GPT-zero