VisRAG：清华和面壁智能提出了多模态RAG新方法，基于视觉的多模态文档检索增强生成，专用于处理含有图表等复杂信息的多模态文档，比传统RAG提高25-39%

发布人

VisRAG：清华和面壁智能提出了多模态RAG新方法，基于视觉的多模态文档检索增强生成，专用于处理含有图表等复杂信息的多模态文档，比传统RAG提高25-39%

打开封面下载高清视频观看高清视频视频下载器

提示词、RAG、微调哪个会让大模型表现更好？1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架

一键提取知识图谱-灵感来自lightrag

Langchain+LLaVA+LLaMA2+GPT4ALL：如何用langchain处理半结构化文档，处理图表、图片内容的嵌入及增强检索，实现多模态检索增强

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

Zion：5分钟上线企业级AI应用，比coze、dify更强大，首个将AI Agent、前端、后端、数据库完美整合的AI应用构建平台，一键发布为saas或小程序

你的知识库的准确率为什么低于95%？

RAG实战系列，如何针对word文档中的表格进行问答，解决跨页表格问题

强烈推荐一个优秀的本地知识库项目

Claude Financial Data Analyst：AI金融数据分析师来了，可从财报中提取关键信息输出为专业图表，大大提升证券分析师的工作效率

AIGC中国开发者大会：AI Agent中国落地发展现状及多模态结合具身智能的发展展望

【META】SAM万物可切割+RAM万物可识别：继大模型LLM实现人类大脑数字化之后，万物可识别的眼睛数字化时代来了，llm+ram实现多模态的大模型

gptpdf：使用GPT-4o解析 PDF 为 markdown，可完美地解析排版、数学公式、表格、图片、图表等，每页解析平均价格不到1毛钱

claude-3.5-sonnet：干翻市场已有的PDF解析器和OCR解析器，适用于分析理解各种图表和表格、提取文档的结构化信息，大大促进AI文档处理的准确率

Long-writer：清华发布输出万字的长文本模型，可释放长上下文大模型的10,000+字生成能力，支持定制文本长度、风格、主题等文本生成参数，生成小说、书等

Ragas：自动化评估大模型增强检索RAG方案的好坏，实现基于场景数据选择大模型增强检索框架、embedding算法、大模型底座等，从而更好服务业务

MoneyPrinterTurbo：一键AI生成抖音视频、youtube视频、西瓜视频，正如项目的名字一样是个AI印钞机

AppAgent：腾讯发布替代按键精灵的智能体Agent，彻底将人从手机工作解放出来，自然语言指挥手机完成各种复杂操作，可用于APP测试用例构建，广告方式变现

Vanna：首个可视化实时训练Text 2 SQL的开源项目，采用了RAG的方式训练模型，实现自然语言生成sql语句与数据库类的结构化数据交互

Skyvern：基于大模型和浏览器实现网页类工作流自动化，自动完成网页的各种检索、浏览和填写，可实现采购自动化、自媒体平台回复自动化、网页客服自动化等各种工作流

ProAgent：清华发布实现各种场景WorkFlow自动生成的Agent，首次将Agent和RPA完美结合，连使用Zapier/n8n创建工作流都可让机器干了

chatgpt正式发布图像模态DALL-e3：儿童教育漫画书、小说漫画等场景具有重大促进意义，直接可以商业化变现，对教育有重大革新意义

大模型Agent+RAG企业级项目实战：带你手把手打造个性化定制数字人，原理讲解+代码解析，草履虫都能学明白！（智能体|知识库|LLM|提示词）

musicGPT：替代suno.ai的开源方案，使用本地运行的 LLMs 根据自然语言生成音乐

Screenshot-to-code：上传截图自动生成网页HTML（Tailwind CSS），使用GPT-4Vsion生成代码，使用 DALL-E3生成图片

LangGPT：多模态提示词在大模型中的创新实践（langgpt作者云中江树）

storm：斯坦福开源了一个基于大模型的AI搜索开源框架，整合搜索、rag知识库、llm构建垂直AI搜索perplexity平替，实现AI论文辅助写作

kotaemon：集成graphrag到知识库的可视化RAG，适用于想要构建高准确率的企业知识库场景

国产的GPTs商店：清华智谱发布ChatGLM4.0，支持智能体构建、智能体创作者分成计划

GraphRAG：微软发布史上最强的RAG知识库开源方案，使用大模型结合知识图谱能力增强传统rag能力，提升了回答的综合性、多样性、准确性

Pipecat：构建语音对话的AI应用，构建儿童故事机、私人助理、翻译机器人、社交伴侣、ai女友等多模态AI应用

wordware：替代coze降低agent构建门槛，让创建agent像notion文档一样简单，不需懂workflow、不需懂代码即可完成复杂的agent创建

MemGPT：突破llama的4k限制，针对多轮对话、长文档等场景处理表现较好，采用操作系统的内存管理机制，从根上解决大模型context限制的解决方案

Pixtral Large-124B：mistral开源124b参数的多模态大模型，其在多语言OCR、推理、图表理解、pdf解析等方面表现卓越

落地RAG，为什么我建议用多路召回？

FASTGPT：可视化开发、运营和使用的AI原生应用，从云原生到AI原生（fastgpt作者余金隆）

Streaming-llm：多轮对话的救星来了，无需微调即可帮助大模型能够流畅地处理无限轮对话、无限上下文文本，有效的缓解多轮对话优先的遗忘问题

大模型增强检索RAG应用知识库召回率提升专题圆桌：现在通用RAG方法的召回率怎么样？如何提升召回率？提升的方法有哪些？ embeding里哪个算法

Recurrent-LLM：交互式式创建小说、剧本、论文、公文等，采用基于段落语言的RNN的方式，突破了大模型本身受制于上下文窗口无法生成长内容的限制

memfree：可商业化、定制的开源AI搜索，从知识库和网页中搜索准确答案，输入输出支持多模态内容，输出包含脑图，还支持生成UI代码和预览，定制AI搜索时代来临

ESP8266+ChatGPT：全网首个共享实操esp8266上运行CHATGPT代码，实现智能音箱、智能图像识别等皆有可能，智能硬件时代真心来了

VisRAG：清华和面壁智能提出了多模态RAG新方法，基于视觉的多模态文档检索增强生成，专用于处理含有图表等复杂信息的多模态文档，比传统RAG提高25-39%

提示词、RAG、微调哪个会让大模型表现更好？1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架

一键提取知识图谱-灵感来自lightrag

Langchain+LLaVA+LLaMA2+GPT4ALL：如何用langchain处理半结构化文档，处理图表、图片内容的嵌入及增强检索，实现多模态检索增强

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

Zion：5分钟上线企业级AI应用，比coze、dify更强大，首个将AI Agent、前端、后端、数据库完美整合的AI应用构建平台，一键发布为saas或小程序

你的知识库的准确率为什么低于95%？

RAG实战系列，如何针对word文档中的表格进行问答，解决跨页表格问题

强烈推荐一个优秀的本地知识库项目

Claude Financial Data Analyst：AI金融数据分析师来了，可从财报中提取关键信息输出为专业图表，大大提升证券分析师的工作效率

AIGC中国开发者大会：AI Agent中国落地发展现状及多模态结合具身智能的发展展望

【META】SAM万物可切割+RAM万物可识别：继大模型LLM实现人类大脑数字化之后，万物可识别的眼睛数字化时代来了，llm+ram实现多模态的大模型

gptpdf：使用GPT-4o解析 PDF 为 markdown，可完美地解析排版、数学公式、表格、图片、图表等，每页解析平均价格不到1毛钱

claude-3.5-sonnet：干翻市场已有的PDF解析器和OCR解析器，适用于分析理解各种图表和表格、提取文档的结构化信息，大大促进AI文档处理的准确率

Long-writer：清华发布输出万字的长文本模型，可释放长上下文大模型的10,000+字生成能力，支持定制文本长度、风格、主题等文本生成参数，生成小说、书等

Ragas：自动化评估大模型增强检索RAG方案的好坏，实现基于场景数据选择大模型增强检索框架、embedding算法、大模型底座等，从而更好服务业务

MoneyPrinterTurbo：一键AI生成抖音视频、youtube视频、西瓜视频，正如项目的名字一样是个AI印钞机

AppAgent：腾讯发布替代按键精灵的智能体Agent， 彻底将人从手机工作解放出来，自然语言指挥手机完成各种复杂操作，可用于APP测试用例构建，广告方式变现

Vanna：首个可视化实时训练Text 2 SQL的开源项目，采用了RAG的方式训练模型，实现自然语言生成sql语句与数据库类的结构化数据交互

Skyvern：基于大模型和浏览器实现网页类工作流自动化，自动完成网页的各种检索、浏览和填写，可实现采购自动化、自媒体平台回复自动化、网页客服自动化等各种工作流

ProAgent：清华发布实现各种场景WorkFlow自动生成的Agent，首次将Agent和RPA完美结合，连使用Zapier/n8n创建工作流都可让机器干了

chatgpt正式发布图像模态DALL-e3：儿童教育漫画书、小说漫画等场景具有重大促进意义，直接可以商业化变现，对教育有重大革新意义

大模型Agent+RAG企业级项目实战：带你手把手打造个性化定制数字人，原理讲解+代码解析，草履虫都能学明白！（智能体|知识库|LLM|提示词）

musicGPT：替代suno.ai的开源方案，使用本地运行的 LLMs 根据自然语言生成音乐

Screenshot-to-code：上传截图自动生成网页HTML（Tailwind CSS）， 使用GPT-4Vsion生成代码，使用 DALL-E3生成图片

LangGPT：多模态提示词在大模型中的创新实践（langgpt作者云中江树）

storm：斯坦福开源了一个基于大模型的AI搜索开源框架，整合搜索、rag知识库、llm构建垂直AI搜索perplexity平替，实现AI论文辅助写作

kotaemon：集成graphrag到知识库的可视化RAG，适用于想要构建高准确率的企业知识库场景

国产的GPTs商店：清华智谱发布ChatGLM4.0，支持智能体构建、智能体创作者分成计划

GraphRAG：微软发布史上最强的RAG知识库开源方案，使用大模型结合知识图谱能力增强传统rag能力，提升了回答的综合性、多样性、准确性

Pipecat：构建语音对话的AI应用，构建儿童故事机、私人助理、翻译机器人、社交伴侣、ai女友等多模态AI应用

wordware：替代coze降低agent构建门槛，让创建agent像notion文档一样简单，不需懂workflow、不需懂代码即可完成复杂的agent创建

MemGPT：突破llama的4k限制，针对多轮对话、长文档等场景处理表现较好，采用操作系统的内存管理机制，从根上解决大模型context限制的解决方案

Pixtral Large-124B：mistral开源124b参数的多模态大模型，其在多语言OCR、推理、图表理解、pdf解析等方面表现卓越

落地RAG，为什么我建议用多路召回？

FASTGPT：可视化开发、运营和使用的AI原生应用，从云原生到AI原生（fastgpt作者余金隆）

Streaming-llm：多轮对话的救星来了，无需微调即可帮助大模型能够流畅地处理无限轮对话、无限上下文文本，有效的缓解多轮对话优先的遗忘问题

大模型增强检索RAG应用知识库召回率提升专题圆桌：现在通用RAG方法的召回率怎么样？ 如何提升召回率？提升的方法有哪些？ embeding里哪个算法

Recurrent-LLM：交互式式创建小说、剧本、论文、公文等，采用基于段落语言的RNN的方式，突破了大模型本身受制于上下文窗口无法生成长内容的限制

memfree：可商业化、定制的开源AI搜索，从知识库和网页中搜索准确答案，输入输出支持多模态内容，输出包含脑图，还支持生成UI代码和预览，定制AI搜索时代来临

ESP8266+ChatGPT：全网首个共享实操esp8266上运行CHATGPT代码，实现智能音箱、智能图像识别等皆有可能，智能硬件时代真心来了

AppAgent：腾讯发布替代按键精灵的智能体Agent，彻底将人从手机工作解放出来，自然语言指挥手机完成各种复杂操作，可用于APP测试用例构建，广告方式变现

Screenshot-to-code：上传截图自动生成网页HTML（Tailwind CSS），使用GPT-4Vsion生成代码，使用 DALL-E3生成图片

大模型增强检索RAG应用知识库召回率提升专题圆桌：现在通用RAG方法的召回率怎么样？如何提升召回率？提升的方法有哪些？ embeding里哪个算法