V
主页
VisRAG:清华和面壁智能提出了多模态RAG新方法,基于视觉的多模态文档检索增强生成,专用于处理含有图表等复杂信息的多模态文档,比传统RAG提高25-39%
发布人
VisRAG:清华和面壁智能提出了多模态RAG新方法,基于视觉的多模态文档检索增强生成,专用于处理含有图表等复杂信息的多模态文档,比传统RAG提高25-39%
打开封面
下载高清视频
观看高清视频
视频下载器
提示词、RAG、微调哪个会让大模型表现更好?1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架
一键提取知识图谱-灵感来自lightrag
Langchain+LLaVA+LLaMA2+GPT4ALL:如何用langchain处理半结构化文档,处理图表、图片内容的嵌入及增强检索,实现多模态检索增强
RAGFlow:采用OCR和深度文档理解结合的新一代 RAG 引擎,具备深度文档理解、引用来源等能力,大大提升知识库RAG的召回率降低幻觉
Zion:5分钟上线企业级AI应用,比coze、dify更强大,首个将AI Agent、前端、后端、数据库完美整合的AI应用构建平台,一键发布为saas或小程序
你的知识库的准确率为什么低于95%?
RAG实战系列,如何针对word文档中的表格进行问答,解决跨页表格问题
强烈推荐一个优秀的本地知识库项目
Claude Financial Data Analyst:AI金融数据分析师来了,可从财报中提取关键信息输出为专业图表,大大提升证券分析师的工作效率
AIGC中国开发者大会:AI Agent中国落地发展现状及多模态结合具身智能的发展展望
【META】SAM万物可切割+RAM万物可识别:继大模型LLM实现人类大脑数字化之后,万物可识别的眼睛数字化时代来了,llm+ram实现多模态的大模型
gptpdf:使用GPT-4o解析 PDF 为 markdown,可完美地解析排版、数学公式、表格、图片、图表等,每页解析平均价格不到1毛钱
claude-3.5-sonnet:干翻市场已有的PDF解析器和OCR解析器,适用于分析理解各种图表和表格、提取文档的结构化信息,大大促进AI文档处理的准确率
Long-writer:清华发布输出万字的长文本模型,可释放长上下文大模型的10,000+字生成能力,支持定制文本长度、风格、主题等文本生成参数,生成小说、书等
Ragas:自动化评估大模型增强检索RAG方案的好坏,实现基于场景数据选择大模型增强检索框架、embedding算法、大模型底座等,从而更好服务业务
MoneyPrinterTurbo:一键AI生成抖音视频、youtube视频、西瓜视频,正如项目的名字一样是个AI印钞机
AppAgent:腾讯发布替代按键精灵的智能体Agent, 彻底将人从手机工作解放出来,自然语言指挥手机完成各种复杂操作,可用于APP测试用例构建,广告方式变现
Vanna:首个可视化实时训练Text 2 SQL的开源项目,采用了RAG的方式训练模型,实现自然语言生成sql语句与数据库类的结构化数据交互
Skyvern:基于大模型和浏览器实现网页类工作流自动化,自动完成网页的各种检索、浏览和填写,可实现采购自动化、自媒体平台回复自动化、网页客服自动化等各种工作流
ProAgent:清华发布实现各种场景WorkFlow自动生成的Agent,首次将Agent和RPA完美结合,连使用Zapier/n8n创建工作流都可让机器干了
chatgpt正式发布图像模态DALL-e3:儿童教育漫画书、小说漫画等场景具有重大促进意义,直接可以商业化变现,对教育有重大革新意义
大模型Agent+RAG企业级项目实战:带你手把手打造个性化定制数字人,原理讲解+代码解析,草履虫都能学明白!(智能体|知识库|LLM|提示词)
musicGPT:替代suno.ai的开源方案,使用本地运行的 LLMs 根据自然语言生成音乐
Screenshot-to-code:上传截图自动生成网页HTML(Tailwind CSS), 使用GPT-4Vsion生成代码,使用 DALL-E3生成图片
LangGPT:多模态提示词在大模型中的创新实践(langgpt作者云中江树)
storm:斯坦福开源了一个基于大模型的AI搜索开源框架,整合搜索、rag知识库、llm构建垂直AI搜索perplexity平替,实现AI论文辅助写作
kotaemon:集成graphrag到知识库的可视化RAG,适用于想要构建高准确率的企业知识库场景
国产的GPTs商店:清华智谱发布ChatGLM4.0,支持智能体构建、智能体创作者分成计划
GraphRAG:微软发布史上最强的RAG知识库开源方案,使用大模型结合知识图谱能力增强传统rag能力,提升了回答的综合性、多样性、准确性
Pipecat:构建语音对话的AI应用,构建儿童故事机、私人助理、翻译机器人、社交伴侣、ai女友等多模态AI应用
wordware:替代coze降低agent构建门槛,让创建agent像notion文档一样简单,不需懂workflow、不需懂代码即可完成复杂的agent创建
MemGPT:突破llama的4k限制,针对多轮对话、长文档等场景处理表现较好,采用操作系统的内存管理机制,从根上解决大模型context限制的解决方案
Pixtral Large-124B:mistral开源124b参数的多模态大模型,其在多语言OCR、推理、图表理解、pdf解析等方面表现卓越
落地RAG,为什么我建议用多路召回?
FASTGPT:可视化开发、运营和使用的AI原生应用,从云原生到AI原生(fastgpt作者余金隆)
Streaming-llm:多轮对话的救星来了,无需微调即可帮助大模型能够流畅地处理无限轮对话、无限上下文文本,有效的缓解多轮对话优先的遗忘问题
大模型增强检索RAG应用知识库召回率提升专题圆桌:现在通用RAG方法的召回率怎么样? 如何提升召回率?提升的方法有哪些? embeding里哪个算法
Recurrent-LLM:交互式式创建小说、剧本、论文、公文等,采用基于段落语言的RNN的方式,突破了大模型本身受制于上下文窗口无法生成长内容的限制
memfree:可商业化、定制的开源AI搜索,从知识库和网页中搜索准确答案,输入输出支持多模态内容,输出包含脑图,还支持生成UI代码和预览,定制AI搜索时代来临
ESP8266+ChatGPT:全网首个共享实操esp8266上运行CHATGPT代码,实现智能音箱、智能图像识别等皆有可能,智能硬件时代真心来了