V
主页
GOOGLE Gemini多模态:如何使用谷歌的Gemini Vision模型进行图像理解,实现地图上餐馆个性化推荐
发布人
GOOGLE Gemini多模态:如何使用谷歌的Gemini Vision模型进行图像理解,结合LlamaIndex构建多模态LLM检索增强检索生成,实现地图上餐馆个性化推荐
打开封面
下载高清视频
观看高清视频
视频下载器
GoogleGenerativeAI:谷歌大模型api如期上线,langchain+Gemini 实现文本聊天和多模态vision图像识别
GOOGLE谷歌发布全球最强的多模态大模型Gemini(含测评):gemini ultra比chatgpt4要强大 ;谷歌发布AI手机:Pixel 8
GPT-4 Vision:多模态的又一重磅,图像推理能力可达到普通人的75-80分,对AI1.0时代的各种ai产生是价值击穿,对教育、医疗等领域有巨大革命意义
大模型多模态时代的临界点来了:1、 google和openai多模态战争? 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响
CogVLM:清华和智谱AI合作发布多模态模型CogVLM-17B,对标gpt-4vision,采用了类似p-tuning的方式训练visual权重
Grok-2:马斯克的X发布grok2.0,支持无过滤的图像生成,集成了FLUX.1模型生成图像,成为全球排名第三的多模态大模型服务商
Gemma:google发布可商用的gemini的开源版gemma,非有限度的商用比meta有格局,性能秒杀mistral、llama2的同级别参数模型
Emu3:统一理解和生成的多模态大模型
CLIP:OPENAI的多模态预训练模型,DALL-2的核心技术,可用于物体检测(vild)、图像分类、视频图像理解(VideoCLIP)、图像编辑生成
【META】SAM万物可切割+RAM万物可识别:继大模型LLM实现人类大脑数字化之后,万物可识别的眼睛数字化时代来了,llm+ram实现多模态的大模型
llm-graph-builder:类GraphRAG的可视化实现,利用大模型从非结构化数据中提取知识图谱,实现向量+kg的结合进行知识问答
大模型多模态奇点来临:1、 多模态时代的机会有哪些? 2、开源和闭源多模态发展如何? 3、 对mj、sd、电销等影响几何?
llama3.2:开启开源多模态大模型的新时代,开启开源版的apple intelligence的边缘设备AI新时代,为端侧硬件加载AI能力提供了解决方案
openai发布GPT-4o:AGI时代来临,覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景,ai女友、ai个性化辅导老师等实现了
强推!这可能是唯一能将LlamaIndex讲清楚的课程了,公认最适合新手入门LlamaIndex大模型实战系列,3小时全流程解读分析,简直比刷剧还爽!
ChatGenTitle一键生成优质论文题目,使用百万arXiv论文信息在LLaMA模型上进行微调的学术大模型
llama3:meta发布llama3的80亿和700亿参数的大模型,大模型领域即将迎来GPT-4 时刻, 同时llama3增加了生图能力后续会开放多模态版本
llama2:0门槛本地部署安装llama2,使用Text Generation WebUI来完成各种大模型的本地化部署、微调训练等
Agents:定制基于SOP+大模型的单体agent、多体agent等,可实现销售agent、研发agent、电商agent等,你也可以快速实现metagpt
Apple MLX:使用MLX在mac或iphone本地运行llama3、苹果openELM大模型,推理效率比pytorch高将近3倍,比a100更具性价比
RAGFlow:采用OCR和深度文档理解结合的新一代 RAG 引擎,具备深度文档理解、引用来源等能力,大大提升知识库RAG的召回率降低幻觉
CHATGPT重磅发布:gpt可以直接语音对话了,语音模态正式发布支持,继文字、图片模态之后第三大模态,未来openai开放语音接口后对电销、咨询领域等影响巨大
Globe Explorer:生成知识大纲和要点的AI生成引擎,个性化教育的福音,相比于perplexity的探索式搜索引擎,其更适合教师、学生、研究员、分析师
Perplexica:替代传统搜索引擎的AI搜索开源实现,可平替Perplexity AI实现高效信息获取,终结百度、google等传统搜索引擎
总结2023展望2024:1、2023年大模型发展精华有哪些:llm,llm软应用,行业融合;2、2024年大模型发展趋势:多模态,硬件+llm,to c大爆发
grok:musk开源X的千亿大模型grok 1.0,在开源大模型领域排名第一,强于mistral8*7b、meta的llama70b和google的gemma
MaPa:一句文本描述生成3D图像,可DIY编辑3D图像,可广泛用于家修设计、游戏设计、元宇宙等各种3D场景
LangGPT:多模态提示词在大模型中的创新实践(langgpt作者云中江树)
本土化N8N:轻松零代码构建国产saas软件和大模型交互的agent,实现飞书、企业微信等国产软件与llm交互,无代码构建复杂工作流的agent替代人
OpenAI-o1首次将大模型行业从原先卷参数带到了卷推理时间,o1具备了自我进化能力,是通用人工智能AGI的起点,大大有利于小模型和推理场景
2024年大模型发展的十大预测:大模型应用的to C时代将来临,多模态和硬件结合将渗透到工业领域,小模型会在边缘设备上爆发
Skyvern:基于大模型和浏览器实现网页类工作流自动化,自动完成网页的各种检索、浏览和填写,可实现采购自动化、自媒体平台回复自动化、网页客服自动化等各种工作流
DB-GPT:基于大模型实现用自然语言与各种数据库交互,解决各种BI数据分析场景、公司业绩分析、知识库管理、agent管理、多模型管理、提示词管理等
SIMA:Google DeepMind 发布第一个实现自然语言在仿真环境或游戏中生成指令,且遵循指令指导行为的通用AI Agent,通用AI Agent新篇章
AI模型理解误区:百万成本微调垂直行业达模型VS低成本建立企业专属知识库或ai助理
Cursor十大使用技巧:免费无限量使用Cursor Pro会员指南
Llama Tutor:个性化构建AI老师,推理采用最新的llama3.1驱动,垂直AI搜索的教育领域应用案例
大模型应用选择对比:1、知识库对比:dify、fastgpt;2、agent构建器选择:flowise、langflow、bisheng 3、召回率
三只羊女主播狂欢自学AI大模型应用开发却换来嘲讽,回复:我有更多优点——理论开篇
提示词、RAG、微调哪个会让大模型表现更好?1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架