GOOGLE Gemini多模态：如何使用谷歌的Gemini Vision模型进行图像理解，实现地图上餐馆个性化推荐

发布人

GOOGLE Gemini多模态：如何使用谷歌的Gemini Vision模型进行图像理解，结合LlamaIndex构建多模态LLM检索增强检索生成，实现地图上餐馆个性化推荐

打开封面下载高清视频观看高清视频视频下载器

GoogleGenerativeAI：谷歌大模型api如期上线，langchain+Gemini 实现文本聊天和多模态vision图像识别

GOOGLE谷歌发布全球最强的多模态大模型Gemini（含测评）：gemini ultra比chatgpt4要强大；谷歌发布AI手机：Pixel 8

GPT-4 Vision：多模态的又一重磅，图像推理能力可达到普通人的75-80分，对AI1.0时代的各种ai产生是价值击穿，对教育、医疗等领域有巨大革命意义

大模型多模态时代的临界点来了：1、 google和openai多模态战争？ 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响

CogVLM：清华和智谱AI合作发布多模态模型CogVLM-17B，对标gpt-4vision，采用了类似p-tuning的方式训练visual权重

Grok-2：马斯克的X发布grok2.0，支持无过滤的图像生成，集成了FLUX.1模型生成图像，成为全球排名第三的多模态大模型服务商

Gemma：google发布可商用的gemini的开源版gemma，非有限度的商用比meta有格局，性能秒杀mistral、llama2的同级别参数模型

Emu3：统一理解和生成的多模态大模型

CLIP：OPENAI的多模态预训练模型，DALL-2的核心技术，可用于物体检测（vild）、图像分类、视频图像理解（VideoCLIP）、图像编辑生成

【META】SAM万物可切割+RAM万物可识别：继大模型LLM实现人类大脑数字化之后，万物可识别的眼睛数字化时代来了，llm+ram实现多模态的大模型

llm-graph-builder：类GraphRAG的可视化实现，利用大模型从非结构化数据中提取知识图谱，实现向量+kg的结合进行知识问答

大模型多模态奇点来临：1、多模态时代的机会有哪些？ 2、开源和闭源多模态发展如何？ 3、对mj、sd、电销等影响几何？

llama3.2：开启开源多模态大模型的新时代，开启开源版的apple intelligence的边缘设备AI新时代，为端侧硬件加载AI能力提供了解决方案

openai发布GPT-4o：AGI时代来临，覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景，ai女友、ai个性化辅导老师等实现了

强推！这可能是唯一能将LlamaIndex讲清楚的课程了，公认最适合新手入门LlamaIndex大模型实战系列，3小时全流程解读分析，简直比刷剧还爽！

ChatGenTitle一键生成优质论文题目，使用百万arXiv论文信息在LLaMA模型上进行微调的学术大模型

llama3：meta发布llama3的80亿和700亿参数的大模型，大模型领域即将迎来GPT-4 时刻, 同时llama3增加了生图能力后续会开放多模态版本

llama2：0门槛本地部署安装llama2，使用Text Generation WebUI来完成各种大模型的本地化部署、微调训练等

Agents：定制基于SOP+大模型的单体agent、多体agent等，可实现销售agent、研发agent、电商agent等，你也可以快速实现metagpt

Apple MLX：使用MLX在mac或iphone本地运行llama3、苹果openELM大模型，推理效率比pytorch高将近3倍，比a100更具性价比

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

CHATGPT重磅发布：gpt可以直接语音对话了，语音模态正式发布支持，继文字、图片模态之后第三大模态，未来openai开放语音接口后对电销、咨询领域等影响巨大

Globe Explorer：生成知识大纲和要点的AI生成引擎，个性化教育的福音，相比于perplexity的探索式搜索引擎，其更适合教师、学生、研究员、分析师

Perplexica：替代传统搜索引擎的AI搜索开源实现，可平替Perplexity AI实现高效信息获取，终结百度、google等传统搜索引擎

总结2023展望2024：1、2023年大模型发展精华有哪些：llm，llm软应用，行业融合；2、2024年大模型发展趋势：多模态，硬件+llm，to c大爆发

grok：musk开源X的千亿大模型grok 1.0，在开源大模型领域排名第一，强于mistral8*7b、meta的llama70b和google的gemma

MaPa：一句文本描述生成3D图像，可DIY编辑3D图像，可广泛用于家修设计、游戏设计、元宇宙等各种3D场景

LangGPT：多模态提示词在大模型中的创新实践（langgpt作者云中江树）

本土化N8N：轻松零代码构建国产saas软件和大模型交互的agent，实现飞书、企业微信等国产软件与llm交互，无代码构建复杂工作流的agent替代人

OpenAI-o1首次将大模型行业从原先卷参数带到了卷推理时间，o1具备了自我进化能力，是通用人工智能AGI的起点，大大有利于小模型和推理场景

2024年大模型发展的十大预测：大模型应用的to C时代将来临，多模态和硬件结合将渗透到工业领域，小模型会在边缘设备上爆发

Skyvern：基于大模型和浏览器实现网页类工作流自动化，自动完成网页的各种检索、浏览和填写，可实现采购自动化、自媒体平台回复自动化、网页客服自动化等各种工作流

DB-GPT：基于大模型实现用自然语言与各种数据库交互，解决各种BI数据分析场景、公司业绩分析、知识库管理、agent管理、多模型管理、提示词管理等

SIMA：Google DeepMind 发布第一个实现自然语言在仿真环境或游戏中生成指令，且遵循指令指导行为的通用AI Agent，通用AI Agent新篇章

AI模型理解误区：百万成本微调垂直行业达模型VS低成本建立企业专属知识库或ai助理

Cursor十大使用技巧：免费无限量使用Cursor Pro会员指南

Llama Tutor：个性化构建AI老师，推理采用最新的llama3.1驱动，垂直AI搜索的教育领域应用案例

大模型应用选择对比：1、知识库对比：dify、fastgpt；2、agent构建器选择：flowise、langflow、bisheng 3、召回率

三只羊女主播狂欢自学AI大模型应用开发却换来嘲讽，回复：我有更多优点——理论开篇

提示词、RAG、微调哪个会让大模型表现更好？1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架

GOOGLE Gemini多模态：如何使用谷歌的Gemini Vision模型进行图像理解，实现地图上餐馆个性化推荐

GoogleGenerativeAI：谷歌大模型api如期上线，langchain+Gemini 实现文本聊天和多模态vision图像识别

GOOGLE谷歌发布全球最强的多模态大模型Gemini（含测评）：gemini ultra比chatgpt4要强大 ；谷歌发布AI手机：Pixel 8

GPT-4 Vision：多模态的又一重磅，图像推理能力可达到普通人的75-80分，对AI1.0时代的各种ai产生是价值击穿，对教育、医疗等领域有巨大革命意义

大模型多模态时代的临界点来了：1、 google和openai多模态战争？ 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响

CogVLM：清华和智谱AI合作发布多模态模型CogVLM-17B，对标gpt-4vision，采用了类似p-tuning的方式训练visual权重

Grok-2：马斯克的X发布grok2.0，支持无过滤的图像生成，集成了FLUX.1模型生成图像，成为全球排名第三的多模态大模型服务商

Gemma：google发布可商用的gemini的开源版gemma，非有限度的商用比meta有格局，性能秒杀mistral、llama2的同级别参数模型

Emu3：统一理解和生成的多模态大模型

CLIP：OPENAI的多模态预训练模型，DALL-2的核心技术，可用于物体检测（vild）、图像分类、视频图像理解（VideoCLIP）、图像编辑生成

【META】SAM万物可切割+RAM万物可识别：继大模型LLM实现人类大脑数字化之后，万物可识别的眼睛数字化时代来了，llm+ram实现多模态的大模型

llm-graph-builder：类GraphRAG的可视化实现，利用大模型从非结构化数据中提取知识图谱，实现向量+kg的结合进行知识问答

大模型多模态奇点来临：1、 多模态时代的机会有哪些？ 2、开源和闭源多模态发展如何？ 3、 对mj、sd、电销等影响几何？

llama3.2：开启开源多模态大模型的新时代，开启开源版的apple intelligence的边缘设备AI新时代，为端侧硬件加载AI能力提供了解决方案

openai发布GPT-4o：AGI时代来临，覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景，ai女友、ai个性化辅导老师等实现了

强推！这可能是唯一能将LlamaIndex讲清楚的课程了，公认最适合新手入门LlamaIndex大模型实战系列，3小时全流程解读分析，简直比刷剧还爽！

ChatGenTitle一键生成优质论文题目，使用百万arXiv论文信息在LLaMA模型上进行微调的学术大模型

llama3：meta发布llama3的80亿和700亿参数的大模型，大模型领域即将迎来GPT-4 时刻, 同时llama3增加了生图能力后续会开放多模态版本

llama2：0门槛本地部署安装llama2，使用Text Generation WebUI来完成各种大模型的本地化部署、微调训练等

Agents：定制基于SOP+大模型的单体agent、多体agent等，可实现销售agent、研发agent、电商agent等，你也可以快速实现metagpt

Apple MLX：使用MLX在mac或iphone本地运行llama3、苹果openELM大模型，推理效率比pytorch高将近3倍，比a100更具性价比

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

CHATGPT重磅发布：gpt可以直接语音对话了，语音模态正式发布支持，继文字、图片模态之后第三大模态，未来openai开放语音接口后对电销、咨询领域等影响巨大

Globe Explorer：生成知识大纲和要点的AI生成引擎，个性化教育的福音，相比于perplexity的探索式搜索引擎，其更适合教师、学生、研究员、分析师

Perplexica：替代传统搜索引擎的AI搜索开源实现，可平替Perplexity AI实现高效信息获取，终结百度、google等传统搜索引擎

总结2023展望2024：1、2023年大模型发展精华有哪些：llm，llm软应用，行业融合；2、2024年大模型发展趋势：多模态，硬件+llm，to c大爆发

grok：musk开源X的千亿大模型grok 1.0，在开源大模型领域排名第一，强于mistral8*7b、meta的llama70b和google的gemma

MaPa：一句文本描述生成3D图像，可DIY编辑3D图像，可广泛用于家修设计、游戏设计、元宇宙等各种3D场景

LangGPT：多模态提示词在大模型中的创新实践（langgpt作者云中江树）

本土化N8N：轻松零代码构建国产saas软件和大模型交互的agent，实现飞书、企业微信等国产软件与llm交互，无代码构建复杂工作流的agent替代人

OpenAI-o1首次将大模型行业从原先卷参数带到了卷推理时间，o1具备了自我进化能力，是通用人工智能AGI的起点，大大有利于小模型和推理场景

2024年大模型发展的十大预测：大模型应用的to C时代将来临，多模态和硬件结合将渗透到工业领域，小模型会在边缘设备上爆发

Skyvern：基于大模型和浏览器实现网页类工作流自动化，自动完成网页的各种检索、浏览和填写，可实现采购自动化、自媒体平台回复自动化、网页客服自动化等各种工作流

DB-GPT：基于大模型实现用自然语言与各种数据库交互，解决各种BI数据分析场景、公司业绩分析、知识库管理、agent管理、多模型管理、提示词管理等

SIMA：Google DeepMind 发布第一个实现自然语言在仿真环境或游戏中生成指令，且遵循指令指导行为的通用AI Agent，通用AI Agent新篇章

AI模型理解误区：百万成本微调垂直行业达模型VS低成本建立企业专属知识库或ai助理

Cursor十大使用技巧：免费无限量使用Cursor Pro会员指南

Llama Tutor：个性化构建AI老师，推理采用最新的llama3.1驱动，垂直AI搜索的教育领域应用案例

大模型应用选择对比：1、知识库对比：dify、fastgpt；2、agent构建器选择：flowise、langflow、bisheng 3、召回率

三只羊女主播狂欢自学AI大模型应用开发却换来嘲讽，回复：我有更多优点——理论开篇

提示词、RAG、微调哪个会让大模型表现更好？1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架

GOOGLE谷歌发布全球最强的多模态大模型Gemini（含测评）：gemini ultra比chatgpt4要强大；谷歌发布AI手机：Pixel 8

大模型多模态奇点来临：1、多模态时代的机会有哪些？ 2、开源和闭源多模态发展如何？ 3、对mj、sd、电销等影响几何？