V
主页
吴恩达《使用Gemini进行大型多模态模型提示|Large Multimodal Model Prompting with Gemini》(豆包翻译
发布人
https://learn.deeplearning.ai/courses/large-multimodal-model-prompting-with-gemini/lesson/1/introduction 使用Gemini进行大型多模态模型提示 像Gemini这样的多模态模型正在通过统一传统上相互孤立的数据模态来推动可能性的边界。使用Gemini,您可以构建能够无缝理解和推理文本、图像和视频的应用程序,从而实现新一类的智能系统。例如,构建一个虚拟室内设计师,可以分析用户的房间图像,从文本描述中理解他们的风格偏好,并生成个性化的设计建议。或者创建一个智能文档处理流程,可以从复杂的PDF中提取结构化数据,根据内容回答问题,并生成类人的摘要。 您将学习提示工程技术,以引导Gemini的行为并优化其在各种用例中的性能,从创意故事生成到分析报告写作。您还将了解如何通过函数调用将Gemini与外部API和数据库集成,能够为您的应用程序注入实时数据和动态内容。 您将详细学习的内容: Gemini模型简介:探索Gemini模型系列,了解Gemini Nano、Pro、Flash和Ultra的主要区别和用例。了解如何根据能力、延迟和成本考虑选择最佳模型。 多模态提示和参数控制:学习用于构建有效的文本-图像-视频提示的高级技术,以引发所需的模型行为。微调关键参数如温度、top_p、top_k,以控制模型的创造性与确定性。 多模态提示的最佳实践:获得Gemini多模态模型提示工程的经验,以及角色分配、任务分解和格式化的最佳实践。分析提示-图像排序对不同目标的模型性能的影响。 创建图像用例:构建引人入胜的多模态应用,如室内设计助手和收据项目化工具。利用Gemini的跨模态推理能力来分析多个图像中实体之间的关系。 开发视频用例:实现由Gemini的大上下文窗口驱动的"大海捞针"语义视频搜索。探索长形式视频问答和内容摘要的技术。 通过函数调用集成实时数据:通过函数调用和API集成扩展Gemini的外部知识和实时数据。将Gemini的自然语言理解(NLU)能力与API结合,获取最新事实和交互服务。 通过本课程,您将深入了解Gemini的功能,如何在不同用例中最大化这些功能,并掌握一系列用于构建高级多模态AI应用程序的实用技术。 请注意,由于技术要求,本课程在学习平台上提供仅可下载的笔记本。您可以自由下载、查看和在自己的环境中运行这些笔记本。
打开封面
下载高清视频
观看高清视频
视频下载器
密歇根大学《战略决策的基础金融知识(4课全)|Foundational Finance for Strategic Decision Making》中英字幕
杜克大学《大型语言模型实践(开源大语言模型方案)|Large Language Model Operations 》
吴恩达《AI for everyone》给所有人的AI课(中英字幕)
吴恩达大佬又出新课了!《Hugging Face中的开源模型》双语字幕,16集全,建议收藏!-huggingface、开源模型、吴恩达
吴恩达大模型系列:使用Gemini进行大型多模态模型提示|Large Multimodal Model Prompting with Gemini 附课件+代码
【迄今为止最先进的模型】博士精讲CLIP、BLIP-2等多模态大模型落地应用!视觉Agent、ChatGLM、ChatGPT人工智能AI
【中文字幕】吴恩达大语言模型微调教程,让你的LLM服服帖帖
(超爽中英!) 2024公认最好的【Agent智能体】系列教程!附课件代码 Building Your Own Database Agent
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
【2024最新】54个大模型实战项目,练完即可就业,从入门到进阶,基础到框架,你想要的全都有,建议码住!超级适合小白入门学习,大模型教程
【论文导读】多模态大语言模型综述(五)多模态幻觉
讲座 | 三维场景中的具身多模态感知与交互——上海人工智能实验室研究员王泰
吴恩达《使用大型语言模型进行配对编程》Pair Programming with a Large Language Model
【多模态大模型高峰论坛】金连文教授:多模态大模型技术及其在OCR的应用
AI Agent 训练营 - 构建RAG多模态智能体:一站式掌握从LLM-RAG到多模态AI Agent
全B站最用心的提示工程词教程,2024最新版,带你7天搞定提示工程,包含所有干货!0基础小白看这套就够了,存下吧,很难找全的!
吴恩达《构建你自己的数据库智能体|Building Your Own Database Agent》中英字幕
【论文导读】RemoteCLIP: A vision language foundation model for remote sensing
【2024大模型最新】从入门到提示词工程高手,带你1小时速通,全网最通俗易懂的Prompt-Learning教程,草履虫都能学会!!!
吴恩达《构建多模态搜索和 RAG|Building Multimodal Search and RAG》中英字幕【短课均可关英文字幕】
深度学习前必看!吴恩达给深度学习新手的一些建议!
2024最好出创新点的方向:【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本,计算机博士带你轻松搞定论文创新点!
【B站首推】大模型Agent智能体企业级项目实战:手把手带你搭建一套属于你的智能体,原理讲解+代码解析,超详细,LLM_大模型_微调_提示词
中国大语言模型登顶全球第一,你最常用哪个?ChatGPT4
斯坦福大学《自然语言处理2023|CS224n: Natural Language Processing》中英字幕
跨模态细粒度高清检索项目
【中文完整版全9集】ChatGPT提示工程师|AI大神吴恩达教你写提示词|prompt engineering
吴恩达《联邦学习|Federated Learning》中英字幕(豆包翻译)
【PyTorch+多模态大模型】1小时精讲使用PyTorch从零构建多模态视觉大模型!CLIP、BLIP-2、计算机视觉、LLM
谷歌数据分析师第一课《基础: 数据,数据,无处不在》foundations-data
B站强推!自动驾驶中的多模态3D目标检测实战教程,计算机博士从零解读特征表示/对齐/融合,轻松搞定论文创新点(人工智能/深度学习/计算机视觉)
吴恩达大模型系列教程:提高LLM大模型应用的准确性|Improving Accuracy of LLM Applications(附课件+代码)
大模型从零到一保姆级教程:手把手带你学习Prompt提示词工程+RAG入门实战+LangChain系统教程,原理讲解+代码解析,含源码以及Demo!务必收藏
【全648集】清华大佬终于把AI大模型课整理出来了,通俗易懂,2024最新版,学完即就业!拿走不谢,学不会我退出IT圈!
杜克大学《大型语言模型实践(生成式AI简介、Azure的LLMs(1、2课,共6课)|Large Language Model Operations》
多模态大模型在科学文献表格理解中的应用
【大模型精讲】这可能是B站唯一把Prompt-Engineering提示工程讲的如此通俗易懂的教程了,涵盖所有核心知识点,全程干货无废话!
2024吴恩达最新LangChain教程,大语言模型应用开发(超爽中英) 【附LangChain入门指南+源码】
(超爽中英!) 2024吴恩达最好的【大模型微调】教程!附课件代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
吴恩达《机器学习数学基础(线性代数/微积分)》mathematics-for-machine-learning(中英字幕)