V
主页
20230426【通用大模型时代的计算机视觉研究】郑锋:“Segment Anything”浅谈及应用介绍
发布人
报告嘉宾:郑锋 (南方科技大学) 报告时间:2023年04月26日 (星期三)晚上20:00 (北京时间) 报告题目:“Segment Anything”浅谈及应用介绍 报告人简介: 郑锋,南方科技大学副教授 (研究员),国自然优秀青年基金获得者,于英国谢菲尔德大学获得博士学位。研究兴趣包括机器学习、计算机视觉与跨媒体计算。曾在腾讯优图实验室任高级研究员,在美国匹兹堡大学和德克萨斯大学阿灵顿分校任博后研究员,在中国科学院深圳先进技术研究院任研究助理及助理研究员。目前,在国际顶级杂志和会议上包括IEEE TPAMI/ TIP/ TNNLS/ ICML/ NeuIPS/ AAAI/ CVPR/ ICCV/ ECCV发表100余篇学术论文, 其中,高被引论文2篇;CCF推荐A类论文62篇。指导学生在包括CVPR ActivityNet/ CVPR LOVEU/ ACM MM PIC等多个国际重要竞赛中多次取得了第一或第二名的好成绩。获得了人机交互相关技术多项授权专利,其研究的人机交互技术曾被多家主流媒体报道过,并实现了向包括华为和创维等企业的技术转化。同时,是IET Image Processing杂志副编辑,是ACM MM 2020/ 2021领域主席,ICME 2021/ IJCB 2021本地主席,PRCV 2022组委会主席,在多个国际顶级人工智能会议包括CVPR/ AAAI/ IJCAI/ NeuIPS/ ICML/ ICLR/ KDD/ ICCV担任委员会成员。 个人主页: https://faculty.sustech.edu.cn/fengzheng/ 报告摘要: 基于Alexnet视觉模型的成功,带动了近十年人工智能的飞速发展。但是基于Transformer语言大模型的出现,构建了ChatGPT和GPT4,让人类第一次接近了通用人工智能。事实上,人们一直期待能出现类似的视觉领域大模型,解决人类80%信息源的认知问题。Meta AI近期推出的“Segment Anything”视觉大模型,试图将视觉分割任务统一起来,其效果令人震惊。基于“Segment Anything”模型,我们迅速推出了两个旨在验证该模型基础作用的系统: 1) Caption Anything 是一款集Segment Anything、Visual Captioning 和ChatGPT 功能于一体的多功能图片处理工具。我们的解决方案为图像中的任何对象生成描述性说明,提供一系列语言风格以满足不同的用户偏好。它支持视觉控制 (鼠标点击)和语言控制 (长度、情感、真实性和语言)。2) Track Anything 是一个灵活的交互式视频对象跟踪和分割工具。在跟踪过程中,用户可以灵活地更改他们想要跟踪的对象,或者在出现歧义的情况下更正感兴趣的区域。用户可以使用此系统擦除或修复 (Inpainting)视频内容。视觉大模型任重而道远,我们认为这一切才刚刚开始。 参考文献: [1] Segment Anything. Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick. CVPR, 2023. [2] Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng*, Ran Cheng, Ping Luo. End-to-End Dense Video Captioning with Parallel Decoding. ICCV, 2021. [3] Teng Wang, Yixiao Ge, Feng Zheng*, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo. Accelerating Vision-Language Pretraining with Free Language Modeling. CVPR, 2023.
打开封面
下载高清视频
观看高清视频
视频下载器
20230426【通用大模型时代的计算机视觉研究】Panel
20240117【学术新人“修炼手册”】彭思达:完成一篇论文的科研历程与经验
突发!ChatGPT发布最强推理模型「GPT-o1」|完整解读模型特点|含12个官方双语演示视频|AI进化论-花生
20230531【大模型时代下的三维视觉:路在何方?】杨波:3D Semantic and Instance Segmentation without 3D……
20240731【多模态研究进展】张晓堃:浅谈多模态会话推荐系统
20240731【多模态研究进展】徐偲:面向低质多模态数据的深度学习
【剧场版】AI机长可能会坠机,但绝对不会坠机!
20230531【大模型时代下的三维视觉:路在何方?】刘子纬:大模型时代下的3D AIGC
量子物理学家马里奥•克莱恩(Mario Krenn)向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题
【VALSE2024】0505 俞扬《APR:世界模型与具身决策》
20240828【医学多模态分析与研究:从传统模型到大模型的演变】刘明霞:多中心多模态脑影像智能分析及应用研究
[转载]基于FPGA的YOLO算法从入门到精通
研究生如何一周水完一篇SCI论文,从写到投稿的全过程详解!
20231011【医疗基础模型 (上)】朱闻韬:病理图像大模型研究与应用
20240828【医学多模态分析与研究:从传统模型到大模型的演变】Panel
【VALSE2024】0507《Workshop :多模态大模型》
20210818【心中的象牙塔:怎样才能拿到理想的教职offer?】许洪腾:如何搞砸Tenure-Track
20230531【大模型时代下的三维视觉:路在何方?】阳行意:Anything-3D-基于模型重用的任意物体的3D重建
20231025【面向视觉的零样本学习】李晶晶:基于生成模型的零样本视觉识别
【VALSE2024】0505 林倞《APR:面向具身智能的多模态感知与交互》
发论文新思路!双通道卷积神经网络新突破!最新成果准确率近100%!强烈建议每一位深度学习初学者赶紧学起来!
20240529【可控的视觉内容生成】刘希慧:Towards Controllable and Compositional Visual Content ……
20240814【多模态医学图像处理及医学大模型的发展近况】Panel
20230719【Segment Anything开启图像分割新时代】王兴刚:从预训练和小型化角度来分析图像分割
20230816【数字虚拟人的研究进展与未来】韩晓光:基于图像的三维毛发重建
20240814【多模态医学图像处理及医学大模型的发展近况】陈浩:多模态计算病理基准模型:挑战和未来
20230719【Segment Anything开启图像分割新时代】Panel
20240814【多模态医学图像处理及医学大模型的发展近况】王连生:病理数据的多模态分析
20230614【面向医疗领域的基础大模型探索与应用】付杰:Cross-Lingual Multi-Modal Language Models for……
2024年第65届IMO上,陶哲轩演讲表示AI技术其中以大型语言模型(LLMs)为代表也已经有大约 5 年的历史,但直到最近,AI输出才慢慢达到了人类的水平。
20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】
大厂之间的三级鄙视链
20230628【可信机器学习及应用】况琨:基于工具变量的因果推断和因果可泛化学习
20220615【AI for Science之物理信息驱动的深度学习】陆路:Learning operators using deep neural……
【VALSE2023】0610 吴建鑫《神经网络模型轻量化设计》
这才是本研博最该看的深度学习入门教程——第8课:如何阅读研究论文/职业建议
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
20230913【图神经网络理论与算法】石川:自监督图神经网络
20210421【无师自通:自监督学习】田渊栋:Understanding representation learning without negative……
20240320【鲁棒开放世界感知】杨丽鹤:Depth Anything: Unleashing the Power of Large-Scale Unlab…