20230426【通用大模型时代的计算机视觉研究】郑锋：“Segment Anything”浅谈及应用介绍

发布人

报告嘉宾：郑锋 (南方科技大学)
报告时间：2023年04月26日 (星期三)晚上20:00 (北京时间)
报告题目：“Segment Anything”浅谈及应用介绍

报告人简介：
郑锋，南方科技大学副教授 (研究员)，国自然优秀青年基金获得者，于英国谢菲尔德大学获得博士学位。研究兴趣包括机器学习、计算机视觉与跨媒体计算。曾在腾讯优图实验室任高级研究员，在美国匹兹堡大学和德克萨斯大学阿灵顿分校任博后研究员，在中国科学院深圳先进技术研究院任研究助理及助理研究员。目前，在国际顶级杂志和会议上包括IEEE TPAMI/ TIP/ TNNLS/ ICML/ NeuIPS/ AAAI/ CVPR/ ICCV/ ECCV发表100余篇学术论文, 其中，高被引论文2篇；CCF推荐A类论文62篇。指导学生在包括CVPR ActivityNet/ CVPR LOVEU/ ACM MM PIC等多个国际重要竞赛中多次取得了第一或第二名的好成绩。获得了人机交互相关技术多项授权专利，其研究的人机交互技术曾被多家主流媒体报道过，并实现了向包括华为和创维等企业的技术转化。同时，是IET Image Processing杂志副编辑，是ACM MM 2020/ 2021领域主席，ICME 2021/ IJCB 2021本地主席，PRCV 2022组委会主席，在多个国际顶级人工智能会议包括CVPR/ AAAI/ IJCAI/ NeuIPS/ ICML/ ICLR/ KDD/ ICCV担任委员会成员。

个人主页：
https://faculty.sustech.edu.cn/fengzheng/

报告摘要：
基于Alexnet视觉模型的成功，带动了近十年人工智能的飞速发展。但是基于Transformer语言大模型的出现，构建了ChatGPT和GPT4，让人类第一次接近了通用人工智能。事实上，人们一直期待能出现类似的视觉领域大模型，解决人类80%信息源的认知问题。Meta AI近期推出的“Segment Anything”视觉大模型，试图将视觉分割任务统一起来，其效果令人震惊。基于“Segment Anything”模型，我们迅速推出了两个旨在验证该模型基础作用的系统: 1) Caption Anything 是一款集Segment Anything、Visual Captioning 和ChatGPT 功能于一体的多功能图片处理工具。我们的解决方案为图像中的任何对象生成描述性说明，提供一系列语言风格以满足不同的用户偏好。它支持视觉控制 (鼠标点击)和语言控制 (长度、情感、真实性和语言)。2) Track Anything 是一个灵活的交互式视频对象跟踪和分割工具。在跟踪过程中，用户可以灵活地更改他们想要跟踪的对象，或者在出现歧义的情况下更正感兴趣的区域。用户可以使用此系统擦除或修复 (Inpainting)视频内容。视觉大模型任重而道远，我们认为这一切才刚刚开始。

参考文献：
[1] Segment Anything. Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick. CVPR, 2023.
[2] Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng*, Ran Cheng, Ping Luo. End-to-End Dense Video Captioning with Parallel Decoding. ICCV, 2021.
[3] Teng Wang, Yixiao Ge, Feng Zheng*, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo. Accelerating Vision-Language Pretraining with Free Language Modeling. CVPR, 2023.

打开封面下载高清视频观看高清视频视频下载器

20230426【通用大模型时代的计算机视觉研究】郑锋：“Segment Anything”浅谈及应用介绍

20230426【通用大模型时代的计算机视觉研究】Panel

20240117【学术新人“修炼手册”】彭思达：完成一篇论文的科研历程与经验

突发！ChatGPT发布最强推理模型「GPT-o1」｜完整解读模型特点｜含12个官方双语演示视频｜AI进化论-花生

20230531【大模型时代下的三维视觉：路在何方？】杨波：3D Semantic and Instance Segmentation without 3D……

20240731【多模态研究进展】张晓堃：浅谈多模态会话推荐系统

20240731【多模态研究进展】徐偲：面向低质多模态数据的深度学习

【剧场版】AI机长可能会坠机，但绝对不会坠机！

20230531【大模型时代下的三维视觉：路在何方？】刘子纬：大模型时代下的3D AIGC

量子物理学家马里奥•克莱恩（Mario Krenn）向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题

【VALSE2024】0505 俞扬《APR：世界模型与具身决策》

20240828【医学多模态分析与研究：从传统模型到大模型的演变】刘明霞：多中心多模态脑影像智能分析及应用研究

[转载]基于FPGA的YOLO算法从入门到精通

研究生如何一周水完一篇SCI论文，从写到投稿的全过程详解!

20231011【医疗基础模型 (上)】朱闻韬：病理图像大模型研究与应用

20240828【医学多模态分析与研究：从传统模型到大模型的演变】Panel

【VALSE2024】0507《Workshop ：多模态大模型》

20210818【心中的象牙塔：怎样才能拿到理想的教职offer？】许洪腾：如何搞砸Tenure-Track

20230531【大模型时代下的三维视觉：路在何方？】阳行意：Anything-3D-基于模型重用的任意物体的3D重建

20231025【面向视觉的零样本学习】李晶晶：基于生成模型的零样本视觉识别

【VALSE2024】0505 林倞《APR：面向具身智能的多模态感知与交互》

发论文新思路！双通道卷积神经网络新突破！最新成果准确率近100%！强烈建议每一位深度学习初学者赶紧学起来！

20240529【可控的视觉内容生成】刘希慧：Towards Controllable and Compositional Visual Content ……

20240814【多模态医学图像处理及医学大模型的发展近况】Panel

20230719【Segment Anything开启图像分割新时代】王兴刚：从预训练和小型化角度来分析图像分割

20230816【数字虚拟人的研究进展与未来】韩晓光：基于图像的三维毛发重建

20240814【多模态医学图像处理及医学大模型的发展近况】陈浩：多模态计算病理基准模型：挑战和未来

20230719【Segment Anything开启图像分割新时代】Panel

20240814【多模态医学图像处理及医学大模型的发展近况】王连生：病理数据的多模态分析

20230614【面向医疗领域的基础大模型探索与应用】付杰：Cross-Lingual Multi-Modal Language Models for……

2024年第65届IMO上，陶哲轩演讲表示AI技术其中以大型语言模型（LLMs）为代表也已经有大约 5 年的历史，但直到最近，AI输出才慢慢达到了人类的水平。

20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】

大厂之间的三级鄙视链

20230628【可信机器学习及应用】况琨：基于工具变量的因果推断和因果可泛化学习

20220615【AI for Science之物理信息驱动的深度学习】陆路：Learning operators using deep neural……

【VALSE2023】0610 吴建鑫《神经网络模型轻量化设计》

这才是本研博最该看的深度学习入门教程——第8课：如何阅读研究论文/职业建议

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI

20230913【图神经网络理论与算法】石川：自监督图神经网络

20210421【无师自通：自监督学习】田渊栋：Understanding representation learning without negative……

20240320【鲁棒开放世界感知】杨丽鹤：Depth Anything: Unleashing the Power of Large-Scale Unlab…