20231206【三维大模型探索】欧阳万里：迈向三维视觉大模型

发布人

报告嘉宾：欧阳万里 (上海人工智能实验室)
报告时间：2023年12月6日 (星期三)晚上20:00 (北京时间)
报告题目：迈向三维视觉大模型

报告人简介：
欧阳万里，上海人工智能实验室领军科学家，负责人工智能驱动的交叉科学和通用三维视觉研究工作，曾任悉尼大学电子信息工程学院研究主任。其团队在ImageNet和COCO竞赛多次获得第一。两篇文章入选paperdigest CVPR/ ICCV最有影响力的文章。担任人工智能领域顶级期刊TPAMI和IJCV副编，CVPR 2023资深领域主席，AAAI2024、CVPR2021、ICCV2021领域主席。

个人主页：
https://wlouyang.github.io/

报告摘要：
人类智能的核心在于对三维世界的理解与认知。在追求通用人工智能的道路上，使计算机理解并模拟人类的三维空间感知是构建强人工智能的关键之一。它为广泛的三维相关视觉应用提供了坚实的基础。本次报告将介绍三维场景和以人为中心的大模型研究。在三维场景大模型方面，Ponder方法是一种基于三维渲染的三维表征学习方法。这一方法已被证实在室内外三维场景中同样有效，并且能够灵活地适应不同的输入模态与多样的三维感知和重建任务。以人为中心大模型系列研究提供以人为中心的数据集，并设计了支持二维三维时序以及多模态的人像的任务模型框架。利用3000w人像数据训练所得的模型不需下游任务微调即可在11个以人为中心的二维三维跨模态的测试集上达到目前学术界最高精度。

参考文献：
[1] Huang, Di, Sida Peng, Tong He*, Honghui Yang, Xiaowei Zhou, and Wanli Ouyang, Ponder: Point cloud pre-training via neural rendering, ICCV. 2023.
[2] Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He*, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang, UniPAD: A Universal Pre-training Paradigm for Autonomous Driving, arXiv. 2023.
[3] Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He*, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang, PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm, arXiv. 2023.
[4] Shixiang Tang, Cheng Chen, Qingsong Xie, Meilin Chen, Yizhou Wang, Yuanzheng Ci, Lei Bai, Feng Zhu, Haiyang Yang, Li Yi, Rui Zhao, Wanli Ouyang, HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining, CVPR 2023.
[5] Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang, UniHCP: A Unified Model for Human-Centric Perceptions, CVPR 2023.
[6] Weizhen He, Shixiang Tang, Yiheng Deng, Qihao Chen, Qingsong Xie, Yizhou Wang, Lei Bai, Feng Zhu, Rui Zhao, Donglian Qi, Wanli Ouyang, Yunfeng Yan, Retrieve Anyone: A General-purpose Person Re-identification Task with Instructions, Arxiv 2023.

打开封面下载高清视频观看高清视频视频下载器

20231206【三维大模型探索】欧阳万里：迈向三维视觉大模型

20230531【大模型时代下的三维视觉：路在何方？】杨波：3D Semantic and Instance Segmentation without 3D……

【VALSE2024】0506《Workshop ：具身智能的视觉与学习》

20240612【可信基础模型】韩波：Exploring Trustworthy Foundation Models under Imperfect Data

【VALSE2023】0612《Workshop：多模态大模型与提示学习》

20230531【大模型时代下的三维视觉：路在何方？】Panel

【自动驾驶技术】花18000大价钱买的无人驾驶课程，从入门到提升的自动驾驶算法——感知实战、视觉定位、预测系统、路径规划、控制理论、强化学习

20210512【移动环境下的视觉分析】俞刚：GAN生成在泛娱乐移动场景的探索和应用

【VALSE2024】0505 赵恒爽《APR：视觉基础大模型》

【VALSE2023】0610 吴建鑫《神经网络模型轻量化设计》

【VALSE2024】0505 谢凌曦《APR：视觉通用人工智能》

20231011【医疗基础模型 (上)】郭翌：智能超声大模型研究及其临床应用

人生苦短，我用知识图谱！国内顶尖学府北大强推的【知识图谱导论】教程分享！博导半天就教会了我人工智能必备知识图谱课程（附资料）！ -人工智能/机器学习/深度学习

【VALSE2023】0610 章国锋《基于隐式神经表示的三维重建、渲染与定位》

【VALSE2023】0611《Workshop ：机器人具身智能》

【VALSE2024】0505 严骏驰《APR：世界模型增强的自动驾驶》

吹爆！这可能是2024最新的PyTorch教程了，同济大佬12小时带你从入门到进阶，看完就对PyTorch全面了解！人工智能|深度学习|pytorch|机器学习

20210826 特邀报告【自动深度学习的隐含因素—搜索空间】欧阳万里：自动深度学习的隐含因素—搜索空间

【VALSE2023】0612《Workshop：三维视觉技术前沿》

20211222【自动驾驶中的机器视觉与学习问题】赵行：环视自动驾驶感知

20240612【可信基础模型】刘扬：Large Language Model Unlearning

【VALSE2024】0505 马月昕《特邀报告：三维场景理解的前世、今生与未来》

【VALSE2024】0505 高林《APR：三维高斯泼溅（3D Gaussian Splatting）》

【VALSE2023】0610 刘偲《开放视觉感知》

机器学习如何促进计算流体动力学？Steve Brenton大佬精讲湍流模型流体动力学机器学习、深度学习

20231018【医疗基础模型 (下)】张晓凡：医疗领域大语言模型的训练及应用

【VALSE2023】0611《Tutorial：从Transformer到GPT》

20200812 「见微知著」(2) - 细粒度视觉检索特辑

20210625；短教程：《Transformers》；特邀讲师：邱锡鹏教授

【VALSE2024】0505 俞扬《APR：世界模型与具身决策》

【VALSE2023】0610 胡瀚《视觉自监督学习年度进展评述》

20240117【学术新人“修炼手册”】彭思达：完成一篇论文的科研历程与经验

20200801-3D视觉 吴佳俊《Integrating learning with graphics for 3D scene modeling》

【VALSE2024】0505 杨易《特邀报告：混合模型驱动的内容生成与具身智能》

不愧是GitHub大佬！半天就教会了我YOLO、SSD、FasterRCNN、FastRCNN、SPPNet、RCNN等六大目标检测算法！深度学习/物体检测

20230426【通用大模型时代的计算机视觉研究】Panel

【VALSE2023】0610 侯淇彬《开放域目标检测与识别年度进展》

20220601特邀报告【从单目深度估计到单目三维场景重建】沈春华 (浙江大学)

多久？！不到一天就可以精通使用【MATLAB】处理优化问题（优化算法解析--数学建模必备必备必备！！！）

SAM 2视觉大模型：分割图像和视频中的一切！从环境配置到本地部署、推理，论文解读+源码复现，2小时吃透SAM 2模型！

图像分割、目标检测、特征提取、边缘检测、图像滤波、人脸识别...终于有人把OpenCV那些必备的知识点讲透彻了！从入门到图像处理实战！

20200801-3D视觉吴佳俊《Integrating learning with graphics for 3D scene modeling》