20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】

发布人

摘要：卷积神经网络（CNN）自2012年以来已成为计算机视觉领域的主流模型。得益于自注意力机制（Self Attention）在自然语言处理领域的成功，不少工作将自注意力机制与CNN结合并取得好结果。2020年，Vision Transformer（ViT）将原始的自注意力模型应用于计算机视觉并取得与CNN相当的效果。近年来ViT已获得大量关注和提高。本报告将围绕ViT视觉模型，探讨ViT-G大模型预训练的方法和技巧，分享实验发现的数据规模、模型规模和计算资源之间的经验规律。并介绍如何通过Locked-image Tuning（LiT）为任意视觉模型训练能够“读”出视觉表征的文本模型，从而支持零训练样本的新任务，识别例如“沙滩上的牛”的不常见类别。
翟晓华，瑞士苏黎世谷歌大脑团队主管研究员
研究方向为表征学习、深度学习、人工智能，于2014年在北京大学获得博士学位。他作为共同一作提出了BiT、ViT、ViT-G、LiT、VTAB等大模型预训练及评测方法。他共同创立并开源了原始用于开发ViT、ViT-G、MLP_Mixer、LiT等工作的Big Vision软件库。论文被谷歌学术引用八千余次。

打开封面下载高清视频观看高清视频视频下载器

20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】

20230531【大模型时代下的三维视觉：路在何方？】杨波：3D Semantic and Instance Segmentation without 3D……

20220713【超级视觉深度学习模型与标签学习方法】刘同亮：标签学习简介——助力超级深度学习

20220831【就正有道：物理机理驱动的图像恢复与增强】任文琦：融合先验知识的图像视频复原方法研究

20220615【AI for Science之物理信息驱动的深度学习】陆路：Learning operators using deep neural……

20210714【弱监督视觉学习：定位、分割及其他】万方：Weakly Supervised Object Localization：From CNN to…

20211124【标记高效的视觉学习】董力：BEiT: BERT Pre-Training of Image Transformers

20220413【脑启发视觉】Panel

计算机视觉实战封神之作！计算机博士6小时就将【人脸检测识别实战】讲的如此通俗易懂！建议收藏！——（人脸识别、口罩检测、Dlib模型训练、活体检测）

20220105【标签噪声学习专题论坛】冯磊：噪声标记学习的鲁棒损失与算法框架

20220615【AI for Science之物理信息驱动的深度学习】Panel

【VALSE2024】0505 赵恒爽《APR：视觉基础大模型》

20230106【铂金赞助商Webinar：华为】谢凌曦：华为云盘古视觉基础模型的挑战难题发布

20240828【医学多模态分析与研究：从传统模型到大模型的演变】刘明霞：多中心多模态脑影像智能分析及应用研究

20230607【开放世界的感知：探索可迁移与可持续学习之路】巩东：Continual Learning and Memory Augmentation……

20240828【医学多模态分析与研究：从传统模型到大模型的演变】Panel

【SAM2+YOLOV8】Meta首个能在图片和视频中实时分割对象的统一开源AI模型！博士精讲论文及源码复现！

20221012【自监督表示学习及其应用】陈小军：Self-supervised Image Clustering

强推！【最优化理论算法】这绝对是目前为止最全面的机器学习数学基础：最优化理论算法全面讲解！（人工智能、深度学习、机器学习、神经网络、AI）

20220629【比物连类：对比表示学习】宫明明：CRIS: CLIP-Driven Referring Image Segmentation

【VALSE2024】0505 严骏驰《APR：世界模型增强的自动驾驶》

【VALSE论文速览-80期】Exploring Cross-Image Pixel Contrast for Semantic Segmentation

20220914【视频理解研究进展与未来】寿政：大规模视频-语言预训练

我竟然半天学会了六大深度神经网络：CNN、RNN、GAN、GNN、LSTM、Transformer，计算机博士一次带你吃透入门到实战！

20220629【比物连类：对比表示学习】Panel

【VALSE2024】0507《Workshop ：多模态大模型》

【VALSE2024】0505 杨耀东《APR：从偏好对齐到价值对齐与超对齐》

强推！YOLOV5改进-添加注意力机制！手把手教学真的轻松上手！（人工智能、深度学习、机器学习算法、神经网络、计算机视觉、Pytorch、AI）

20240522【计算机辅助诊疗：过去，现在和未来】骆路阳：Understanding and Learning from Imperfect Medical

20221221【遥感图像智能理解与应用】孙显：大规模遥感图像多任务学习方法探索与应用

20210818【心中的象牙塔：怎样才能拿到理想的教职offer？】刘希慧：博士阶段的经历和感悟分享

20230322【大规模预训练模型的可信性】Panel

20210922 特邀报告【具身智能 (Embodied AI)】卢策吾 (上海交通大学)

20230531【大模型时代下的三维视觉：路在何方？】刘子纬：大模型时代下的3D AIGC

20210826 特邀报告【自动深度学习的隐含因素—搜索空间】欧阳万里：自动深度学习的隐含因素—搜索空间

20210331【物体检测与视觉定位】程明明：大规模图像的多粒度目标检测

20200731-Valse Student Seminar 谢雨彤《A Mutual Bootstrapping Model for Automated……》

还得看吴恩达！一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法！真的不要太爽~（AI人工智能丨机器学习）

20240717【面向事件相机的物体检测与跟踪】李家宁：Object Detection with Neuromorphic Cameras

20211021【Transformer在医学图像处理的应用】戈宗元：Transformer在皮肤病分层诊断和癫痫药物推荐上的应用

20211124【标记高效的视觉学习】张鼎文：弱监督目标检测理论与方法初探