V
主页
20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】
发布人
摘要:卷积神经网络(CNN)自2012年以来已成为计算机视觉领域的主流模型。得益于自注意力机制(Self Attention)在自然语言处理领域的成功,不少工作将自注意力机制与CNN结合并取得好结果。2020年,Vision Transformer(ViT)将原始的自注意力模型应用于计算机视觉并取得与CNN相当的效果。近年来ViT已获得大量关注和提高。本报告将围绕ViT视觉模型,探讨ViT-G大模型预训练的方法和技巧,分享实验发现的数据规模、模型规模和计算资源之间的经验规律。并介绍如何通过Locked-image Tuning(LiT)为任意视觉模型训练能够“读”出视觉表征的文本模型,从而支持零训练样本的新任务,识别例如“沙滩上的牛”的不常见类别。 翟晓华,瑞士苏黎世谷歌大脑团队主管研究员 研究方向为表征学习、深度学习、人工智能,于2014年在北京大学获得博士学位。他作为共同一作提出了BiT、ViT、ViT-G、LiT、VTAB等大模型预训练及评测方法。他共同创立并开源了原始用于开发ViT、ViT-G、MLP_Mixer、LiT等工作的Big Vision软件库。论文被谷歌学术引用八千余次。
打开封面
下载高清视频
观看高清视频
视频下载器
20230531【大模型时代下的三维视觉:路在何方?】杨波:3D Semantic and Instance Segmentation without 3D……
20220713【超级视觉深度学习模型与标签学习方法】刘同亮:标签学习简介——助力超级深度学习
20220831【就正有道:物理机理驱动的图像恢复与增强】任文琦:融合先验知识的图像视频复原方法研究
20220615【AI for Science之物理信息驱动的深度学习】陆路:Learning operators using deep neural……
20210714【弱监督视觉学习:定位、分割及其他】万方:Weakly Supervised Object Localization:From CNN to…
20211124【标记高效的视觉学习】董力:BEiT: BERT Pre-Training of Image Transformers
20220413【脑启发视觉】Panel
计算机视觉实战封神之作!计算机博士6小时就将【人脸检测识别实战】讲的如此通俗易懂!建议收藏!——(人脸识别、口罩检测、Dlib模型训练、活体检测)
20220105【标签噪声学习专题论坛】冯磊:噪声标记学习的鲁棒损失与算法框架
20220615【AI for Science之物理信息驱动的深度学习】Panel
【VALSE2024】0505 赵恒爽《APR:视觉基础大模型》
20230106【铂金赞助商Webinar:华为】谢凌曦:华为云盘古视觉基础模型的挑战难题发布
20240828【医学多模态分析与研究:从传统模型到大模型的演变】刘明霞:多中心多模态脑影像智能分析及应用研究
20230607【开放世界的感知:探索可迁移与可持续学习之路】巩东:Continual Learning and Memory Augmentation……
20240828【医学多模态分析与研究:从传统模型到大模型的演变】Panel
【SAM2+YOLOV8】Meta首个能在图片和视频中实时分割对象的统一开源AI模型!博士精讲论文及源码复现!
20221012【自监督表示学习及其应用】陈小军:Self-supervised Image Clustering
强推!【最优化理论算法】这绝对是目前为止最全面的机器学习数学基础:最优化理论算法全面讲解!(人工智能、深度学习、机器学习、神经网络、AI)
20220629【比物连类:对比表示学习】宫明明:CRIS: CLIP-Driven Referring Image Segmentation
【VALSE2024】0505 严骏驰《APR:世界模型增强的自动驾驶》
【VALSE论文速览-80期】Exploring Cross-Image Pixel Contrast for Semantic Segmentation
20220914【视频理解研究进展与未来】寿政:大规模视频-语言预训练
我竟然半天学会了六大深度神经网络:CNN、RNN、GAN、GNN、LSTM、Transformer,计算机博士一次带你吃透入门到实战!
20220629【比物连类:对比表示学习】Panel
【VALSE2024】0507《Workshop :多模态大模型》
【VALSE2024】0505 杨耀东《APR:从偏好对齐到价值对齐与超对齐》
强推!YOLOV5改进-添加注意力机制!手把手教学真的轻松上手!(人工智能、深度学习、机器学习算法、神经网络、计算机视觉、Pytorch、AI)
20240522【计算机辅助诊疗:过去,现在和未来】骆路阳:Understanding and Learning from Imperfect Medical
20221221【遥感图像智能理解与应用】孙显:大规模遥感图像多任务学习方法探索与应用
20210818【心中的象牙塔:怎样才能拿到理想的教职offer?】刘希慧:博士阶段的经历和感悟分享
20230322【大规模预训练模型的可信性】Panel
20210922 特邀报告【具身智能 (Embodied AI)】卢策吾 (上海交通大学)
20230531【大模型时代下的三维视觉:路在何方?】刘子纬:大模型时代下的3D AIGC
20210826 特邀报告【自动深度学习的隐含因素—搜索空间】欧阳万里:自动深度学习的隐含因素—搜索空间
20210331【物体检测与视觉定位】程明明:大规模图像的多粒度目标检测
20200731-Valse Student Seminar 谢雨彤《A Mutual Bootstrapping Model for Automated……》
还得看吴恩达!一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法!真的不要太爽~(AI人工智能丨机器学习)
20240717【面向事件相机的物体检测与跟踪】李家宁:Object Detection with Neuromorphic Cameras
20211021【Transformer在医学图像处理的应用】戈宗元:Transformer在皮肤病分层诊断和癫痫药物推荐上的应用
20211124【标记高效的视觉学习】张鼎文:弱监督目标检测理论与方法初探