V
主页
京东 11.11 红包
将门创投 | MIT在读博士生赵行:像素之声—图像和声音的跨模态自监督学习
发布人
本期talk嘉宾是MIT在读博士生赵行,他为我们带来近期的工作“像素之声—图像和声音的跨模态自监督学习”——如何利用视频中图像和声音的内在关联性,进行一系列的自监督学习,其主要的应用有特征学习,声音识别,声音分离,声源在图像中的定位等。
打开封面
下载高清视频
观看高清视频
视频下载器
MIT在读博士生李昀烛:基于深度学习的动力学建模、机器人操作和多模态感知
将门创投 | 斯坦福大学在读博士生祁芮中台:点云上的深度学习及其在三维场景理解中的应用
【ASMR】无人声精油(补档)懂得都懂
将门创投 | MIT在读博士生金汶功:图表示学习在化学中的应用
Talk | 西安交通大学博士生赵子祥:基于先验知识指导的多模态图像融合算法研究
将门创投 | 陈天奇:TVM-深度学习全栈自动优化和软硬件协同设计
将门创投 | UC Berkeley吴璧辰:面向移动端的高效神经网络
将门创投 | Facebook人工智能研究院田渊栋:搭建强化学习的可扩展框架
中科院模式识别国家重点实验室在读博士生刘永成:深度学习在3D点云处理中的探索
Talk|CVPR'24 Oral:超越3D - Point Transformer V3中的多模态特征提取新构想
清华大学在读博士生张俊祺:异质多模态资源的聚合排序
Talk | 香港中文大学(深圳)颜旭:利用跨模态知识蒸馏增强点云的表征学习
将门创投 | 旷视科技资深研究员俞刚-Beyond RetinaNet & Mask R-CNN
Talk|UW-Madison蔡沐:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型
Vlog | 北大学神、MIT在读博士带你逛麻省理工机器人实验室!一起开启MIT Lab Tour!
蒙特利尔大学在读博士-沈驿康:自然语言模型和无监督语法分析
Talk精华版 | MIT在读博士生李昀烛: 基于深度学习的动力学建模、物理系统推断和机器人操作
中国科学技术大学在读博士生邱钊凡:视频理解中的神经网络结构设计
Talk | 美国罗切斯特理工大学在读博士生包文韬:DEAR:面向开集动作识别的深度证据学习
Talk | 杜克大学在读博士生李昂: 通信和计算效率联合优化的个性化联邦学习
Talk | 上海交通大学在读博士生徐晨鑫:多智能体系统中的轨迹预测
Talk节选版 | 国防科技大学在读博士王龙光: 单目双目图像超分辨率研究
UC Berkeley在读博士生尤洋:快速神经网络的训练算法
Talk | 清华大学在读博士生李一鸣:后门攻击简介
Microsoft Cloud&AI 李琳婕 多模态预训练模型UNITER, 通用的图像-文本语言表征学习
Talk | ACL'23 杰出论文,MultiIntruct:通过多模态指令集微调提升VLM的零样本学习
纽约大学助理教授冯晨:机器人中的无监督点云深度学习
Talk | 清华大学计算机系在读博士生国孟昊: External Attention 和 EAMLP
时间序列在数据embedding上有哪些创新? 盘点ICLR24最佳思路和工作
Talk | 香港科技大学在读博士生柯磊:自动驾驶场景下的多目标追踪与实例分割
Talk | 清华大学交叉信息研究院助理教授赵行:视觉为中心的自动驾驶-BEV感知
Talk | 卡耐基梅隆大学林之秋:利用多模态大模型对图像/视频/3D生成进行自动优化与评估
Talk | 新加坡国立大学张傲:10%成本定制类 GPT-4 多模态大模型
Talk|北京大学PKU-DAIR余昭辰:从多模态理解到生成 - 从LLM到Diffusion Model
Talk | 港大在读博士谢恩泽&南大在读博士王文海: Transformer在检测和分割中的应用
Talk | ICLR'23 Oral 德州大学奥斯汀分校薛子慧:模态聚焦假说-理解跨模态知识蒸馏
Talk节选版 | 基于因果干预的弱监督语义分割: 南京理工大学在读博士张冬分享NeurIPS'20 Oral工作
将门创投 | 微软首席机器学习科学家高斌:深度学习在搜索广告查询词关键字匹配中的应用
Talk | 莱斯大学在读博士生查道琛: 斗地主AI探究:从零开始学打斗地主
Talk|加州大学洛杉矶分校鲁盼:基于大型语言模型的多模态数学推理