将门创投 | MIT在读博士生赵行：像素之声—图像和声音的跨模态自监督学习

发布人

本期talk嘉宾是MIT在读博士生赵行，他为我们带来近期的工作“像素之声—图像和声音的跨模态自监督学习”——如何利用视频中图像和声音的内在关联性，进行一系列的自监督学习，其主要的应用有特征学习，声音识别，声音分离，声源在图像中的定位等。

打开封面下载高清视频观看高清视频视频下载器

MIT在读博士生李昀烛：基于深度学习的动力学建模、机器人操作和多模态感知

将门创投 | 斯坦福大学在读博士生祁芮中台：点云上的深度学习及其在三维场景理解中的应用

【ASMR】无人声精油（补档）懂得都懂

将门创投 | MIT在读博士生金汶功：图表示学习在化学中的应用

Talk | 西安交通大学博士生赵子祥：基于先验知识指导的多模态图像融合算法研究

将门创投 | 陈天奇：TVM-深度学习全栈自动优化和软硬件协同设计

将门创投 | UC Berkeley吴璧辰：面向移动端的高效神经网络

将门创投 | Facebook人工智能研究院田渊栋：搭建强化学习的可扩展框架

中科院模式识别国家重点实验室在读博士生刘永成：深度学习在3D点云处理中的探索

Talk｜CVPR'24 Oral：超越3D - Point Transformer V3中的多模态特征提取新构想

清华大学在读博士生张俊祺：异质多模态资源的聚合排序

Talk | 香港中文大学（深圳）颜旭：利用跨模态知识蒸馏增强点云的表征学习

将门创投 | 旷视科技资深研究员俞刚-Beyond RetinaNet & Mask R-CNN

Talk｜UW-Madison蔡沐：图像可编码为任意数量Token，俄罗斯套娃式多模态大模型

Vlog | 北大学神、MIT在读博士带你逛麻省理工机器人实验室！一起开启MIT Lab Tour!

蒙特利尔大学在读博士-沈驿康：自然语言模型和无监督语法分析

Talk精华版 | MIT在读博士生李昀烛: 基于深度学习的动力学建模、物理系统推断和机器人操作

中国科学技术大学在读博士生邱钊凡：视频理解中的神经网络结构设计

Talk | 美国罗切斯特理工大学在读博士生包文韬：DEAR：面向开集动作识别的深度证据学习

Talk | 杜克大学在读博士生李昂: 通信和计算效率联合优化的个性化联邦学习

Talk | 上海交通大学在读博士生徐晨鑫：多智能体系统中的轨迹预测

Talk节选版 | 国防科技大学在读博士王龙光: 单目双目图像超分辨率研究

UC Berkeley在读博士生尤洋：快速神经网络的训练算法

Talk | 清华大学在读博士生李一鸣：后门攻击简介

Microsoft Cloud&AI 李琳婕多模态预训练模型UNITER, 通用的图像-文本语言表征学习

Talk | ACL'23 杰出论文，MultiIntruct：通过多模态指令集微调提升VLM的零样本学习

纽约大学助理教授冯晨：机器人中的无监督点云深度学习

Talk | 清华大学计算机系在读博士生国孟昊: External Attention 和 EAMLP

时间序列在数据embedding上有哪些创新? 盘点ICLR24最佳思路和工作

Talk | 香港科技大学在读博士生柯磊：自动驾驶场景下的多目标追踪与实例分割

Talk | 清华大学交叉信息研究院助理教授赵行：视觉为中心的自动驾驶-BEV感知

Talk | 卡耐基梅隆大学林之秋：利用多模态大模型对图像/视频/3D生成进行自动优化与评估

Talk | 新加坡国立大学张傲：10%成本定制类 GPT-4 多模态大模型

Talk｜北京大学PKU-DAIR余昭辰：从多模态理解到生成 - 从LLM到Diffusion Model

Talk | 港大在读博士谢恩泽&南大在读博士王文海: Transformer在检测和分割中的应用

Talk | ICLR'23 Oral 德州大学奥斯汀分校薛子慧：模态聚焦假说-理解跨模态知识蒸馏

Talk节选版 | 基于因果干预的弱监督语义分割: 南京理工大学在读博士张冬分享NeurIPS'20 Oral工作

将门创投 | 微软首席机器学习科学家高斌：深度学习在搜索广告查询词关键字匹配中的应用

Talk | 莱斯大学在读博士生查道琛: 斗地主AI探究：从零开始学打斗地主

Talk｜加州大学洛杉矶分校鲁盼：基于大型语言模型的多模态数学推理

将门创投 | MIT在读博士生赵行：像素之声—图像和声音的跨模态自监督学习

MIT在读博士生李昀烛：基于深度学习的动力学建模、机器人操作和多模态感知

将门创投 | 斯坦福大学在读博士生祁芮中台：点云上的深度学习及其在三维场景理解中的应用

【ASMR】无人声精油（补档）懂得都懂

将门创投 | MIT在读博士生金汶功：图表示学习在化学中的应用

Talk | 西安交通大学博士生赵子祥：基于先验知识指导的多模态图像融合算法研究

将门创投 | 陈天奇：TVM-深度学习全栈自动优化和软硬件协同设计

将门创投 | UC Berkeley吴璧辰：面向移动端的高效神经网络

将门创投 | Facebook人工智能研究院田渊栋：搭建强化学习的可扩展框架

中科院模式识别国家重点实验室在读博士生刘永成：深度学习在3D点云处理中的探索

Talk｜CVPR'24 Oral：超越3D - Point Transformer V3中的多模态特征提取新构想

清华大学在读博士生张俊祺：异质多模态资源的聚合排序

Talk | 香港中文大学（深圳）颜旭：利用跨模态知识蒸馏增强点云的表征学习

将门创投 | 旷视科技资深研究员俞刚-Beyond RetinaNet & Mask R-CNN

Talk｜UW-Madison蔡沐：图像可编码为任意数量Token，俄罗斯套娃式多模态大模型

Vlog | 北大学神、MIT在读博士带你逛麻省理工机器人实验室！一起开启MIT Lab Tour!

蒙特利尔大学在读博士-沈驿康：自然语言模型和无监督语法分析

Talk精华版 | MIT在读博士生李昀烛: 基于深度学习的动力学建模、物理系统推断和机器人操作

中国科学技术大学在读博士生邱钊凡：视频理解中的神经网络结构设计

Talk | 美国罗切斯特理工大学在读博士生包文韬：DEAR：面向开集动作识别的深度证据学习

Talk | 杜克大学在读博士生李昂: 通信和计算效率联合优化的个性化联邦学习

Talk | 上海交通大学在读博士生徐晨鑫：多智能体系统中的轨迹预测

Talk节选版 | 国防科技大学在读博士王龙光: 单目双目图像超分辨率研究

UC Berkeley在读博士生尤洋：快速神经网络的训练算法

Talk | 清华大学在读博士生李一鸣：后门攻击简介

Microsoft Cloud&AI 李琳婕 多模态预训练模型UNITER, 通用的图像-文本语言表征学习

Talk | ACL'23 杰出论文，MultiIntruct：通过多模态指令集微调提升VLM的零样本学习

纽约大学助理教授冯晨：机器人中的无监督点云深度学习

Talk | 清华大学计算机系在读博士生国孟昊: External Attention 和 EAMLP

时间序列在数据embedding上有哪些创新? 盘点ICLR24最佳思路和工作

Talk | 香港科技大学在读博士生柯磊：自动驾驶场景下的多目标追踪与实例分割

Talk | 清华大学交叉信息研究院助理教授赵行：视觉为中心的自动驾驶-BEV感知

Talk | 卡耐基梅隆大学林之秋：利用多模态大模型对图像/视频/3D生成进行自动优化与评估

Talk | 新加坡国立大学张傲：10%成本定制类 GPT-4 多模态大模型

Talk｜北京大学PKU-DAIR余昭辰：从多模态理解到生成 - 从LLM到Diffusion Model

Talk | 港大在读博士谢恩泽&南大在读博士王文海: Transformer在检测和分割中的应用

Talk | ICLR'23 Oral 德州大学奥斯汀分校薛子慧：模态聚焦假说-理解跨模态知识蒸馏

Talk节选版 | 基于因果干预的弱监督语义分割: 南京理工大学在读博士张冬分享NeurIPS'20 Oral工作

将门创投 | 微软首席机器学习科学家高斌：深度学习在搜索广告查询词关键字匹配中的应用

Talk | 莱斯大学在读博士生查道琛: 斗地主AI探究：从零开始学打斗地主

Talk｜加州大学洛杉矶分校鲁盼：基于大型语言模型的多模态数学推理

Microsoft Cloud&AI 李琳婕多模态预训练模型UNITER, 通用的图像-文本语言表征学习