ChatGPT惨败，输给60年前老AI，谷歌发布史上最强大模型Gemini，打爆GPT-4

发布人

1.论文地址：https://arxiv.org/pdf/2310.20216.pdf
2.《Gemini: A Family of Highly Capable Multimodal Models》https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

打开封面下载高清视频观看高清视频视频下载器

ModelScope魔搭社区及其开源的语音AI模型

手机本地运行AI大模型最全面横评效果实测（一）2B-4B参数模型

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

Ai教你图文锐评 Coze和Dify平台FLUX实现《汉语新解》图文并茂解构主义

谷歌发布“基础世界模型”Genie ,人形机器人又近了一步！

开源语音识别工具wenet 简介张彬彬

【语音识别】声学特征提取

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

通过NVIDIA NEMO 训练语音AI模型（下）

重磅AI新闻：最强开源图像生成模型Flux 1.1 Pro发布，Meta推出Dit架构Movie Gen模型，支持音频生成视频编辑，OpenAi Dev Day

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

面向表现力语音合成的多尺度风格建模与生成-吴志勇

高速高质量零资源歌声合成-雪巍

交互式AI中语音技术实践与探索-万玉龙

如何用GPT Store构建自己的GPT代理、操作和插件

域移下异常声音检测的分层元数据信息约束自监督学习

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

【语音之家】AI技术沙龙—语音增强

用对比学习增强流式与非流式模型

Daniel Povey|Zipformer:一种改进的语音识别编码器

【台大李宏毅】公开课迈向语音版ChatGPT

Meta开启内容创作者的AI新时代

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

从零开始的AI VTuber V0.3 增加语音输入功能

AI给视频人物变装换背景换表情变脸的工作流又又又更新了

VideoPoet:谷歌最新多媒体视频生成AI工具

关于AI语音圈的顶会的ICASSP，你需要知道……

圆桌：语音开源技术张仕良张彬彬康魏

Sherpa:新一代 Kaldi 部署框架

使用GPT Store，我们要提前做好这些准备！

Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)

【ICASSP】加入预训练模型的半监督声音事件检测

最新！OpenAI发布了最强大模型o1，GPT-5？

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

手机本地运行AI大模型最全面横评效果实测（二）6B-8B参数模型

2021年声纹识别研究与应用学术研讨会

字节GPT账户突遭冻结，OpenAI：正在调查不当行为，谷歌Gemini称自己是文心一言，还说自己的创始人是李彦宏

【AI综合简报】【01】Paper Central，PixelDance，Mentigo，心流知镜，Loopy，FoodPuzzle，NotebookLM

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

ChatGPT惨败，输给60年前老AI，谷歌发布史上最强大模型Gemini，打爆GPT-4

ModelScope魔搭社区及其开源的语音AI模型

手机本地运行AI大模型 最全面横评 效果实测（一）2B-4B参数模型

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

Ai教你图文锐评 Coze和Dify平台FLUX实现《汉语新解》图文并茂 解构主义

谷歌发布“基础世界模型”Genie ,人形机器人又近了一步！

开源语音识别工具wenet 简介 张彬彬

【语音识别】声学特征提取

ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良

通过NVIDIA NEMO 训练语音AI模型（下）

重磅AI新闻：最强开源图像生成模型Flux 1.1 Pro发布，Meta推出Dit架构Movie Gen模型，支持音频生成视频编辑，OpenAi Dev Day

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

Discussion：生成音频AI和研究社区、艺术产业 、公众.mp4

面向表现力语音合成的多尺度风格建模与生成-吴志勇

高速高质量零资源歌声合成-雪巍

交互式AI中语音技术实践与探索-万玉龙

如何用GPT Store构建自己的GPT代理、操作和插件

域移下异常声音检测的分层元数据信息约束自监督学习

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

【语音之家】AI技术沙龙—语音增强

用对比学习增强流式与非流式模型

Daniel Povey|Zipformer:一种改进的语音识别编码器

【台大李宏毅】公开课 迈向语音版ChatGPT

Meta开启内容创作者的AI新时代

基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音

从零开始的AI VTuber V0.3 增加语音输入功能

AI给视频人物变装换背景换表情变脸的工作流又又又更新了

VideoPoet:谷歌最新多媒体视频生成AI工具

关于AI语音圈的顶会的ICASSP，你需要知道……

圆桌：语音开源技术 张仕良 张彬彬 康魏

Sherpa:新一代 Kaldi 部署框架

使用GPT Store，我们要提前做好这些准备！

Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)

【ICASSP】加入预训练模型的半监督声音事件检测

最新！OpenAI发布了最强大模型o1，GPT-5？

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

手机本地运行AI大模型 最全面横评 效果实测（二）6B-8B参数模型

2021年声纹识别研究与应用学术研讨会

字节GPT账户突遭冻结，OpenAI：正在调查不当行为，谷歌Gemini称自己是文心一言，还说自己的创始人是李彦宏

【AI综合简报】【01】Paper Central，PixelDance，Mentigo，心流知镜，Loopy，FoodPuzzle，NotebookLM

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

手机本地运行AI大模型最全面横评效果实测（一）2B-4B参数模型

Ai教你图文锐评 Coze和Dify平台FLUX实现《汉语新解》图文并茂解构主义

开源语音识别工具wenet 简介张彬彬

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

【台大李宏毅】公开课迈向语音版ChatGPT

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

圆桌：语音开源技术张仕良张彬彬康魏

手机本地运行AI大模型最全面横评效果实测（二）6B-8B参数模型