法国AI实验室Kyutai发布GPT-4o的开源平替音频多模态模型Moshi

发布人

法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi，被视为GPT-4的新挑战者。此次在巴黎的演示显示，Moshi不仅具备多模态交互能力，还能实时生成具有情绪变化的语音，开创性地实现了语音AI的全新应用。

打开封面下载高清视频观看高清视频视频下载器

Molmo：基于Qwen2-72B再训练的一系列开源多模态模型，在人工评估中排名第二，仅略低于 GPT-4o [完全开源]

Mistral AI大幅降低API端点访问费用并推出免费套餐

李开复：三年后AI将取代50%的工作

【2024最新】AI大模型入门教程（65集精讲）真正的保姆级零基础入门教程！深度学习基础+大模型相关算法+神经网络，大模型入门必学！

Moshi：实时语音通话大语言模型

【幻灯片朗读套装】VOICEPEAK 可商用 6说话人套装与 Voice Presenter Pro【介绍视频】

GOT-OCR 2.0 开源的多模态识别与格式化输出的全能OCR解决方案：图表、几何图形、音乐符号轻松转可编辑文本

Stable Diffusion 原班人马逆天新作 FLUX.1 ：120亿参数的开源AI图像生成模型

微软发布42亿参数多模态小模型Phi-3-vision，并开放所有Phi3系列模型的权重下载

绝了！用GPT4o高级语音来同声传译！又有人要失业了？

ChatGPT已更新新版本，使用最新的GPT-4o模型，跑分重回第一

马斯克发布具备视觉能力的多模态模型Grok-1.5 Vision 预览版，但未说明是否开源，只开源了测试模型对真实世界理解能力的数据集RealWorldQA

Mistral发布1230 亿参数大语言模型Large2 123B，性能媲美Llama 405B 参数量少三分之二

StabilityAI推出StableAudio2.0音乐生成模型,比Suno还长1分钟

Ai撕心裂肺的吼叫

终于让它唱歌了，但是这是哪首歌？

Meta发布Movie Gen：300亿参数AI模型可生成16秒高清视频，2025年或登陆Instagram

基于立创ESP32开发板的HomeAssistant AI语音助手

【GPT-SoVITS-v2】小桃和小绿中文音频模型v2版！《GPT模型分享第七期》

人机对话-拥有可定制化的ai语音助手,实现快速编程辅助、翻译、总结等任务(完全免费)SSFRPA

Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1

Meta一口气开源了4个模型和1个数据集和1个评估方法包括对标GPT4o的多模态模型Chameleon，音乐生成模型 JASCO等

英伟达改变AI训练规则，用98%合成数据训练了3400亿参数巨兽 Nemotron-4 340B，不仅超越开源对手，性能还能赶超GPT4

Pixtral 12B: Mistral推出的首款多模态AI模型

Mistral AI与NVIDIA 合作推出的128K长上下文大模型Mistral NeMo

苹果发布全新视觉模型4M-21，单模型可以处理21种模态任务

OpenAI开源了？多智能体框架Swarm重磅发布｜Swarm快速入门介绍｜Swarm调用流程及使用性能介绍

我的声音被克隆了？效果惊人 | F5 TTS语音合成模型体验和本地部署全流程

AniTalker，一个新的口型说话视频生成框架

开源模型挑战OpenAI o1！g1+llama3.1零成本完美复刻o1推理过程！动态思维链prompt，让AI推理能力倍增！支持ollama！#o1

苹果发布大语言模型DCLM-7B，不仅开放了代码和权重，连训练流程和数据集也一起开放了

微软发布Phi-3.5 最大上下文窗口128K，还包含一个MoE混合专家模型

谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像

Stability AI修改协议Stable Diffusion 3 Medium可以免费商业化应用

AI写作神器！ChatGPT Canvas 全新写作方式揭秘！Canvas最全功能演示&使用教程

免费商用！混元文生图大模型全面开源，不仅包括训练的全部过程和文档，附带的插件还可以使用一张图生成定制的专属的模型

听劝！【张雪峰】人工智能AI学习压力非常大！你能承受的了吗？！骂醒一个是一个！！！零基础入门人工智能/机器学习入门

Mamba-2发布新的架构，状态空间扩大8倍，训练速度提高50%，还提出结构化状态空间二元性的理论将Transformer和SSM进行统一

比LoRA快50倍的微调方法，LISA使用一张显卡就可以超越全参调优

法国AI实验室Kyutai发布GPT-4o的开源平替音频多模态模型Moshi

Molmo：基于Qwen2-72B再训练的一系列开源多模态模型，在人工评估中排名第二，仅略低于 GPT-4o [完全开源]

Mistral AI大幅降低API端点访问费用并推出免费套餐

李开复：三年后AI将取代50%的工作

【2024最新】AI大模型入门教程（65集精讲）真正的保姆级零基础入门教程！深度学习基础+大模型相关算法+神经网络，大模型入门必学！

Moshi：实时语音通话大语言模型

【幻灯片朗读套装】VOICEPEAK 可商用 6说话人套装与 Voice Presenter Pro【介绍视频】

GOT-OCR 2.0 开源的多模态识别与格式化输出的全能OCR解决方案：图表、几何图形、音乐符号轻松转可编辑文本

Stable Diffusion 原班人马逆天新作 FLUX.1 ：120亿参数的开源AI图像生成模型

微软发布42亿参数多模态小模型Phi-3-vision，并开放所有Phi3系列模型的权重下载

绝了！用GPT4o高级语音来同声传译！又有人要失业了？

ChatGPT已更新新版本，使用最新的GPT-4o模型，跑分重回第一

马斯克发布具备视觉能力的多模态模型Grok-1.5 Vision 预览版，但未说明是否开源，只开源了测试模型对真实世界理解能力的数据集RealWorldQA

Mistral发布1230 亿参数大语言模型Large2 123B，性能媲美Llama 405B 参数量少三分之二

StabilityAI推出StableAudio2.0音乐生成模型,比Suno还长1分钟

Ai撕心裂肺的吼叫

终于让它唱歌了，但是这是哪首歌？

Meta发布Movie Gen：300亿参数AI模型可生成16秒高清视频，2025年或登陆Instagram

基于立创ESP32开发板的HomeAssistant AI语音助手

【GPT-SoVITS-v2】小桃和小绿中文音频模型v2版！《GPT模型分享第七期》

人机对话-拥有可定制化的ai语音助手,实现快速编程辅助、翻译、总结等任务(完全免费)SSFRPA

Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1

Meta一口气开源了4个模型和1个数据集和1个评估方法 包括对标GPT4o的多模态模型Chameleon，音乐生成模型 JASCO等

英伟达改变AI训练规则，用98%合成数据训练了3400亿参数巨兽 Nemotron-4 340B，不仅超越开源对手，性能还能赶超GPT4

Pixtral 12B: Mistral推出的首款多模态AI模型

Mistral AI与NVIDIA 合作推出的128K长上下文大模型Mistral NeMo

苹果发布全新视觉模型4M-21，单模型可以处理21种模态任务

OpenAI开源了？多智能体框架Swarm重磅发布｜Swarm快速入门介绍｜Swarm调用流程及使用性能介绍

我的声音被克隆了？效果惊人 | F5 TTS语音合成模型体验和本地部署全流程

AniTalker，一个新的口型说话视频生成框架

开源模型挑战OpenAI o1！g1+llama3.1零成本完美复刻o1推理过程！动态思维链prompt，让AI推理能力倍增！支持ollama！#o1

苹果发布大语言模型DCLM-7B，不仅开放了代码和权重，连训练流程和数据集也一起开放了

微软发布Phi-3.5 最大上下文窗口128K，还包含一个MoE混合专家模型

谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像

Stability AI修改协议Stable Diffusion 3 Medium可以免费商业化应用

AI写作神器！ChatGPT Canvas 全新写作方式揭秘！Canvas最全功能演示&使用教程

免费商用！混元文生图大模型全面开源，不仅包括训练的全部过程和文档，附带的插件还可以使用一张图生成定制的专属的模型

听劝！【张雪峰】人工智能AI学习压力非常大！你能承受的了吗？！骂醒一个是一个！！！零基础入门人工智能/机器学习入门

Mamba-2发布 新的架构，状态空间扩大8倍，训练速度提高50%，还提出结构化状态空间二元性的理论将Transformer和SSM进行统一

比LoRA快50倍的微调方法，LISA使用一张显卡就可以超越全参调优

Meta一口气开源了4个模型和1个数据集和1个评估方法包括对标GPT4o的多模态模型Chameleon，音乐生成模型 JASCO等

Mamba-2发布新的架构，状态空间扩大8倍，训练速度提高50%，还提出结构化状态空间二元性的理论将Transformer和SSM进行统一