V
主页
京东 11.11 红包
法国AI实验室Kyutai发布GPT-4o的开源平替音频多模态模型Moshi
发布人
法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi,被视为GPT-4的新挑战者。此次在巴黎的演示显示,Moshi不仅具备多模态交互能力,还能实时生成具有情绪变化的语音,开创性地实现了语音AI的全新应用。
打开封面
下载高清视频
观看高清视频
视频下载器
Molmo:基于Qwen2-72B再训练的一系列开源多模态模型,在人工评估中排名第二,仅略低于 GPT-4o [完全开源]
Mistral AI大幅降低API端点访问费用并推出免费套餐
李开复:三年后AI将取代50%的工作
【2024最新】AI大模型入门教程(65集精讲)真正的保姆级零基础入门教程!深度学习基础+大模型相关算法+神经网络,大模型入门必学!
Moshi:实时语音通话大语言模型
【幻灯片朗读套装】VOICEPEAK 可商用 6说话人套装与 Voice Presenter Pro【介绍视频】
GOT-OCR 2.0 开源的多模态识别与格式化输出的全能OCR解决方案:图表、几何图形、音乐符号轻松转可编辑文本
Stable Diffusion 原班人马逆天新作 FLUX.1 :120亿参数的开源AI图像生成模型
微软发布42亿参数多模态小模型Phi-3-vision,并开放所有Phi3系列模型的权重下载
绝了!用GPT4o高级语音来同声传译!又有人要失业了?
ChatGPT已更新新版本,使用最新的GPT-4o模型,跑分重回第一
马斯克发布具备视觉能力的多模态模型Grok-1.5 Vision 预览版,但未说明是否开源,只开源了测试模型对真实世界理解能力的数据集RealWorldQA
Mistral发布1230 亿参数大语言模型Large2 123B,性能媲美Llama 405B 参数量少三分之二
StabilityAI推出StableAudio2.0音乐生成模型,比Suno还长1分钟
Ai撕心裂肺的吼叫
终于让它唱歌了,但是这是哪首歌?
Meta发布Movie Gen:300亿参数AI模型可生成16秒高清视频,2025年或登陆Instagram
基于立创ESP32开发板的HomeAssistant AI语音助手
【GPT-SoVITS-v2】小桃和小绿中文音频模型v2版!《GPT模型分享第七期》
人机对话-拥有可定制化的ai语音助手,实现快速编程辅助、翻译、总结等任务(完全免费)SSFRPA
Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1
Meta一口气开源了4个模型和1个数据集和1个评估方法 包括对标GPT4o的多模态模型Chameleon,音乐生成模型 JASCO等
英伟达改变AI训练规则,用98%合成数据训练了3400亿参数巨兽 Nemotron-4 340B,不仅超越开源对手,性能还能赶超GPT4
Pixtral 12B: Mistral推出的首款多模态AI模型
Mistral AI与NVIDIA 合作推出的128K长上下文大模型Mistral NeMo
苹果发布全新视觉模型4M-21,单模型可以处理21种模态任务
OpenAI开源了?多智能体框架Swarm重磅发布|Swarm快速入门介绍|Swarm调用流程及使用性能介绍
我的声音被克隆了?效果惊人 | F5 TTS语音合成模型体验和本地部署全流程
AniTalker,一个新的口型说话视频生成框架
开源模型挑战OpenAI o1!g1+llama3.1零成本完美复刻o1推理过程!动态思维链prompt,让AI推理能力倍增!支持ollama!#o1
苹果发布大语言模型DCLM-7B,不仅开放了代码和权重,连训练流程和数据集也一起开放了
微软发布Phi-3.5 最大上下文窗口128K,还包含一个MoE混合专家模型
谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像
Stability AI修改协议Stable Diffusion 3 Medium可以免费商业化应用
AI写作神器!ChatGPT Canvas 全新写作方式揭秘!Canvas最全功能演示&使用教程
免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型
听劝!【张雪峰】人工智能AI学习压力非常大!你能承受的了吗?!骂醒一个是一个!!!零基础入门人工智能/机器学习入门
Mamba-2发布 新的架构,状态空间扩大8倍,训练速度提高50%,还提出结构化状态空间二元性的理论将Transformer和SSM进行统一
比LoRA快50倍的微调方法,LISA使用一张显卡就可以超越全参调优