V
主页
京东 11.11 红包
Stable Diffusion 3 Medium 权重下周三开放下载
发布人
SD3 Medium 是2B的那个版本的模型,最大的8B 版官方还未说是否开放下载
打开封面
下载高清视频
观看高清视频
视频下载器
SD3 Medium 已经开放下载,20亿参数,12G显存可用,还包括官方comfyUI工作流
Stability AI修改协议Stable Diffusion 3 Medium可以免费商业化应用
微软发布42亿参数多模态小模型Phi-3-vision,并开放所有Phi3系列模型的权重下载
780M Radeom核显怎么跑Stable Diffusion?
谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像
Stable Diffusion 原班人马逆天新作 FLUX.1 :120亿参数的开源AI图像生成模型
苹果发布大语言模型DCLM-7B,不仅开放了代码和权重,连训练流程和数据集也一起开放了
“白嫖”的日子到头了,谷歌Gemini API 5月2日开始收费
清华&百度提出ReSyncer,又一个音视频口型同步,嘴唇动作视频生成框架
阿里开源FunAudioLLM:SenseVoice语言识别和CosyVoic语音克隆均已开源
MimicMotion:人像动态视频生成框架,一张图片就可以生成小姐姐跳舞的视频
比LoRA快50倍的微调方法,LISA使用一张显卡就可以超越全参调优
AniTalker,一个新的口型说话视频生成框架
免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型
TANGO: 超越Heygen的开源数字人框架,实现AI驱动全身动作视频生成
Hugging Face开源全新的文本转语音模型Parler-TTS,能使用文本提示控制语音风格
北大、北邮和快手开源视频生成模型Pyramid Flow,生成5秒高质量视频只要1分钟,最后附CogVideoX-Fun的简单效果对比
ControlNeXt: 参数量减少90%,却比ControlNet更强大且高效的AI生成控制工具
PPT开源的新高度,阿里发布视频生成框架Tora,只开源了一个markdown首页
GOT-OCR 2.0 开源的多模态识别与格式化输出的全能OCR解决方案:图表、几何图形、音乐符号轻松转可编辑文本
【一文秒懂】什么是智算服务?AI大爆发的背后:智算服务才是隐藏的主角!!Stable Diffusion、ComfyUI、Llama 3
OpenAI开放异步调用API,异步任务会在24小时内返回结果,但是价格是同类型的一半
DeepMind 创始人,AlphaGo之父 哈萨比斯警告巨额资金涌入 AI 行业将带来炒作和欺诈
FluxMusic: 基于FLUX的高效文本到音乐生成系统
李开复:三年后AI将取代50%的工作
马斯克说Grok 2测试版即将在8月发布,并且年底发布Grok 3
MOFA-Video:可以为图片中的物体添加运动效果,还可以通过简单的箭头指示来控制物体的运动方向
Mistral AI大幅降低API端点访问费用并推出免费套餐
OpenAI去年遭黑客入侵,但担心对声誉造成不良影响而未向公众报告
Civitai因版权问题封禁SD3模型,ComfyUI作者已经从Stability 离职,创建新团队专心更新ComfyUI
腾讯发布EMO的开源平替V-Express,可以根据单张照片生成对口型的说话视频
《Python 机器学习》作者发布新书《Build a Large Language Model (From Scratch)》讲解如何从头开始构建大型语言模型
Meta发布Movie Gen:300亿参数AI模型可生成16秒高清视频,2025年或登陆Instagram
马斯克 xAI 发布 Grok-2 测试版,包含2个版本模型,性能与行业前沿模型相媲美
Mamba-2发布 新的架构,状态空间扩大8倍,训练速度提高50%,还提出结构化状态空间二元性的理论将Transformer和SSM进行统一
马斯克透露,新的大语言模型Grok-2将在8月发布
Luma AI 推出革命性AI视频生成模型 Dream Machine,可以生成流畅的电影级效果,对标Sora并且已经公开测试
(搬运)阿布哈兹语字母传奇Abkhaz alphabet lore part 1: А-Ф
Pixtral 12B: Mistral推出的首款多模态AI模型
OpenAI小范围内测搜索引擎SearchGPT,进军大模型搜索