Stable Diffusion 3 Medium 权重下周三开放下载 - 视频下载 Video Downloader

京东 11.11 红包

Stable Diffusion 3 Medium 权重下周三开放下载

发布人

SD3 Medium 是2B的那个版本的模型，最大的8B 版官方还未说是否开放下载

打开封面下载高清视频观看高清视频视频下载器

SD3 Medium 已经开放下载，20亿参数，12G显存可用，还包括官方comfyUI工作流

Stability AI修改协议Stable Diffusion 3 Medium可以免费商业化应用

微软发布42亿参数多模态小模型Phi-3-vision，并开放所有Phi3系列模型的权重下载

780M Radeom核显怎么跑Stable Diffusion？

谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像

Stable Diffusion 原班人马逆天新作 FLUX.1 ：120亿参数的开源AI图像生成模型

苹果发布大语言模型DCLM-7B，不仅开放了代码和权重，连训练流程和数据集也一起开放了

“白嫖”的日子到头了，谷歌Gemini API 5月2日开始收费

清华&百度提出ReSyncer，又一个音视频口型同步，嘴唇动作视频生成框架

阿里开源FunAudioLLM：SenseVoice语言识别和CosyVoic语音克隆均已开源

MimicMotion：人像动态视频生成框架，一张图片就可以生成小姐姐跳舞的视频

比LoRA快50倍的微调方法，LISA使用一张显卡就可以超越全参调优

AniTalker，一个新的口型说话视频生成框架

免费商用！混元文生图大模型全面开源，不仅包括训练的全部过程和文档，附带的插件还可以使用一张图生成定制的专属的模型

TANGO: 超越Heygen的开源数字人框架，实现AI驱动全身动作视频生成

Hugging Face开源全新的文本转语音模型Parler-TTS，能使用文本提示控制语音风格

北大、北邮和快手开源视频生成模型Pyramid Flow，生成5秒高质量视频只要1分钟，最后附CogVideoX-Fun的简单效果对比

ControlNeXt: 参数量减少90%，却比ControlNet更强大且高效的AI生成控制工具

PPT开源的新高度，阿里发布视频生成框架Tora，只开源了一个markdown首页

GOT-OCR 2.0 开源的多模态识别与格式化输出的全能OCR解决方案：图表、几何图形、音乐符号轻松转可编辑文本

【一文秒懂】什么是智算服务？AI大爆发的背后：智算服务才是隐藏的主角！！Stable Diffusion、ComfyUI、Llama 3

OpenAI开放异步调用API，异步任务会在24小时内返回结果，但是价格是同类型的一半

DeepMind 创始人，AlphaGo之父哈萨比斯警告巨额资金涌入 AI 行业将带来炒作和欺诈

FluxMusic: 基于FLUX的高效文本到音乐生成系统

李开复：三年后AI将取代50%的工作

马斯克说Grok 2测试版即将在8月发布，并且年底发布Grok 3

MOFA-Video:可以为图片中的物体添加运动效果，还可以通过简单的箭头指示来控制物体的运动方向

Mistral AI大幅降低API端点访问费用并推出免费套餐

OpenAI去年遭黑客入侵，但担心对声誉造成不良影响而未向公众报告

Civitai因版权问题封禁SD3模型，ComfyUI作者已经从Stability 离职，创建新团队专心更新ComfyUI

腾讯发布EMO的开源平替V-Express，可以根据单张照片生成对口型的说话视频

《Python 机器学习》作者发布新书《Build a Large Language Model (From Scratch)》讲解如何从头开始构建大型语言模型

Meta发布Movie Gen：300亿参数AI模型可生成16秒高清视频，2025年或登陆Instagram

马斯克 xAI 发布 Grok-2 测试版，包含2个版本模型，性能与行业前沿模型相媲美

Mamba-2发布新的架构，状态空间扩大8倍，训练速度提高50%，还提出结构化状态空间二元性的理论将Transformer和SSM进行统一

马斯克透露，新的大语言模型Grok-2将在8月发布

Luma AI 推出革命性AI视频生成模型 Dream Machine，可以生成流畅的电影级效果，对标Sora并且已经公开测试

(搬运)阿布哈兹语字母传奇Abkhaz alphabet lore part 1: А-Ф

Pixtral 12B: Mistral推出的首款多模态AI模型

OpenAI小范围内测搜索引擎SearchGPT，进军大模型搜索