EAGLE: 英伟达推出高分辨率多模态AI模型，新型视觉Token可处理1024像素的大图片

发布人

EAGLE的设计基于多模态架构,能够同时处理和理解来自不同模态(如视觉和语言)的信息。其核心创新在于视觉编码器的混合策略。研究人员采用了一种&quot;逐步贪婪策略&quot;,通过逐步添加视觉编码器并保留最佳组合,最终达到了性能的最大化。

打开封面下载高清视频观看高清视频视频下载器

法国AI实验室Kyutai发布GPT-4o的开源平替音频多模态模型Moshi

李开复：三年后AI将取代50%的工作

谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像

Stable Diffusion 原班人马逆天新作 FLUX.1 ：120亿参数的开源AI图像生成模型

Mistral AI与NVIDIA 合作推出的128K长上下文大模型Mistral NeMo

Molmo：基于Qwen2-72B再训练的一系列开源多模态模型，在人工评估中排名第二，仅略低于 GPT-4o [完全开源]

Pixtral 12B: Mistral推出的首款多模态AI模型

Mistral发布首个基于Mamba的开源大语言模型Codestral 7B

北大、北邮和快手开源视频生成模型Pyramid Flow，生成5秒高质量视频只要1分钟，最后附CogVideoX-Fun的简单效果对比

微软发布42亿参数多模态小模型Phi-3-vision，并开放所有Phi3系列模型的权重下载

【中英字幕精校】AMD首席执行官苏姿丰（Lisa Su）做客《Mad Money》节目，讨论最新的技术进展、行业竞争、人工智能的现状｜2024.09.19

NVIDIA CEO黄仁勋最新十月长访@ BG2投资播客 2024.10.14【中英精校】

不需要提取PDF，多模态大模型直接交互？通过MiniCPM-V-2.6进行测试，从模型本地部署到多图推理全流程

Meta发布Movie Gen：300亿参数AI模型可生成16秒高清视频，2025年或登陆Instagram

微软推出小模型Phi-3，量化后可直接再IPhone中运行

ControlNeXt: 参数量减少90%，却比ControlNet更强大且高效的AI生成控制工具

Civitai因版权问题封禁SD3模型，ComfyUI作者已经从Stability 离职，创建新团队专心更新ComfyUI

对标Suno和StableAudio新AI音乐生成器 Udio 开启测试，每月免费生成1200首歌曲

Mistral推出最强编程语言模型，22B的规模能大幅领先同类模型，并且支持80多种语言，但是不能商用

美众议院新法案将管制AI大模型出口和中国人在美从事AI工作

神经网络杀疯了，登上nature：35年首次被证明具有泛化能力，能像人类一样思考！人工智能/机器学习/神经网络/深度学习/计算机视觉

YouTube推出尖端AI检测系统检测深度伪造内容，守护创作真实性

“白嫖”的日子到头了，谷歌Gemini API 5月2日开始收费

宫斗大戏结束，OpenAI成立安全委员会加强AI伦理监管；Leike宣布加入Anthropic强化Claude 3的安全性

马斯克 xAI 发布 Grok-2 测试版，包含2个版本模型，性能与行业前沿模型相媲美

Hugging Face开源全新的文本转语音模型Parler-TTS，能使用文本提示控制语音风格

DeepMind推出全新游戏AI SIMA：自然语言指令自动执行600多种动作玩复杂3D游戏

OpenAI小范围内测搜索引擎SearchGPT，进军大模型搜索

史上最大危机！人工智能的第二次大低谷究竟有多惨？

【黄仁勋】软银孙正义：我曾试图收购英伟达，但老黄说自己不为钱工作，不愿意当我下属

比LoRA快50倍的微调方法，LISA使用一张显卡就可以超越全参调优

AniTalker，一个新的口型说话视频生成框架

高质量 3D 生成大模型 Direct3D，基于3D-DiT，可以直接使用文本生成3D对象，不需要再进行2D的升维

LivePortrait：让照片人物表情动起来的开源图生视频模型，不使用SD，10秒钟就能生成人物表情动画

字节跳动推出Seed-TTS：利用扩散变换器技术，提供细腻丰富的语音表现力和强大的零样本学习能力，跨语言和情感调控能力爆表

听劝！【张雪峰】人工智能AI学习压力非常大！你能承受的了吗？！骂醒一个是一个！！！零基础入门人工智能/机器学习入门

Mistral发布1230 亿参数大语言模型Large2 123B，性能媲美Llama 405B 参数量少三分之二

DeepMind 创始人，AlphaGo之父哈萨比斯警告巨额资金涌入 AI 行业将带来炒作和欺诈

Luma AI 推出革命性AI视频生成模型 Dream Machine，可以生成流畅的电影级效果，对标Sora并且已经公开测试

Meta发布Llama 3.2:多模态视觉能力超越GPT-4o-mini,还能跑在手机上

EAGLE: 英伟达推出高分辨率多模态AI模型，新型视觉Token可处理1024像素的大图片

法国AI实验室Kyutai发布GPT-4o的开源平替音频多模态模型Moshi

李开复：三年后AI将取代50%的工作

谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像

Stable Diffusion 原班人马逆天新作 FLUX.1 ：120亿参数的开源AI图像生成模型

Mistral AI与NVIDIA 合作推出的128K长上下文大模型Mistral NeMo

Molmo：基于Qwen2-72B再训练的一系列开源多模态模型，在人工评估中排名第二，仅略低于 GPT-4o [完全开源]

Pixtral 12B: Mistral推出的首款多模态AI模型

Mistral发布首个基于Mamba的开源大语言模型Codestral 7B

北大、北邮和快手开源视频生成模型Pyramid Flow，生成5秒高质量视频只要1分钟，最后附CogVideoX-Fun的简单效果对比

微软发布42亿参数多模态小模型Phi-3-vision，并开放所有Phi3系列模型的权重下载

【中英字幕精校】AMD首席执行官苏姿丰（Lisa Su）做客《Mad Money》节目，讨论最新的技术进展、行业竞争、人工智能的现状｜2024.09.19

NVIDIA CEO黄仁勋最新十月长访@ BG2投资播客 2024.10.14【中英精校】

不需要提取PDF，多模态大模型直接交互？通过MiniCPM-V-2.6进行测试，从模型本地部署到多图推理全流程

Meta发布Movie Gen：300亿参数AI模型可生成16秒高清视频，2025年或登陆Instagram

微软推出小模型Phi-3，量化后可直接再IPhone中运行

ControlNeXt: 参数量减少90%，却比ControlNet更强大且高效的AI生成控制工具

Civitai因版权问题封禁SD3模型，ComfyUI作者已经从Stability 离职，创建新团队专心更新ComfyUI

对标Suno和StableAudio新AI音乐生成器 Udio 开启测试，每月免费生成1200首歌曲

Mistral推出最强编程语言模型，22B的规模能大幅领先同类模型，并且支持80多种语言，但是不能商用

美众议院新法案将管制AI大模型出口和中国人在美从事AI工作

神经网络杀疯了，登上nature：35年首次被证明具有泛化能力，能像人类一样思考！人工智能/机器学习/神经网络/深度学习/计算机视觉

YouTube推出尖端AI检测系统 检测深度伪造内容，守护创作真实性

“白嫖”的日子到头了，谷歌Gemini API 5月2日开始收费

宫斗大戏结束，OpenAI成立安全委员会加强AI伦理监管；Leike宣布加入Anthropic强化Claude 3的安全性

马斯克 xAI 发布 Grok-2 测试版，包含2个版本模型，性能与行业前沿模型相媲美

Hugging Face开源全新的文本转语音模型Parler-TTS，能使用文本提示控制语音风格

DeepMind推出全新游戏AI SIMA：自然语言指令自动执行600多种动作玩复杂3D游戏

OpenAI小范围内测搜索引擎SearchGPT，进军大模型搜索

史上最大危机！人工智能的第二次大低谷究竟有多惨？

【黄仁勋】软银孙正义：我曾试图收购英伟达，但老黄说自己不为钱工作，不愿意当我下属

比LoRA快50倍的微调方法，LISA使用一张显卡就可以超越全参调优

AniTalker，一个新的口型说话视频生成框架

高质量 3D 生成大模型 Direct3D，基于3D-DiT，可以直接使用文本生成3D对象，不需要再进行2D的升维

LivePortrait：让照片人物表情动起来的开源图生视频模型，不使用SD，10秒钟就能生成人物表情动画

字节跳动推出Seed-TTS：利用扩散变换器技术，提供细腻丰富的语音表现力和强大的零样本学习能力，跨语言和情感调控能力爆表

听劝！【张雪峰】人工智能AI学习压力非常大！你能承受的了吗？！骂醒一个是一个！！！零基础入门人工智能/机器学习入门

Mistral发布1230 亿参数大语言模型Large2 123B，性能媲美Llama 405B 参数量少三分之二

DeepMind 创始人，AlphaGo之父 哈萨比斯警告巨额资金涌入 AI 行业将带来炒作和欺诈

Luma AI 推出革命性AI视频生成模型 Dream Machine，可以生成流畅的电影级效果，对标Sora并且已经公开测试

Meta发布Llama 3.2:多模态视觉能力超越GPT-4o-mini,还能跑在手机上

YouTube推出尖端AI检测系统检测深度伪造内容，守护创作真实性

DeepMind 创始人，AlphaGo之父哈萨比斯警告巨额资金涌入 AI 行业将带来炒作和欺诈