V
主页
京东 11.11 红包
EAGLE: 英伟达推出高分辨率多模态AI模型,新型视觉Token可处理1024像素的大图片
发布人
EAGLE的设计基于多模态架构,能够同时处理和理解来自不同模态(如视觉和语言)的信息。其核心创新在于视觉编码器的混合策略。研究人员采用了一种"逐步贪婪策略",通过逐步添加视觉编码器并保留最佳组合,最终达到了性能的最大化。
打开封面
下载高清视频
观看高清视频
视频下载器
法国AI实验室Kyutai发布GPT-4o的开源平替音频多模态模型Moshi
李开复:三年后AI将取代50%的工作
谷歌图片生成模型Imagen 3现已向全球所有Gemini用户开放,但免费用户不能生成人像
Stable Diffusion 原班人马逆天新作 FLUX.1 :120亿参数的开源AI图像生成模型
Mistral AI与NVIDIA 合作推出的128K长上下文大模型Mistral NeMo
Molmo:基于Qwen2-72B再训练的一系列开源多模态模型,在人工评估中排名第二,仅略低于 GPT-4o [完全开源]
Pixtral 12B: Mistral推出的首款多模态AI模型
Mistral发布首个基于Mamba的开源大语言模型Codestral 7B
北大、北邮和快手开源视频生成模型Pyramid Flow,生成5秒高质量视频只要1分钟,最后附CogVideoX-Fun的简单效果对比
微软发布42亿参数多模态小模型Phi-3-vision,并开放所有Phi3系列模型的权重下载
【中英字幕精校】AMD首席执行官苏姿丰(Lisa Su)做客《Mad Money》节目,讨论最新的技术进展、行业竞争、人工智能的现状|2024.09.19
NVIDIA CEO黄仁勋最新十月长访@ BG2投资播客 2024.10.14【中英精校】
不需要提取PDF,多模态大模型直接交互?通过MiniCPM-V-2.6进行测试,从模型本地部署到多图推理全流程
Meta发布Movie Gen:300亿参数AI模型可生成16秒高清视频,2025年或登陆Instagram
微软推出小模型Phi-3,量化后可直接再IPhone中运行
ControlNeXt: 参数量减少90%,却比ControlNet更强大且高效的AI生成控制工具
Civitai因版权问题封禁SD3模型,ComfyUI作者已经从Stability 离职,创建新团队专心更新ComfyUI
对标Suno和StableAudio新AI音乐生成器 Udio 开启测试,每月免费生成1200首歌曲
Mistral推出最强编程语言模型,22B的规模能大幅领先同类模型,并且支持80多种语言,但是不能商用
美众议院新法案将管制AI大模型出口和中国人在美从事AI工作
神经网络杀疯了,登上nature:35年首次被证明具有泛化能力,能像人类一样思考!人工智能/机器学习/神经网络/深度学习/计算机视觉
YouTube推出尖端AI检测系统 检测深度伪造内容,守护创作真实性
“白嫖”的日子到头了,谷歌Gemini API 5月2日开始收费
宫斗大戏结束,OpenAI成立安全委员会加强AI伦理监管;Leike宣布加入Anthropic强化Claude 3的安全性
马斯克 xAI 发布 Grok-2 测试版,包含2个版本模型,性能与行业前沿模型相媲美
Hugging Face开源全新的文本转语音模型Parler-TTS,能使用文本提示控制语音风格
DeepMind推出全新游戏AI SIMA:自然语言指令自动执行600多种动作玩复杂3D游戏
OpenAI小范围内测搜索引擎SearchGPT,进军大模型搜索
史上最大危机!人工智能的第二次大低谷究竟有多惨?
【黄仁勋】软银孙正义:我曾试图收购英伟达,但老黄说自己不为钱工作,不愿意当我下属
比LoRA快50倍的微调方法,LISA使用一张显卡就可以超越全参调优
AniTalker,一个新的口型说话视频生成框架
高质量 3D 生成大模型 Direct3D,基于3D-DiT,可以直接使用文本生成3D对象,不需要再进行2D的升维
LivePortrait:让照片人物表情动起来的开源图生视频模型,不使用SD,10秒钟就能生成人物表情动画
字节跳动推出Seed-TTS:利用扩散变换器技术,提供细腻丰富的语音表现力和强大的零样本学习能力,跨语言和情感调控能力爆表
听劝!【张雪峰】人工智能AI学习压力非常大!你能承受的了吗?!骂醒一个是一个!!!零基础入门人工智能/机器学习入门
Mistral发布1230 亿参数大语言模型Large2 123B,性能媲美Llama 405B 参数量少三分之二
DeepMind 创始人,AlphaGo之父 哈萨比斯警告巨额资金涌入 AI 行业将带来炒作和欺诈
Luma AI 推出革命性AI视频生成模型 Dream Machine,可以生成流畅的电影级效果,对标Sora并且已经公开测试
Meta发布Llama 3.2:多模态视觉能力超越GPT-4o-mini,还能跑在手机上