V
主页
生成预测视频并调整动作,千万视频训练数据带来的新突破:字节跳动机器人大模型 GR2
发布人
重点:3800 万个视频片段上训练,可以生成预测未来的视频,进而生成相应的动作轨迹。 视频内容:ByteDance Research 近期发布了第二代机器人大模型 GR-2,该模型在机器人技术领域展现出强大的泛化能力和多任务处理能力。GR-2 的训练分为预训练和微调两个阶段,其中预训练阶段在3800万个互联网视频片段上进行,使其能够学习并理解人类在多种场景下的行为模式。微调阶段则通过机器人轨迹数据进一步提升其动作预测的准确性。 GR-2 的视频生成能力允许它根据输入的图片和语言指令预测并生成动作轨迹,显著提高了动作执行的准确率。此外,随着模型规模的增加,GR-2 的性能得到了显著提升,特别是在处理复杂任务和适应新环境方面表现出色。
打开封面
下载高清视频
观看高清视频
视频下载器
突破性3D动作生成框架,动作精细到手腕:这项研究数据集配套100个室内场景,已被CVPR2024收录
快手可灵开源LivePortrait :视频人像生成精确可控,支持多人,效果惊艳
腾讯张正友:具身智能涉及多学科融合,是所有领域发展到一定成熟度之后才能涌现的能力
Aloha-ACT 在单臂上模仿学习仿真系统(基于Coppliasim+RLBench)
何恺明首个具身智能工作!HPT:异构预训练Transformer!收录顶会NeurIPS 2024!
3Blue1Brown深度学习课程最火一课:动画揭秘LLM如何存储和处理信息
北航王田苗:具身智能的可持续发展路径需要底层创新与应用场景迭代
AlignBot:个性化具身大模型
模仿任意表情,一键生成逼真动态肖像视频,旷视开源AI人像视频生成框架MegActor
下一代AutoGPT开源:项目作者演示搭建,GPT-4驱动,自主实现用户设定目标
最新视频生成大模型Vchitect-2.0开源,书生筑梦大模型支持生成20秒长度的视频
24小时star破千的开源版AI程序员:GPT-4加持,能力比肩「首位 AI 程序员」Devin
8岁女孩用AI辅助编程,45分钟搭建聊天网站,Karpathy推荐的AI编程神器Cursor
深夜炸场的OpenAI o1 效果demo:极速开发,10分钟打造ios天气应用
在保持人物一致的前提下,生成连续漫画和视频,StoryDiffusion——Lecun都夸的字节AI生成视频新方法
具身智能常用AI工具-必看
提速10.6倍,实时AI视频生成技术新突破,首个基于 DiT 实时输出的视频生成方法
世界首个智能体文明诞生:项目作者亲述,《我的世界》中创建了1000个自主意识智能体
不用再等Sora了!字节新的AI视频模型更牛
创新轨迹可控视频生成技术,阿里推出Tora:画一笔运动自动跟随,遵循物理规律
Meta开源SAM2模型:一键跟踪运动物体,速度比初代快8.4倍,解决过度分割、超越SOTA
字节跳动资深前端面试官告诉你:面试中我想听到什么?
超越全球首个AI程序员,Genie AI编程助手84秒实现代码自动化,项目作者亲自介绍
以假乱真?这段AI工具Arcads生成的视频你能分辨真假吗
字节跳动花72小时讲完的抖音运营全套教程,手把手带你玩转自媒体,运营、剪辑、创业全搞定!
号称国内最强,字节版Sora来了!支持多人生成,解锁电影级别运镜控制
超2.9 万Star,全球首位AI软件工程师OpenDevin团队技术报告来了
豆包AI音乐比Suno更全面?字节跳动Seed-Music AI音乐技术一文盘完功能亮点
具身智能的风口到了吗
豆包·视频生成模型来了 字节跳动终于放大招
AI生成音乐:Udio每月可免费生成1200首,内附地址及操作指南,前DeepMind员工新作
Meta AI 推出Movie Gen 视频技术,具有超强的视频生成和编辑能力
机器人中的真「软妹」:丰田研究所Punyo,身体柔软,做家务整理不在话下
B站强推!Pytorch入门到精通!不愧是2024公认最通俗易懂的【PyTorch】教程(深度学习/PyTorch安装/Pytorch教程/机器学习/神经网络)
字节跳动让机器人诞生想象力!
AIGC最值得普通人关注的方向,李飞飞团队《2024年人工智能指数报告》重点解读
一句话生成3D数字人骨骼动作,这项CVPR2024收录的新作效果惊艳,项目已经开源
ECCV'24 Oral | 王东林团队提出PiTe:时空对齐视频大模型,增强视频语义理解,提升视频语言模型性能!
【圆桌论坛】具身智能时代:耐心资本的创投之道
通义万相AI视频的优势在那里?多模态方面或许会实现领先