V
主页
SORA原理:首次提出了spacetime patches,找到了一种表示视频、图像的新方法,类似于文本对应token逻辑,实现将视频的时空含义统一表示
发布人
SORA原理:首次提出了spacetime patches,找到了一种表示视频、图像的新方法,类似于文本对应token逻辑,实现将视频的时空含义统一表示
打开封面
下载高清视频
观看高清视频
视频下载器
Gemini 1.5:Google发布Gemini1.5终结RAG知识库方案,支持100万上下文窗口,一次处理1小时视频、11小时音频、30k行代码、70万字等
MoneyPrinterTurbo:一键AI生成抖音视频、youtube视频、西瓜视频,正如项目的名字一样是个AI印钞机
CHATppt:chatgpt结合python-pptx自动生成PPT,知名ppt自动生成式平台GAMMA的实现原理拆解
OmniParser:微软发布截屏解析器, 可识别任何截屏中的可交互图标,理解屏幕中各个元素的含义,从而可准确地将预期动作与屏幕上的相应区域关联操作
Agent-E :自动执行用户计算机操作的智能体Agent,现阶段实现了浏览器web操作自动化,广泛适用于游戏打金、撸毛自动化、网页端测试自动化、电商选品等
openV0:替代UI岗位的生成式UI组件工具,v0.dev的开源版,AI创建、迭代前端组件、页面等
Llama2 Code Interpreter:llama2的本地代码解释执行器,本地化实现数据分析、图像转换、python执行等,对标gpt的code解释器
MaPa:一句文本描述生成3D图像,可DIY编辑3D图像,可广泛用于家修设计、游戏设计、元宇宙等各种3D场景
ProAgent:清华发布实现各种场景WorkFlow自动生成的Agent,首次将Agent和RPA完美结合,连使用Zapier/n8n创建工作流都可让机器干了
大模型多模态时代的临界点来了:1、 google和openai多模态战争? 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响
XAgent:比autogpt更可控、比metagpt更具扩展性的框架,提出一种的外循环规划任务、内循环执行subtask的新机制,实现自主、可控的完美平衡
StoryDiffusion:字节发布基于小说文字生成漫画的AI利器,实现了故事的一致性图像和视频输出,对于故事生成漫画、文字或图片生成视频、短剧等有巨大的促进
SuperAGI:自动化构建、管理和运行AI代理,人工智能的圣杯?实现全自动调用openai(chatgpt)自动执行各种任务工作
Zion:5分钟上线企业级AI应用,比coze、dify更强大,首个将AI Agent、前端、后端、数据库完美整合的AI应用构建平台,一键发布为saas或小程序
ideogram:AI生成营销海报、AI生成网页设计神器,比midjourney、flux具有更强的文本理解能力和控制能力,AI开启网页设计和海报设计的新时代
OCTOPUS:具身人工智能的探路者,开启了大模型和具身人工智能结合新范式,通过大模型对环境反馈学习生成函数动作,实现来自环境反馈的具身智能
DB-GPT:基于大模型实现用自然语言与各种数据库交互,解决各种BI数据分析场景、公司业绩分析、知识库管理、agent管理、多模型管理、提示词管理等
OpenBB-LlmAgent:AI金融分析师智能体agent来了,基于openbb和openai实现,可访问openbb的所有数据、调用openbb的命令
openai发布GPT-4o:AGI时代来临,覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景,ai女友、ai个性化辅导老师等实现了
GoogleGenerativeAI:谷歌大模型api如期上线,langchain+Gemini 实现文本聊天和多模态vision图像识别
Pezzo:prompt提示词领域的github,可实现prompt提示词的设计版本管理、发布、轻松集成到应用及agent
Agent-S:像人一样使用计算机的开源agent框架,通过Agent-Computer接口实现与计算机的自动交互,解决计算机任务自动化中的三个关键挑战
ESP8266+ChatGPT:全网首个共享实操esp8266上运行CHATGPT代码,实现智能音箱、智能图像识别等皆有可能,智能硬件时代真心来了
Audiocraft:meta发布文本生成音乐大模型,可实现文本生成音乐、文本生成背景音效及高保真音效,为音乐创作领域带来巨大变革
Bisheng:dify+flowise的结合体,可视化定制各种初中级agent、知识库,可实现合同审核、招股说明书分析、智能投顾、面试等场景定制
Quivr-创建第二大脑调用chatgpt+向量数据库,存储各种文档、视频、网页等非结构化数据,应答各种场景
gpt-engineer:100%替代程序员的AI程序员来了,比github copilot及cursor更强大的存在,告诉需求AI自动帮你生成整个代码库
RAGFlow:采用OCR和深度文档理解结合的新一代 RAG 引擎,具备深度文档理解、引用来源等能力,大大提升知识库RAG的召回率降低幻觉
大模型应用备案是合规第一优先事宜:1、 openai为代表的国外大模型API能备案通过? 2、国产大模型服务算法备案大概是什么样的? 3、本地化部署该如何备案
OpenAI-o1首次将大模型行业从原先卷参数带到了卷推理时间,o1具备了自我进化能力,是通用人工智能AGI的起点,大大有利于小模型和推理场景
CLAUDE 3:比gpt-4和gemini还要强大的世界第一模型易主了:1、支持100万token的上下文;2、擅长半结构化数据处理;3、大文件召回率达99%
Open-canvas:OpenAI-canvas的开源实现,颠覆传统写作和编程场景,可本地化部署快速接入到公司内部OA系统、编程IDE系统等,实现AI辅助
SIMA:Google DeepMind 发布第一个实现自然语言在仿真环境或游戏中生成指令,且遵循指令指导行为的通用AI Agent,通用AI Agent新篇章
【多模态新时代来临】OPENAI发布最强的视频生成及理解世界模型sora:数字人公司、视频生成公司团灭,视频生成公司面临大洗牌
CAMEL:角色扮演的Agent生成高质量对话数据集,高效替代部分文本标注员(基于chatgpt+langchain实现的agent)
Prompt flow:微软发布可视化Agent的构建工具,可实现agent的工作流sop可视化,从测试、可视化流程、运行到部署一站式实现
CLIP:OPENAI的多模态预训练模型,DALL-2的核心技术,可用于物体检测(vild)、图像分类、视频图像理解(VideoCLIP)、图像编辑生成
Recurrent-LLM:交互式式创建小说、剧本、论文、公文等,采用基于段落语言的RNN的方式,突破了大模型本身受制于上下文窗口无法生成长内容的限制
OPEN-Interpreter:1、替代桌面版按键精灵,PC测试同学福音;2、大模型根据图片里的硬件,即可构建Arduino交互程序,实现与硬件交互
AI Agents大爆发:继llm之后将引领AI 3.0时代,openai下一步