SORA原理：首次提出了spacetime patches，找到了一种表示视频、图像的新方法，类似于文本对应token逻辑，实现将视频的时空含义统一表示

发布人

SORA原理：首次提出了spacetime patches，找到了一种表示视频、图像的新方法，类似于文本对应token逻辑，实现将视频的时空含义统一表示

打开封面下载高清视频观看高清视频视频下载器

Gemini 1.5：Google发布Gemini1.5终结RAG知识库方案，支持100万上下文窗口，一次处理1小时视频、11小时音频、30k行代码、70万字等

MoneyPrinterTurbo：一键AI生成抖音视频、youtube视频、西瓜视频，正如项目的名字一样是个AI印钞机

CHATppt：chatgpt结合python-pptx自动生成PPT，知名ppt自动生成式平台GAMMA的实现原理拆解

OmniParser：微软发布截屏解析器，可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作

Agent-E ：自动执行用户计算机操作的智能体Agent，现阶段实现了浏览器web操作自动化，广泛适用于游戏打金、撸毛自动化、网页端测试自动化、电商选品等

openV0：替代UI岗位的生成式UI组件工具，v0.dev的开源版，AI创建、迭代前端组件、页面等

Llama2 Code Interpreter：llama2的本地代码解释执行器，本地化实现数据分析、图像转换、python执行等，对标gpt的code解释器

MaPa：一句文本描述生成3D图像，可DIY编辑3D图像，可广泛用于家修设计、游戏设计、元宇宙等各种3D场景

ProAgent：清华发布实现各种场景WorkFlow自动生成的Agent，首次将Agent和RPA完美结合，连使用Zapier/n8n创建工作流都可让机器干了

大模型多模态时代的临界点来了：1、 google和openai多模态战争？ 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响

XAgent：比autogpt更可控、比metagpt更具扩展性的框架，提出一种的外循环规划任务、内循环执行subtask的新机制，实现自主、可控的完美平衡

StoryDiffusion：字节发布基于小说文字生成漫画的AI利器，实现了故事的一致性图像和视频输出，对于故事生成漫画、文字或图片生成视频、短剧等有巨大的促进

SuperAGI：自动化构建、管理和运行AI代理，人工智能的圣杯？实现全自动调用openai(chatgpt)自动执行各种任务工作

Zion：5分钟上线企业级AI应用，比coze、dify更强大，首个将AI Agent、前端、后端、数据库完美整合的AI应用构建平台，一键发布为saas或小程序

ideogram：AI生成营销海报、AI生成网页设计神器，比midjourney、flux具有更强的文本理解能力和控制能力，AI开启网页设计和海报设计的新时代

OCTOPUS：具身人工智能的探路者，开启了大模型和具身人工智能结合新范式，通过大模型对环境反馈学习生成函数动作，实现来自环境反馈的具身智能

DB-GPT：基于大模型实现用自然语言与各种数据库交互，解决各种BI数据分析场景、公司业绩分析、知识库管理、agent管理、多模型管理、提示词管理等

OpenBB-LlmAgent：AI金融分析师智能体agent来了，基于openbb和openai实现，可访问openbb的所有数据、调用openbb的命令

openai发布GPT-4o：AGI时代来临，覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景，ai女友、ai个性化辅导老师等实现了

GoogleGenerativeAI：谷歌大模型api如期上线，langchain+Gemini 实现文本聊天和多模态vision图像识别

Pezzo：prompt提示词领域的github，可实现prompt提示词的设计版本管理、发布、轻松集成到应用及agent

Agent-S：像人一样使用计算机的开源agent框架，通过Agent-Computer接口实现与计算机的自动交互，解决计算机任务自动化中的三个关键挑战

ESP8266+ChatGPT：全网首个共享实操esp8266上运行CHATGPT代码，实现智能音箱、智能图像识别等皆有可能，智能硬件时代真心来了

Audiocraft：meta发布文本生成音乐大模型，可实现文本生成音乐、文本生成背景音效及高保真音效，为音乐创作领域带来巨大变革

Bisheng：dify+flowise的结合体，可视化定制各种初中级agent、知识库，可实现合同审核、招股说明书分析、智能投顾、面试等场景定制

Quivr-创建第二大脑调用chatgpt+向量数据库，存储各种文档、视频、网页等非结构化数据，应答各种场景

gpt-engineer：100%替代程序员的AI程序员来了，比github copilot及cursor更强大的存在，告诉需求AI自动帮你生成整个代码库

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

大模型应用备案是合规第一优先事宜：1、 openai为代表的国外大模型API能备案通过？ 2、国产大模型服务算法备案大概是什么样的？ 3、本地化部署该如何备案

OpenAI-o1首次将大模型行业从原先卷参数带到了卷推理时间，o1具备了自我进化能力，是通用人工智能AGI的起点，大大有利于小模型和推理场景

CLAUDE 3：比gpt-4和gemini还要强大的世界第一模型易主了：1、支持100万token的上下文；2、擅长半结构化数据处理；3、大文件召回率达99%

Open-canvas：OpenAI-canvas的开源实现，颠覆传统写作和编程场景，可本地化部署快速接入到公司内部OA系统、编程IDE系统等，实现AI辅助

SIMA：Google DeepMind 发布第一个实现自然语言在仿真环境或游戏中生成指令，且遵循指令指导行为的通用AI Agent，通用AI Agent新篇章

【多模态新时代来临】OPENAI发布最强的视频生成及理解世界模型sora：数字人公司、视频生成公司团灭，视频生成公司面临大洗牌

CAMEL：角色扮演的Agent生成高质量对话数据集，高效替代部分文本标注员（基于chatgpt+langchain实现的agent）

Prompt flow：微软发布可视化Agent的构建工具，可实现agent的工作流sop可视化，从测试、可视化流程、运行到部署一站式实现

CLIP：OPENAI的多模态预训练模型，DALL-2的核心技术，可用于物体检测（vild）、图像分类、视频图像理解（VideoCLIP）、图像编辑生成

Recurrent-LLM：交互式式创建小说、剧本、论文、公文等，采用基于段落语言的RNN的方式，突破了大模型本身受制于上下文窗口无法生成长内容的限制

OPEN-Interpreter：1、替代桌面版按键精灵，PC测试同学福音；2、大模型根据图片里的硬件，即可构建Arduino交互程序，实现与硬件交互

AI Agents大爆发：继llm之后将引领AI 3.0时代，openai下一步

SORA原理：首次提出了spacetime patches，找到了一种表示视频、图像的新方法，类似于文本对应token逻辑，实现将视频的时空含义统一表示

Gemini 1.5：Google发布Gemini1.5终结RAG知识库方案，支持100万上下文窗口，一次处理1小时视频、11小时音频、30k行代码、70万字等

MoneyPrinterTurbo：一键AI生成抖音视频、youtube视频、西瓜视频，正如项目的名字一样是个AI印钞机

CHATppt：chatgpt结合python-pptx自动生成PPT，知名ppt自动生成式平台GAMMA的实现原理拆解

OmniParser：微软发布截屏解析器， 可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作

Agent-E ：自动执行用户计算机操作的智能体Agent，现阶段实现了浏览器web操作自动化，广泛适用于游戏打金、撸毛自动化、网页端测试自动化、电商选品等

openV0：替代UI岗位的生成式UI组件工具，v0.dev的开源版，AI创建、迭代前端组件、页面等

Llama2 Code Interpreter：llama2的本地代码解释执行器，本地化实现数据分析、图像转换、python执行等，对标gpt的code解释器

MaPa：一句文本描述生成3D图像，可DIY编辑3D图像，可广泛用于家修设计、游戏设计、元宇宙等各种3D场景

ProAgent：清华发布实现各种场景WorkFlow自动生成的Agent，首次将Agent和RPA完美结合，连使用Zapier/n8n创建工作流都可让机器干了

大模型多模态时代的临界点来了：1、 google和openai多模态战争？ 2、next-gpt采取的捏合多模型方式实现多模态输出 3、多模态未来对于行业的影响

XAgent：比autogpt更可控、比metagpt更具扩展性的框架，提出一种的外循环规划任务、内循环执行subtask的新机制，实现自主、可控的完美平衡

StoryDiffusion：字节发布基于小说文字生成漫画的AI利器，实现了故事的一致性图像和视频输出，对于故事生成漫画、文字或图片生成视频、短剧等有巨大的促进

SuperAGI：自动化构建、管理和运行AI代理，人工智能的圣杯？实现全自动调用openai(chatgpt)自动执行各种任务工作

Zion：5分钟上线企业级AI应用，比coze、dify更强大，首个将AI Agent、前端、后端、数据库完美整合的AI应用构建平台，一键发布为saas或小程序

ideogram：AI生成营销海报、AI生成网页设计神器，比midjourney、flux具有更强的文本理解能力和控制能力，AI开启网页设计和海报设计的新时代

OCTOPUS：具身人工智能的探路者，开启了大模型和具身人工智能结合新范式，通过大模型对环境反馈学习生成函数动作，实现来自环境反馈的具身智能

DB-GPT：基于大模型实现用自然语言与各种数据库交互，解决各种BI数据分析场景、公司业绩分析、知识库管理、agent管理、多模型管理、提示词管理等

OpenBB-LlmAgent：AI金融分析师智能体agent来了，基于openbb和openai实现，可访问openbb的所有数据、调用openbb的命令

openai发布GPT-4o：AGI时代来临，覆盖情感陪伴、家教辅导、同传、siri平替、图像一致性输出等场景，ai女友、ai个性化辅导老师等实现了

GoogleGenerativeAI：谷歌大模型api如期上线，langchain+Gemini 实现文本聊天和多模态vision图像识别

Pezzo：prompt提示词领域的github，可实现prompt提示词的设计版本管理、发布、轻松集成到应用及agent

Agent-S：像人一样使用计算机的开源agent框架，通过Agent-Computer接口实现与计算机的自动交互，解决计算机任务自动化中的三个关键挑战

ESP8266+ChatGPT：全网首个共享实操esp8266上运行CHATGPT代码，实现智能音箱、智能图像识别等皆有可能，智能硬件时代真心来了

Audiocraft：meta发布文本生成音乐大模型，可实现文本生成音乐、文本生成背景音效及高保真音效，为音乐创作领域带来巨大变革

Bisheng：dify+flowise的结合体，可视化定制各种初中级agent、知识库，可实现合同审核、招股说明书分析、智能投顾、面试等场景定制

Quivr-创建第二大脑调用chatgpt+向量数据库，存储各种文档、视频、网页等非结构化数据，应答各种场景

gpt-engineer：100%替代程序员的AI程序员来了，比github copilot及cursor更强大的存在，告诉需求AI自动帮你生成整个代码库

RAGFlow：采用OCR和深度文档理解结合的新一代 RAG 引擎，具备深度文档理解、引用来源等能力，大大提升知识库RAG的召回率降低幻觉

大模型应用备案是合规第一优先事宜：1、 openai为代表的国外大模型API能备案通过？ 2、国产大模型服务算法备案大概是什么样的？ 3、本地化部署该如何备案

OpenAI-o1首次将大模型行业从原先卷参数带到了卷推理时间，o1具备了自我进化能力，是通用人工智能AGI的起点，大大有利于小模型和推理场景

CLAUDE 3：比gpt-4和gemini还要强大的世界第一模型易主了：1、支持100万token的上下文；2、擅长半结构化数据处理；3、大文件召回率达99%

Open-canvas：OpenAI-canvas的开源实现，颠覆传统写作和编程场景，可本地化部署快速接入到公司内部OA系统、编程IDE系统等，实现AI辅助

SIMA：Google DeepMind 发布第一个实现自然语言在仿真环境或游戏中生成指令，且遵循指令指导行为的通用AI Agent，通用AI Agent新篇章

【多模态新时代来临】OPENAI发布最强的视频生成及理解世界模型sora：数字人公司、视频生成公司团灭，视频生成公司面临大洗牌

CAMEL：角色扮演的Agent生成高质量对话数据集，高效替代部分文本标注员（基于chatgpt+langchain实现的agent）

Prompt flow：微软发布可视化Agent的构建工具，可实现agent的工作流sop可视化，从测试、可视化流程、运行到部署一站式实现

CLIP：OPENAI的多模态预训练模型，DALL-2的核心技术，可用于物体检测（vild）、图像分类、视频图像理解（VideoCLIP）、图像编辑生成

Recurrent-LLM：交互式式创建小说、剧本、论文、公文等，采用基于段落语言的RNN的方式，突破了大模型本身受制于上下文窗口无法生成长内容的限制

OPEN-Interpreter：1、替代桌面版按键精灵，PC测试同学福音；2、大模型根据图片里的硬件，即可构建Arduino交互程序，实现与硬件交互

AI Agents大爆发：继llm之后将引领AI 3.0时代，openai下一步

OmniParser：微软发布截屏解析器，可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作