V
主页
OmniParser:微软发布截屏解析器, 可识别任何截屏中的可交互图标,理解屏幕中各个元素的含义,从而可准确地将预期动作与屏幕上的相应区域关联操作
发布人
OmniParser:微软发布截屏解析器, 可识别任何截屏中的可交互图标,理解屏幕中各个元素的含义,从而可准确地将预期action与屏幕上的相应区域关联,实现精准控制,比 GPT-4V更强大
打开封面
下载高清视频
观看高清视频
视频下载器
本地部署OmniParser微软最强开源屏幕解析模型!最强开源屏幕解析工具,面向纯视觉的GUI代理!实现用户界面截图解析为结构化数据!pyautogui自动点击
安装Ollama+CosyVoice打造流式智能语音秘书,流式生成语音大大缩短了等待时间,提升用户体验
太牛了,手写体也能精准识别的 OCR 神器!
ComfyUI V1震撼发布:妈妈放心,AI生图从此简单又惊艳!
微软OmniParser - 屏幕解析模型本地安装指南
AppAgent:腾讯发布替代按键精灵的智能体Agent, 彻底将人从手机工作解放出来,自然语言指挥手机完成各种复杂操作,可用于APP测试用例构建,广告方式变现
claude-3.5-sonnet:干翻市场已有的PDF解析器和OCR解析器,适用于分析理解各种图表和表格、提取文档的结构化信息,大大促进AI文档处理的准确率
Agent-S:像人一样使用计算机的开源agent框架,通过Agent-Computer接口实现与计算机的自动交互,解决计算机任务自动化中的三个关键挑战
按键映射工具 MyKeymap
OmniParser:微软开源免费AI控制电脑
当 Chrome 遇见 Vimium,解放鼠标,极速冲浪
OCR Free文档理解模型Pix2Strict, OmniParser, ViTLP
Tools | AI控制电脑不仅仅是RPA
微软推出 OmniParser:将 UI 截图转换为结构化数据
AppAgent初体验
【软件开箱】Zen浏览器的简单开箱体验
phidata:国外爆火的Agent-ui框架,基于它可快速构建Muti-Agents,且可将构建的Agents快速在ui界面中测试,从而满足客户poc展示需求
[尝鲜] 腾讯版 NotebookLM 上线 ima.copilot
Tmux彻底改变我的编程方式
Qwen2-VL-7B实现精准pdf转markdown,从原理、代码实现、存在问题以及优化方向全流程讲解
BitNet开源:1.58比特让大模型轻如燕,CPU就能跑100B参数
全格式Markdown转换!打破AI训练数据荒!
Knowledge Table:使用AI从非结构化数据提取关键信息结构化,实现从合同、公司年度报告或收益报表中提取关键信息入库结构化,非常有商用场景
bolt.new-any-llm+ollama:本地化AI程序员Agent来了,本地替代v0+cursor不是问题,加上产品经理就是个研发团队,实战创建项目站点
Telegram十亿用户市场无人问津?微软AI月访破6000万!
Zion:5分钟无代码上线企业级AI应用,赋能超级个体的场景落地与商业变现,以及ai应用产品如何出海,含实操AI故事插画生成的商业化落地
步步高重大发现!Termux的签名可以绕检测安装!
memfree:可商业化、定制的开源AI搜索,从知识库和网页中搜索准确答案,输入输出支持多模态内容,输出包含脑图,还支持生成UI代码和预览,定制AI搜索时代来临
【人物访谈】Linus Torvalds(Linux之父): 谈论 Rust 与 C 在 Linux 中的分歧
再见PowerDesigner!一款现代化的数据库设计工具,界面够炫酷!
「SuperMemory」构建自己的第二大脑,让浏览器收藏不再吃灰|用AI快速查找和回顾自己收藏的内容
bitnet.cpp 推理,速度超越 llama.cpp,内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示
明确的和大家说 市面上你能看到的项目都是垃圾项目..
虽然不会写代码,但看完《MAKE》我也想做独立开发者了
瞧瞧别人的异常处理,那叫一个优雅!
初三学生使用卡西龙计算器打出fxxkyou吉尼斯世界纪录申请视频()
MaskGCT:支持多国语言生成、效果非常不错的TTS,其在生成的语音质量、克隆相似度、清晰度等方面优于当前最先进的 TTS,人人都可克隆多国语言
Open Interpreter+ScreenPipe:实现AI Agent对计算机上看到或听到的所有内容采取action,除了计算机使用能力能力还有记忆能力
越来越多面数的布料落在羊上
70年老算法Dijkstra被证明普遍最优 斩获顶会FOCS 2024最佳论文