V
主页
京东 11.11 红包
秋招必备,自制大模型推理框架,征服面试官,cuda写sgemv算子
发布人
带你从0写一个支持llama2/3推理支持cuda加速和int8量化的大模型框架,讲师发起的项目,repo目前2.3k star,帮助很多人获得了大厂岗位。 欢迎关注手写AI-你的AI求职、科研指南 (vx: shouxie_ai) 秋招、转行、名企实习、硬核项目、跳槽、转赛道就选【手写AI扶摇计划】(让top厂高级算法工程师帮你叠企业级工程项目buff) 项目方向:https://uy1hocr6gj.feishu.cn/docx/Q8kKdQIqLoayCTxnMW7csv4Cnbg
打开封面
下载高清视频
观看高清视频
视频下载器
详解TensorRT的C++/Python高性能部署,实战应用到项目
你的第一个cuda程序(1):什么是warpaffine?
如何高效使用TensorRT~
一文讲清楚CUDA
优化小技巧sigmoid
Isaac Lab中文版文档正式上线!
YoloV8的高效推理-分割检测
你的第一个cuda程序(3)-warpaffine思路
【yolov8】一小时掌握!从0开始搭建部署YOLOv8,环境安装+推理+自定义数据集搭建与训练,入门到精通!
英伟达自动驾驶BEVFusion从算法到落地-1.初见
14-2从零手写模型量化框架 量化卷积gemm
「Github一周热点42期」AirDrop替代、计算机视觉工具、llama开发框架等5个项目
具身智能多模态基础:0. 视觉大模型开篇
使用Ollama+Dify搭建一个专属于自己的知识库!支持多种文件类型,本地部署大模型,效果出奇的好!
如何自动配置CUDA
你的第一个cuda程序(5):写kernel核函数
你的第一个cuda程序(4):warpaffine的调用部分
自制大模型推理框架-怎么载入权重到显存以及多后端的选择
【GPU算力进化史】从CUDA Core到Tensor Core,FP32到TF32的双重变革——AI性能大爆发!
你的第一个cuda程序(7):双线性插值cuda代码
大模型剪枝-5.1sparseGPT-官方源码核心框架
5_CUDA统一内存
Focus的那些事-索引计算方式
本地部署Molmo-7B多模态大模型媲美Llama3.2-90B!全方位测评:图像识别、视频分析,打造多模态视觉AI助手!轻松实现监控视频快速找人
一个视频讲清楚 Transfomer Decoder的结构和代码,面试高频题
isaac sim具身智能仿真系列:【5】动手吧,从操控一个方块开始(佛系胡乱更新中)
开源模型超越闭源!英伟达发布最强开源模型nemotron,超越GPT-4o,一统软硬件
全面超越GraphRAG,速度更快,效果更好,落地部署更方便。从原理、本地Qwen2.5-3B模型部署到源码解读,带你全流程解析LightRAG
1_共享内存
4.【代码】训练与推理代码框架
视觉大模型系列:2.1自监督学习与前置任务
isaac sim具身智能仿真系列:【7】仿真基本环境搭建(佛系胡乱更新中)
Bert源码复现!逐行手写代码!看完即看懂!
GPT大模型剪枝-4.1OBS(最优脑外科手术)科普
手写NLP 长期 48_transformer逐行复现
【全网最细】逼自己一周吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)通俗易懂,2024最新版,学完即就业!!
大模型为什么跌到了白菜价
【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库!支持多种文件类型,本地部署大模型,效果出奇的好!
轻松本地部署LLAMA3!十分钟带你微调-量化-部署-应用一条龙解读!保姆级教程打造自己的专属大模型!人工智能/机器学习/深度模型/大模型
2.4自定义层量化