V
主页
微软开源Dynamic SplitFuse加速大模型推理功能实践 #小工蚁
发布人
微软开源Dynamic SplitFuse加速大模型推理功能实践 #小工蚁
打开封面
下载高清视频
观看高清视频
视频下载器
DeepSpeed-FastGen比vLLM推理性能快2倍,SplitFuse策略 #小工蚁
使用Triton内核加速Llama3-70B FP8推理 #小工蚁
通义千问千亿模型比720亿模型更省算力 #小工蚁
多模态Embedding开源模型 Visualized BGE #小工蚁
商汤开源Piccolo2大模型有啥亮点?#小工蚁
国产首个开源MoE大模型DeepSeekMoE 16B #小工蚁
Qwen2-Audio语音多模态大模型使用实践 #小工蚁
Prefix Caching原理和对大模型推理加速影响 #小工蚁
大模型推理指令缓存功能 推理性能提升30% #小工蚁
DeepSeek V2开源大模型为什么可以节省90% 以上KV Cache?
谷歌开源gemma2大语言模型用了啥新技术?
Reflection开源,让大模型学习“反思”
MInfernece长上下文大模型推理加速4~10倍 #小工蚁
阿里发布Text2SQL最新实践开源模型准确度超GPT4
无限上下文大模型推理加速StreamingLLM #小工蚁
让Mixtral-8*7B模型运行在16GB显存GPU上 #小工蚁
Qwen2-7B-Instruct不同量化方法准确度和性能比较
MiniCPM-2B和MoE-8x2B模型 开源最强“小模型” #小工蚁
多GPU推理加速Qwen-72B开源大模型 #小工蚁
vAttention大模型高效推理动态内存管理新方法
ggml开源大模型推理轻量框架 支持手机推理大模型
SQLEval Text2SQL能力评估实践 #小工蚁
AWQ大模型量化INT4比FP16 推理快2倍,GPU内存1/3
Jamba1.5开源大模型同等性能降低10倍KV Cache
PDF文档文字、表格混排自动识别,增强RAG应用准确度 #小工蚁
StarCoder2-Instruct自我对齐训练数据合成新方法 #小工蚁
构建多模态RAG应用实践 #小工蚁
LightLLM轻量级高性能推理框架 和vLLM哪个更强?
制造业在大模型应用如何实现降本增效 #小工蚁
多模态RAG检索增强生成2种实现方式 #小工蚁
开源Text Embedding加速推理 比HF性能提升3~4倍
北大开源法律大模型ChatLaw:让法律问题不再复杂 #小工蚁 #ChatLaw
LLM如何接入到个人微信? 演示群聊中AI自动回复
算子优化MoE模型推理加速4倍
LLM推理过程中自动缓存KV Cache功能 #小工蚁
开源最强生成代码大模型WizardCoder开箱评测,性能究竟如何?
智源公开大模型SFT训练数据集微调后性能达到和超过GPT4
Docker容器中运行大语言模型 推理加速,使用更简便
纯Memba架构大语言模型开源性能超越Transformer #小工蚁 #memba
如何利用开源大模型完成文档自动检测应用场景?