V
主页
京东 11.11 红包
StreamingLLM算法让推理速度 提升22倍,支持400万Token输出
发布人
StreamingLLM算法让推理速度 提升22倍,支持400万Token输出
打开封面
下载高清视频
观看高清视频
视频下载器
无限上下文大模型推理加速StreamingLLM #小工蚁
用LLM从文本中自动提取数据 生成表格的新算法效率提升110倍
LightLLM轻量级高性能推理框架 和vLLM哪个更强?
AWQ大模型量化INT4比FP16 推理快2倍,GPU内存1/3
TGI让Huggingface Transformer推理速度提升10倍,本地演示 #小工蚁 #huggingface
TGI加载香港中文大学开源可商用LLM 推理速度大幅提升 #小工蚁 #phoenix
传统推荐算法遇强敌:LLM微调后的表现如何?中科大和谷歌为你解答!#小工蚁 #llm #推荐系统
M3E中文文本嵌入模型:替代OpenAI text-embedding-ada-002的最佳选择
Flash-Decoding长上下文LLM推理速度提8倍 #小工蚁
BurstAttention长上下文LLM推理和训练加速算法 #小工蚁
用GPTQ算法量化大型模型 大幅减少GPU使用并提高准确率
投机采样创新:多头美杜莎让推理速度提升2倍 #小工蚁
开源Text Embedding加速推理 比HF性能提升3~4倍
BAdam大模型全参训练方法更省显存,速度更快,性能更优
ClickHouse和Elastisearch 深度对比
Triton优化GPTQ算法GPU内核 效率提升3~6倍
百川2大语言模型推理加速 对比实验测试,性能提升100倍
DeepSeek V2开源大模型为什么可以节省90% 以上KV Cache?
伯克利大学开源vLLM项目 让LLM推理效率提升24倍
LightRAG一种简单高效的RAG新方法 #小工蚁
S-LORA为数千个LoRA同时提供推理,性能提升30倍 #小工蚁
Cohere Embed V3开源向量模型 超过OpenAI ada-002
新一轮大模型竞赛?1800亿参数飞鹰模型开源 #小工蚁 #falcon
多个大模型哪个输出更好对比工具 #小工蚁
如何提高垂直领域RAG准确率? #小工蚁
LLM解码参数Temperature Top K & Top P有啥作用?#小工蚁
RAG+LLM+增强算法 构建RAG应用 #小工蚁
OCR-2.0开源小模型实现OCR端到端应用 #小工蚁 #pdf转markdown
阿里发布Text2SQL最新实践开源模型准确度超GPT4
LLaMA3-8大模型FP8推理加速 优势(更快更省)和演示
RankRAG英伟达检索增强生成算法 #小工蚁 多个测试数据集准确率SoTA
如何让阿里通义千问模型推理性能提升10倍?
了解大语言模型技术细节(1/3)
算子优化MoE模型推理加速4倍
清华ChatGLM入选LLM基准测试 1对1 PK排名第五
RAPTOR一种树结构检索的RAG算法 #小工蚁
人类反馈强化学习最新替代方法SimPO #小工蚁
解决内容冲突RAG算法 FILCO #小工蚁
人工智能在企业数字化转型 二大应用场景
合成指令持续预训练 LLaMA3-8B性能超过70B