V
主页
【博士Vlog】大语言模型只需要1.58bit?人人都能训练大模型了!极限模型压缩效果反而更好?怎么做到的?
发布人
论文标题:The Era of 1-bit LLMs:All Large Language Models are in 1.58 Bits 搬运自YouTuBe:https://www.youtube.com/watch?v=sYCLHoemri8 原作者:https://www.youtube.com/@phdvlog2024 PS:大家如果对视频有疑问或者想和大佬进行讨论,欢迎大家移步油管。 PPS:由于搬运视频,存在几周的时间差,大佬的最新视频不一定会及时发布,想追大佬的实时动态可以去大佬油管频道。
打开封面
下载高清视频
观看高清视频
视频下载器
【博士Vlog】RF Genesis,雷达领域最新力作,不用雷达就能生成信号,什么原理?
【博士Vlog】如何解释机器学习深度学习?LIME和SHAP方法介绍
无内容审查(NSFW)大语言模型整合包,进阶玩法,角色定制,角色扮演,接入stable_diffusion
BitNet开源:1.58比特让大模型轻如燕,CPU就能跑100B参数
【博士Vlog】攻击一个深度学习模型有多简单?BadNets告诉你!
【博士Vlog】模型解释哪家强?一篇文章节省你三个月时间!
从零开始手搓一个LLM(一)把参数缩减到足够单卡训练的NanoGPT
1.58-bit 神经网络
【博士Vlog】某篇论文看不懂怎么办?怎么快速理解大意?
【博士Vlog】Mamba奠基的工作讲了什么?SSM和HIPPO的重要性有多高?
【博士详解】Diffusion和GAN是怎么回事?各自有什么优缺点?
改朝换代!Transformer被ko!第一个基于Mamba 的开源模型来了!机器学习/深度学习/人工智能
【博士Vlog】VGG是什么?为什么是卷积神经网络的巅峰之作?
【博士Vlog】做科研内存不够怎么办?如何疯狂加内存?
基于深度学习的整数奇偶性判别算法哈哈哈哈
如何训练一个写小说的大模型?
为什么还是有很多傻der源源不断地涌入计算机视觉?
中国开源1bit大模型量化算法BiLLM来啦 #小工蚁
横空出世的Mamba—要取代Transformer的地位?
[测试] qwen 0.5b 1.8b 7b 14b 模型翻译文本测试 14b 效果不错 7b 可以接受
哦哈哟,大一生耗费一晚,用c语言完全独立编写出贪吃蛇游戏
大模型并发加速部署 解析当前应用较广的几种并发加速部署方案!
神经网络可视化
The Era of 1-bit LLMs by Microsoft
吞吐量惊人提升近30倍!田渊栋团队封神!最新论文解决大模型部署难题(附大模型资源)
虎扑评分之LLM大模型语言模型
【汇报】 Mamba模型及其公式推导
卷积神经网络可视化
[双字] {Gemini}将不展示{C++}代码给<低龄儿童>: 因为[不安全]
怎么样才叫科研能力强
多目标优化:帕累托最优(Pareto Optimality)
用Python训练AI玩2048到底多丧心病狂,十几秒光速合成
【补档】大语言模型(LLM)是否终结了自然语言处理(NLP)领域?【演讲解读02】
微软把LLM里矩阵参数全改为-1、0、1。解决了一大难题
双4090部署qwen72b大模型 每秒150tokens
什么是支持向量机?最通俗易懂的解释和实例!
一个公司强迫我用C语言写HTTP服务器
2024年最强AI:教学界的Sora诞生,老师不存在了!
闲聊:我如何从零基础实现一个月内掌握大模型!跟着我学,你也可以轻松弯道超车~
我们成功了!把多模态大模型和机械臂结合到一起,效果很惊艳!