【博士Vlog】大语言模型只需要1.58bit？人人都能训练大模型了！极限模型压缩效果反而更好？怎么做到的？ - 视频下载 Video Downloader

【博士Vlog】大语言模型只需要1.58bit？人人都能训练大模型了！极限模型压缩效果反而更好？怎么做到的？

发布人

论文标题：The Era of 1-bit LLMs:All Large Language Models are in 1.58 Bits
搬运自YouTuBe：https://www.youtube.com/watch?v=sYCLHoemri8
原作者：https://www.youtube.com/@phdvlog2024
PS：大家如果对视频有疑问或者想和大佬进行讨论，欢迎大家移步油管。
PPS：由于搬运视频，存在几周的时间差，大佬的最新视频不一定会及时发布，想追大佬的实时动态可以去大佬油管频道。

打开封面下载高清视频观看高清视频视频下载器

【博士Vlog】RF Genesis，雷达领域最新力作，不用雷达就能生成信号，什么原理？

【博士Vlog】如何解释机器学习深度学习？LIME和SHAP方法介绍

无内容审查(NSFW)大语言模型整合包,进阶玩法,角色定制,角色扮演,接入stable_diffusion

BitNet开源：1.58比特让大模型轻如燕，CPU就能跑100B参数

【博士Vlog】攻击一个深度学习模型有多简单？BadNets告诉你！

【博士Vlog】模型解释哪家强？一篇文章节省你三个月时间！

从零开始手搓一个LLM（一）把参数缩减到足够单卡训练的NanoGPT

1.58-bit 神经网络

【博士Vlog】某篇论文看不懂怎么办？怎么快速理解大意？

【博士Vlog】Mamba奠基的工作讲了什么？SSM和HIPPO的重要性有多高？

【博士详解】Diffusion和GAN是怎么回事？各自有什么优缺点？

改朝换代！Transformer被ko！第一个基于Mamba 的开源模型来了！机器学习/深度学习/人工智能

【博士Vlog】VGG是什么？为什么是卷积神经网络的巅峰之作？

【博士Vlog】做科研内存不够怎么办？如何疯狂加内存？

基于深度学习的整数奇偶性判别算法哈哈哈哈

如何训练一个写小说的大模型？

为什么还是有很多傻der源源不断地涌入计算机视觉？

中国开源1bit大模型量化算法BiLLM来啦 #小工蚁

横空出世的Mamba—要取代Transformer的地位？

[测试] qwen 0.5b 1.8b 7b 14b 模型翻译文本测试 14b 效果不错 7b 可以接受

哦哈哟，大一生耗费一晚，用c语言完全独立编写出贪吃蛇游戏

大模型并发加速部署解析当前应用较广的几种并发加速部署方案！

神经网络可视化

The Era of 1-bit LLMs by Microsoft

吞吐量惊人提升近30倍！田渊栋团队封神！最新论文解决大模型部署难题（附大模型资源）

虎扑评分之LLM大模型语言模型

【汇报】 Mamba模型及其公式推导

卷积神经网络可视化

[双字] {Gemini}将不展示{C++}代码给<低龄儿童>: 因为[不安全]

怎么样才叫科研能力强

多目标优化：帕累托最优（Pareto Optimality）

用Python训练AI玩2048到底多丧心病狂，十几秒光速合成

【补档】大语言模型(LLM)是否终结了自然语言处理(NLP)领域？【演讲解读02】

微软把LLM里矩阵参数全改为-1、0、1。解决了一大难题

双4090部署qwen72b大模型每秒150tokens

什么是支持向量机？最通俗易懂的解释和实例！

一个公司强迫我用C语言写HTTP服务器

2024年最强AI：教学界的Sora诞生，老师不存在了！

闲聊：我如何从零基础实现一个月内掌握大模型！跟着我学，你也可以轻松弯道超车～

我们成功了！把多模态大模型和机械臂结合到一起，效果很惊艳！