【GPT背后的技术】Transformer模型入门简介，最清晰的解释。不涉及数学公式和神经网络的基础知识

发布人

Transformer模型入门简介
ZHIYUAN SHEN   https://blog.csdn.net/shenyang2  
本篇讲解试图从最浅显的角度来让大家 了解模型，不涉及到任何数学公式和神 经网络的基础知识。 

为什么TRANSFORMER 模型这么重要？ 可以说现在所有火爆的大语言模型都是基于transformer 架构进行了优化。 由Transformer论文衍生出来的大语言模型， 主要有三条技术路线。 • Encoder-Only： 以谷歌的BERT为代表。 • Encoder-Decoder： 以Meta的BART、谷歌的T5、清华大学的GLM为代表。 • Decoder-Only： 以OpenAI的GPT、谷歌的Bard、Meta的LLaMA、 DeepMind的Chinchilla、Anthropic的Claude为代表

大语言模型（LLM）的两个特点  以逐字逐词的方式构建文本。 (Next Token Prediction） 而不是像人类这种先形成一个基本思想，然后逐步细化和添加单 词的构建句子和思维的方式。 大力出奇迹。 猩猩无论如何训练，都无法成为人类，主要是因为它缺乏足够数 量的脑细胞。 模型的参数数量以十亿级别计算。几十亿参数的模型只能被视作 练手的玩具。 - GPT-3.5模型的参数量为1750亿； - Meta目前提供有70亿、130亿、330亿和650亿四种参数规模 的LLaMA模型。 - ChatGLM-6B 具有 62 亿参数， ChatGLM-130B有1300亿个参数 


Transformer模型由多个模块组成，每个模块都有着特定的功能，并共同协作以理解文本并生成下一个单词。以下是这些模块的简要介绍：
总结

Tokenization （分词）：将文本中的单词转化为标记（tokens），以便模型能够处理和理解它们。
Embedding（嵌入层）：将标记转化为数字（向量）表示形式，使得模型可以对其进行计算和处理。嵌入层将每个标记映射到一个高维向量空间中，捕捉单词之间的语义关系。
Positional encoding（位置编码）：为文本中的每个单词添加顺序信息，解决单词顺序对于模型的重要性。通过位置编码，模型能够区分不同单词在句子中的位置，从而更好地理解上下文关系。
Transformer block（变换器块）：是Transformer模型的核心组件，由一个注意力块和一个前馈块组成。
Attention(注意力块）：用于为文本添加上下文信息，捕捉不同单词之间的依赖关系。
Feedforward（前馈网络）：则用于对注意力块的输出进行进一步的非线性变换，以产生对下一个单词的预测。
Softmax（归一层）：将模型预测的分数转化为概率分布，以便进行下一个单词的采样。通过对分数进行归一化，Softmax层将其转化为概率值，使得模型能够选择概率最高的单词作为预测输出。

通过不断重复上述步骤，Transformer模型能够生成令人惊叹的文本，具备强大的文本理解和生成能力。

关于Transformer 模型和人工智能的几点思考
为何Transformer模型可以产生智能？
记忆之地：LLM如何存取知识
规模效应：当LLM越来越大时会发生什么
模型规模的差异：更大的模型，更清晰的世界

Transformer模型学习路径推荐

What Are Transformer Models and How Do They Work?， 中文版面向初学者的科普文章，不涉及到任何数学公式。本PPT的内容也大部分来源于此。
The Illustrated Transformer， 中文版Transformer模型最出名的科普文章，介绍了模型的原理，架构还有数学公式。作者是Jay Alammar。

Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT周磊(July)老师的科普文章，更系统地介绍了模型和其所依赖的体系知识。
从零实现Transformer、ChatGLM-6B、LangChain+LLM的本地知识库问答周磊(July)老师的科普文章，从代码实现的角度加深对模型的认识。而且更有ChatGLM和Langchain的代码分析。
Transformer论文逐段精读李沐老师关于transformer论文的精彩视频解读。

Attention is All You NeedTransformer模型的原始论文。
世界的参数倒影：为何GPT通过Next Token Prediction可以产生智能张俊林老师对于LLM语言一些更深层次的思考和总结

打开封面下载高清视频观看高清视频视频下载器

【GPT背后的技术】Transformer模型入门简介 ，最清晰的解释。不涉及数学公式和神经网络的基础知识

【GPT基础】【解读】什么是transformer模型及其工作原理

【官方双语】ChatGPT背后是什么模型和原理？详细阐述decoder-only transformer模型！

【MinGPT】 【从零实现GPT】 根据红楼梦训练GPT

【官方双语】Transformer模型最通俗易懂的讲解，零基础也能听懂！

2024最新模型Mamba详解，mamba模型及其公式推导及其论文速读，你要的全都有！不愧是火爆的MAMBA，简直太好用了！-北京邮电大学/清华大学

2024最新《生成式人工智能导论》台大李宏毅主讲！草履虫都能听懂！建议收藏！（人工智能、机器学习、图像处理、神经网络、计算机视觉）

Aligner: 一种基于残差思想的大语言模型对齐器（组会分享）

秒懂！图神经网络！一口气带你学完（图卷积、PYG、图注意力机制、图相似度）真的简单易懂！建议收藏！

【国内白嫖】6月25日最新ChatGPT4.0

75、Llama源码讲解之RoPE旋转位置编码

最新开源大语言模型GLM-4模型详细教程—环境配置+模型微调+模型部署+效果展示

阿里大佬耗时6个月终于把AI大模型录成了完整的视频教程，通俗易懂，学完即可入职，挑战年薪百万！

借助GPT洞察B站视频内容插件--Bili-Insight 它可以让你不用点开视频，更快地了解视频的总结内容。 ChatGPT Langchian 加持

探索ChatGPT与大型语言模型(LLMs)背后的技术

【研1基本功 （真的很简单）Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)

论文精读+代码复现！【transformer与卡尔曼滤波算法】保姆级入门教程！2小时带你彻底学透人工智能两大算法！太强了！（人工智能、深度学习、神经网络、AI）

AI 大模型周报 2024年6月 a

建议人工智能NLP方向学子死磕这套课程—三大核心算法Huggingface+Transformer+BERT基础原理及代码实战，绝对通俗易懂！

神经网络 输出层 softmax

2024智源大会 袁进辉 AI系统领域还有哪些重要的问题？

这可能是全网最通俗易懂的transformer原理刨析！

（强推）Transformer模型最通俗易懂的讲解，零基础也能听懂！看计算机大佬如何讲解Transformer原理！（人工智能、深度学习、机器学习、图像处理）

当前计算机行业热度超高的就业方向！北大博士后手把手带你从零到一掌握大模型预训练及微调，简直不要太好懂！

Chat GPT 更新了，重新认识

使用Python和Transformer模型来进行自然语言处理

【国内白嫖】6月28日最新ChatGPT4.0

训练自己的ChatGPT， 模型微调是什么/为什么/怎么办

吹爆！基于GNN+Transformer的驾驶轨迹预测教程，论文详解+代码实现，华理博士手把手带你解读自动驾驶的奥秘，通俗易懂——人工智能/深度学习/神经网络

Gpt-4O越狱咒语分享 ChatGPT越狱 最牛的无内容审核大语言模型 无限制使用Gpt-4O 不得用于非法用途

强推！这可能是B站最全的（Python＋机器学习＋深度学习）系列课程，从入门到精通，通俗易懂，还学不会我退出IT界！AI人工智能|神经网络|项目实战

吴恩达大模型系列教程：2024年6月 《构建你自己的数据库智能体|Building Your Own Database Agent》（附代码课件）

Andrej Karpathy《让我们复现GPT-2 (124M)|Let's reproduce GPT-2 (124M)》中英字幕

【国内白嫖】6月21日可免费无限制使用的ChatGPT4.0o网站。免登录就可以直接，值得你拥有！

第二十三课：多维度混合并行自动搜索优化策略丨时间损失模型及改进多维度二分法

【Transformer公开课】让你深入理解transformer模型优化 transformer原理 模型架构 代码讲解，搞定面试！

ICLR'24 | DiffTF：基于Transformer的SOTA大词汇3D物体生成-上篇

我读过逻辑最清晰的论文！Transformer霸主光环下卷积神经网络最后一次逆袭！ConcNeXt讲了什么？

【国内白嫖】6月20日可免费无限制使用的ChatGPT4.0网站。免登录就可以直接，值得你拥有！

【全368集】强推！2024最细自学机器学习全套教程，一口气学完十二大机器学习算法，线性回归、逻辑回归、梯度下降、SVM支持向量机、随机森林、决策树、贝叶斯

【肝疯了！】2024最详细大模型自学路线整理来啦！迪哥手把手教你最高效的大模型学习方法，轻松搞定AIGC大模型！（大模型训练/大模型微调）

【GPT背后的技术】Transformer模型入门简介，最清晰的解释。不涉及数学公式和神经网络的基础知识

【MinGPT】【从零实现GPT】根据红楼梦训练GPT

【研1基本功（真的很简单）Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)

神经网络输出层 softmax

2024智源大会袁进辉 AI系统领域还有哪些重要的问题？

训练自己的ChatGPT，模型微调是什么/为什么/怎么办

Gpt-4O越狱咒语分享 ChatGPT越狱最牛的无内容审核大语言模型无限制使用Gpt-4O 不得用于非法用途

吴恩达大模型系列教程：2024年6月《构建你自己的数据库智能体|Building Your Own Database Agent》（附代码课件）

【Transformer公开课】让你深入理解transformer模型优化 transformer原理模型架构代码讲解，搞定面试！