探索大语言模型底层原理，分享优质课程干货

豆抖大人2026-02-02 17:42:12

最近打算把大语言模型的底层原理都再了解一下。

看了很多的教程发现一个问题。比如说我想了解transformer，很多的教程会上来给你讲这张图是什么意思，太抽象了，根本无法想象。直到我遇到了大神Andrea APPCY的这门课程一共有三个半小时。我把这门三个半小时的课程都听完了，发现全程高能，而且我这样的技术小白竟然也都能听懂。所以我迫不及待的想要跟你分享这门课程。

听这个课程，我做了两个课程笔记。第一个是这个飞书文档，我把里面提到的一些重要的东西都放在这里面了。待会儿呢我也会给你介绍一下这门课程里面预训练阶段都做了什么。我还做了第二个课程笔记，就是用这个工具。这也是Andrew cpsc大神在他的这门课程里面用到的这个工具。我在听课的过程中也跟着他的思路，用这个工具把整个课程笔记画了下来。

这门课程给我印象最深刻的点，第一个就像我前面提到，当我们要去了解transformer的时候，很多的课程都会直接给你讲这个编码器解码器的工作原理。但是在这门课程里面，大神提到，其实我们不需要去了解编码器解码器里面具体的数学公式和详细的原理。而是告诉我们神经网络的组成部分里面有若干个token，还有神经网络中的参数权重。那我们通过一些巨大的数学表达式就可以去生成下一个token。他推荐的这个网站，我们可以直接看到GPT它的整个transformer的过程。我们可以通过放大来看到，这里面每一个环节都是一个数学表达式，这里是我们输出的的编码。然后通过一系列的数学表达式的运算之后，最后输出生成的token。这个就是transformer的整个工作原理。在这个网站我们还能看到GPT two的transformer和GPT three的transformer都是越来越复杂的。

第二个呢就是模型中的参数。其实我们有时候会看到发布了一个GPT2、GPT three这样的模型。那其实这里面最核心的就是不同的模型它们有不同的参数，这些参数都是训练出来的。大神举了一个DJ的一个例子,其实DJ它也是在调这些旋钮，然后不同的旋钮就能够出来不同的音效。神经网络中的参数呢也是同样的原理。

所以这个分享呢我们可以看到，如果我们只是去学transformer，那可能真的听不懂。但是在它的这个分享里面会成体系的来介绍神经网络的整个的原理。然后你就能知道transformer在整个大的体系里面，它完成什么东西，参数它有多重要。这个就是这门课程非常好的地方，你一定要去听。

那接下来呢我会把这门课程里面预训训练的内容给你快速的介绍一下。你听完之后再去听这个三个半小时的原版课程，就可以更快的理解了。

我们先来看一下整个三个半小时的分享就解决一个问题，探索GPT的这个对话框背后的本质。好，所以一上来呢就从模型的预训练阶段开始讲起。

我们可以看这张图，如果我们要得到一个基础模型，那我们就要通过预训练。第一步是下载和处理互联网的数据。我们会看到单元模型的知识来源是一个庞大的互联网文本的数据。像FIVAE这些都包含了非常多互联网的数据。我们互联网整体的数据量很大，但是经过过滤和处理之后呢，实际用于训练的数据集的规模相对是有限的。像find ram它的数据集大约就是44个T这里提到数据的高质量和多样性，绝对是比绝对的数据量级更重要的。

在抓取互联网网页的时候，更多的是在去抓原始文本数据，然后会进行数据清洗和过滤。这里会先做一道链接的过滤，把这些不良来源的链接都过滤掉。这些都是域名的黑名单。过滤完了之后我们会做文本提取。你看在这个网页里面，我们会提取红色部分的这些正文的内容。然后像网页的导航栏这些内容我们就不会提取了。语言过滤这块的话，比如说有的大语言模型，它是专门为英语训练的那它就会主要提取网页中的英语内容。咱们国内的大模型就会去提取中文语言的内容，还会去把个人隐私相关的信息去做删除。整个预处理的成果呢就是最后我们能够得到高质量多样化的文本数据集。

我们通过下载和预处理互联网的数据之后，进入第二步去做toga ization，也就是文本的数据化的表示。大神了一个例子，我们通过看这个例子，我才知道原来数据标记是这么一回事。他提到在organization的这个过程中，可能一开始我们拿到的是一些文本。好，然后我们会对这些文本的底层进行编码。编码了之后我们再从二进制到字节再做一层编码。在这个不停编码的过程中，我们会去压缩序列的长度。最后呢像GPT four它就最终使用了10万277个符号。在这个网站里面我们可以看到GPT four它将一个文本会转成两个token，然后以及这两个token对应的ID。当我们输入一段文字给到GPT four的时候，其实对于模型来说，它背后看到的是多少个token，以及对应的token ID。

我们把这tonight ation这一步做完之后呢，我们会进入神经网络训练。在这里我们也可以看到这四个单词儿。再下一步神经网络它会去经过训练之后，推理出来它下一个单词是哪个，以及给到不同的概率。那神经网络训练的过程就是去把正确的答案的概率提高的过程，这个也是数据标记师要做的工作。

所以我们可以看到这张图是有一个token序列的输入，也就是模型的上下文。然后再去预测下一个token的概率分布。神经网络一开始参数是随机的，预测也是随机的。我们通过神经网络的训练过程，就是去不停的迭代更新我们的参数，调整预测的结果。我们最希望出现的这个词的概率是最高的那它调出来的参数就可以支持能够预测出来这样的概率。

看一下我前面已经分享过了。神经网络的组成输入的序列呢是由若干个token组成的。这些token的数量是可以变化的，从零到某个最大的数量。比如说8000个token，也就是模型可以支持的最大的token值。有时候我们去问AI的时候，它的答案长度是有限的那这个就是一个token的限制。

下面是神经网络中的参数权重，这个里面提到了我们去做神经网络训练，最后就是要得出一套参数，比如说GBT two，它训练完了之后开源出来。那其实这里面主要就是在开源它的参数，有token序列的输入以及参数的输入。然后再经过一个巨大的数学表达式，最后就可以去生成一个token，这个就是大元模型推理出来的东西。

然后我们可以看推理啊，当一个序列推理出来的一个token之后，这个token会加入这个序列，成为模型的上下文。再继续去推理出来下一个token，这个就是模型推理的过程，它是有上下文的那这些ID是什么意思呢？我们可以通过这个模型来看到这些ID就是这一段英文，它的含义就是这几个单词。

在我的这份笔记里面，神经网络的内部结构就是transformer，它有参数数学表达式和transformer的架构。这个刚才我也介绍过了，非常好，可以帮我们快速的去理解transformer。

在神经网络的推理阶段，主要是去生成文本，这个过程刚才也介绍过了。

到这里呢大神给了我们一个demo，就是去做GPT two的训练。哎，很难得啊，我们可以去围观一个大元模型是怎么样训练出来的。大神GitHub的文章里面有提到，训练一个GPT two的话需要24个小时，672美元。但是其实在19年的时候，训练GPT two的成本是4万美元。在他24年发布这个文章的时候，成本已经大大的降低了。成本变低的原因呢主要是我们前面看到的训练数据的质量大大提高了，还有硬件和软件的技术进步。这样我们现在训练模型的成本就越来越低了。

好，这里面是演示了训练一个GPT two模型的过程。这个过程呢它其实就是去改变参数的过程。其实也不是人在手工的一个个的搞，而是通过这个系统模型在自己训练。我们可以看到这个训练的过程一共有32000步，每20步会去做一轮的检查。这里面会关注一些数字，对核心关注的数字是损失值。我们可以看到模型从第1步到20步开始训练的时候，推理出来的文本还是比较随机的当训练到400步的时候，已经是一个相对有逻辑的一段文本了。你看这里提到当年32000步都跑完了，模型被训练成生成连贯英英语的水平,并且他在KK的传输上面非常准确。训训练模型呢一般我们用自己的电脑是没有办法完成的，会去购买一些云端的设备，这些设备最主要的是在用英伟达的GPU，可以看看神经网络的。就提到神经网络之所以发发展起来了，就是因为一开始他们在谷歌的实验室用GPU去训练的时候，发现效果非常的好。可以看现在基本上都是会采用英伟达的GPU来训练。

GPU呢非常适合训练神经网络。神经网络的计算量很大，而且存在并行计算，可以让很多独立单元同时工作来解决训练神经网络底层使用的矩阵乘法运算。比如说这一块1H100，实际上会把很多块的H100放在一起去成为一个数据中心。他们就可以同时训练，所有的大型科技公司都非常需要这些GPU来训练单元模型。这也是为什么英伟达的股价在这两年一飞冲天。对于训练模型来说，最关键的就是要有足够多的GPU去训练模型，预测下一个token，这是一个计算工作的流程，非常的昂贵。像这个新闻里面提到马斯克，它的数据中心获得了10万个GPU，这就是一件大事儿。它的算力变大了，它就有更多的可能性。

当GPT two的模型发布的时候，其实主要就是发布模型的参数和模型的代码。这里是GitHub上面GPT two的代码库和15亿个参数的文档。

看到这里呢非常感谢大神用那么短的时间让我去体验了一把去训练一个单元模型的实际的过程。真的眼见为实。如果我只是去听一些理论，可能是无法想象的。真正的看到他去演示怎么去训练，打开这个盲盒，看看里面究竟是怎么去运作的。这样我对单元模型的基本原理才会更加的理解。

然后到这里呢，这门课程就有1个小时，你想1个小时的容量能够讲那么多的东西，真的是全程干货。

讲完base model之后呢，会去讲训练后的处理阶段，post training这个阶段我就不再继续详细介绍了，因为内容特别多，干货特别多。

如果你也想要去了解单元模型的底层原理，这门课程去听听看吧。抖音。
《大语言模型基础攻略：探秘Transformer与预训练核心要点》

在当今数字化时代，大语言模型如Transformer备受瞩目。想要深入了解其底层原理？这里有一份超实用攻略。

首先，Transformer是大语言模型的关键组成部分。它的工作原理基于神经网络，通过参数权重的调整来实现强大的语言处理能力。

预训练阶段更是重中之重。它从海量互联网数据入手，经过严格的清洗、过滤和处理，确保数据的高质量与多样性。这一过程不仅提升了数据的可用性，还为模型的精准训练奠定了坚实基础。

理解Transformer的核心概念，掌握预训练的关键步骤，你将在大语言模型的学习中迈出坚实步伐。快来开启这场知识探索之旅吧！
大语言模型,transformer,预训练,神经网络,参数权重
[Q]：大语言模型的底层原理是什么？
[A]：大语言模型的底层原理基于神经网络，包含Transformer等关键部分，通过参数权重实现语言处理。
[Q]：Transformer的工作原理是怎样的？
[A]：通过神经网络中的若干token和参数权重，经数学表达式生成下一个token。
[Q]：预训练阶段包括哪些步骤？
[A]：先下载和处理互联网数据，过滤不良链接、提取文本、进行语言过滤，得到高质量数据集；再进行文本的数据化表示，即togaization。
[Q]：数据处理时如何保证质量和多样性？
[A]：过滤不良链接，提取正文内容，根据模型语言需求提取相应语言文本，删除隐私信息。
[Q]：文本的数据化表示具体做什么？
[A]：对文本底层编码，从二进制到字节再编码，压缩序列长度，如GPT four最终使用特定数量符号。
[Q]：神经网络训练的目的是什么？
[A]：提高正确答案的概率，通过迭代更新参数，调整预测结果。
[Q]：训练模型为什么要用英伟达的GPU？
[A]：GPU适合训练神经网络，计算量大且支持并行计算，能解决底层矩阵乘法运算。
[Q]：训练GPT two模型需要多久和多少成本？
[A]：训练GPT two需24小时，成本672美元，相比19年大幅降低。