大神Andrew capacity课程：监督微调STF的原理介绍

豆抖大人2025-12-14 23:13:45

我们继续来看大神Andrew capacity的课程。

上一个视频我分享的pre training预训练的原理。这个视频呢我给大家介绍一下监督微调STF的原理。

在这个视频监督学习介绍完之后呢，下一个视频还会给大家介绍强化学习大神有提到在OpenAI的工作逻辑里面，对于预训练、监督学习和强化学习都会分成不同的组。有一个专门的工作组是负责预训练的，他们会从互联网上抓取预训练的数据去做organization。然后在整个神经网络训练的过程中呢，会去调整模型的参数。通过推理，我们从一串有上下文的token中去推理出来下一个token的值。这个是预训练的团队工作的内容。

对于监督学习的团队的工作内容呢，也就是我现在这个视频要给大家主要介绍的大神。在他的课程里面也是花了1个小时时间来介绍这个部分，我们也快速的给大家讲解一下。

首先跟大家分享我印象比较深的点。第一个是当我们在预训练阶段得到了很多互联网的文档采样之后。第二个阶段监督微调，我们主要是去做对话的训练。所有的训练的token都会以人类的工形式来存在。在训练的过程中模型会有幻觉。所以如果我们想要得到一个很好的助力，那我们有一些方式来避免模型的幻觉。

第二个印象比较深的是模型参考了人类的心理学。模型参数中的这些知识就像人类的模糊的记忆一样，它是一种长期记忆。上下文窗口中的知识呢就像人类的工作记忆一样，它是清晰的、短期的，可以立即的处理当前的任务。这个还挺有意思的。神经网络确实跟人类大脑的工作原理有一些相似。

第三个印象比较深的是模型的局限，模型的count算术不是很厉害。一会儿后面我也会给大家详细的讲讲它为什么不厉害。

那我们在正式的进入到具体的内容分享
《探索预训练、监督微调及强化学习：全面攻略助你深入理解》

在当今数字化时代，预训练、监督微调及强化学习成为热门话题。预训练如同为模型打下坚实基础，从海量数据中汲取知识。监督微调则是进一步优化，让模型更贴合特定任务。强化学习赋予模型自主学习与决策能力。

预训练阶段，模型从互联网抓取数据，调整参数，为后续学习蓄力。监督微调时，利用人工标注对话数据集训练，使模型掌握对话技巧。强化学习让模型在实践中不断进化。

然而，模型也有局限。比如存在幻觉现象，可通过添加事例、让模型搜索来减少。模型的算术能力不足，复杂计算最好借助工具。

了解这些知识，能助你更好地运用模型。在实际应用中，根据任务需求选择合适的训练方式，提升模型性能。无论是处理文本、图像还是其他任务，都能更高效地实现目标。掌握这一体系，让你在数字化浪潮中占据优势，开启智能之旅。
预训练,监督微调,强化学习,模型幻觉,心理学,模型局限,对话训练,人工标注,大元模型,推理能力
[Q]：什么是监督微调STF？
[A]：监督微调是将预训练的base model转化为助手模型的关键步骤，会使用人工标注的对话数据集进行训练。
[Q]：模型产生幻觉的原因是什么？
[A]：在训练过程中，所有训练的token以人类的形式存在，这可能导致模型产生幻觉。
[Q]：如何减少模型的幻觉？
[A]：可以在训练集中添加模型不知道内容的示例，让模型回答不知道；也可以让模型去搜索，若搜索无结果则返回未搜到。
[Q]：模型的模糊记忆和工作记忆是怎么回事？
[A]：二元模型的知识存储在网络参数里，是对互联网信息的模糊记忆；上下文窗口中的知识像人类工作记忆，清晰、短期，可处理当前任务。
[Q]：模型在算术方面有什么局限？
[A]：模型的count算术不厉害，处理复杂计算或计数任务可能出错，最好借助工具。
[Q]：怎样解决模型自我认知的问题？
[A]：可以用硬编码方式预置问题和答案，或在系统提示词里添加相关介绍。
[Q]：大元模型在推理方面存在什么问题？
[A]：大元模型推理能力不完全可靠，简单比较大小问题也可能出错。
[Q]：监督学习中人工标注的对话数据集是如何获得的？
[A]：一开始由人工标注员标注，如OpenAI曾雇佣40人团队，从up work或skill AI招聘，标注指南要求助手模型具备特定特点。

豆抖大人2025-12-14 23:13:45