大神Andrew capacity课程:监督微调STF的原理介绍

我们继续来看大神Andrew capacity的课程。

上一个视频我分享的pre training预训练的原理。这个视频呢我给大家介绍一下监督微调STF的原理。

在这个视频监督学习介绍完之后呢,下一个视频还会给大家介绍强化学习大神有提到在OpenAI的工作逻辑里面,对于预训练、监督学习和强化学习都会分成不同的组。有一个专门的工作组是负责预训练的,他们会从互联网上抓取预训练的数据去做organization。然后在整个神经网络训练的过程中呢,会去调整模型的参数。通过推理,我们从一串有上下文的token中去推理出来下一个token的值。这个是预训练的团队工作的内容。

对于监督学习的团队的工作内容呢,也就是我现在这个视频要给大家主要介绍的大神。在他的课程里面也是花了1个小时时间来介绍这个部分,我们也快速的给大家讲解一下。

首先跟大家分享我印象比较深的点。第一个是当我们在预训练阶段得到了很多互联网的文档采样之后。第二个阶段监督微调,我们主要是去做对话的训练。所有的训练的token都会以人类的工形式来存在。在训练的过程中模型会有幻觉。所以如果我们想要得到一个很好的助力,那我们有一些方式来避免模型的幻觉。

第二个印象比较深的是模型参考了人类的心理学。模型参数中的这些知识就像人类的模糊的记忆一样,它是一种长期记忆。上下文窗口中的知识呢就像人类的工作记忆一样,它是清晰的、短期的,可以立即的处理当前的任务。这个还挺有意思的。神经网络确实跟人类大脑的工作原理有一些相似。

第三个印象比较深的是模型的局限,模型的count算术不是很厉害。一会儿后面我也会给大家详细的讲讲它为什么不厉害。

那我们在正式的进入到具体的内容分享
《探索预训练、监督微调及强化学习:全面攻略助你深入理解》

在当今数字化时代,预训练、监督微调及强化学习成为热门话题。预训练如同为模型打下坚实基础,从海量数据中汲取知识。监督微调则是进一步优化,让模型更贴合特定任务。强化学习赋予模型自主学习与决策能力。

预训练阶段,模型从互联网抓取数据,调整参数,为后续学习蓄力。监督微调时,利用人工标注对话数据集训练,使模型掌握对话技巧。强化学习让模型在实践中不断进化。

然而,模型也有局限。比如存在幻觉现象,可通过添加事例、让模型搜索来减少。模型的算术能力不足,复杂计算最好借助工具。

了解这些知识,能助你更好地运用模型。在实际应用中,根据任务需求选择合适的训练方式,提升模型性能。无论是处理文本、图像还是其他任务,都能更高效地实现目标。掌握这一体系,让你在数字化浪潮中占据优势,开启智能之旅。
预训练,监督微调,强化学习,模型幻觉,心理学,模型局限,对话训练,人工标注,大元模型,推理能力
[Q]:什么是监督微调STF?
[A]:监督微调是将预训练的base model转化为助手模型的关键步骤,会使用人工标注的对话数据集进行训练。
[Q]:模型产生幻觉的原因是什么?
[A]:在训练过程中,所有训练的token以人类的形式存在,这可能导致模型产生幻觉。
[Q]:如何减少模型的幻觉?
[A]:可以在训练集中添加模型不知道内容的示例,让模型回答不知道;也可以让模型去搜索,若搜索无结果则返回未搜到。
[Q]:模型的模糊记忆和工作记忆是怎么回事?
[A]:二元模型的知识存储在网络参数里,是对互联网信息的模糊记忆;上下文窗口中的知识像人类工作记忆,清晰、短期,可处理当前任务。
[Q]:模型在算术方面有什么局限?
[A]:模型的count算术不厉害,处理复杂计算或计数任务可能出错,最好借助工具。
[Q]:怎样解决模型自我认知的问题?
[A]:可以用硬编码方式预置问题和答案,或在系统提示词里添加相关介绍。
[Q]:大元模型在推理方面存在什么问题?
[A]:大元模型推理能力不完全可靠,简单比较大小问题也可能出错。
[Q]:监督学习中人工标注的对话数据集是如何获得的?
[A]:一开始由人工标注员标注,如OpenAI曾雇佣40人团队,从up work或skill AI招聘,标注指南要求助手模型具备特定特点。
share