大神Andrew capacity课程之强化学习全解析

豆抖大人2026-01-06 21:52:58

我们来看大神Andrew capacity的课程。第三部分强化学习，这也是这个课程的最后一个部分。在课程的第一部分我们了解到了预训练，第二部分我们了解到了监督学习。那现在我们进入课程的第三部分强化学习。我印象最深的点，第一个对于强化学习，大神用一个教材来做了一个类比。预训练的阶段就像是我们教材里面的文字描述给到了我们一些背景的知识。监督学习的阶段就像是教材里面给到了一些练习题和现成的答案。那我们的监督学习其实也就是在模仿人类专家。在强化学习阶段呢，这个教材就给到了我们一些练习题，让我们去尝试不同的方法来给出练习题的答案。印象最深的第二个点是大神花了很长的篇幅来介绍deep thick，deep thick也是一个强化学习的模型，它之所以能够让世界震惊，是因为它是一个开源的模型，而且低成本。Deep thick的论文提到了在强化学习的过程中有涌现的情况出现，这是一个啊哈moment。印象最深的第三个点是大神介绍的RLHF人类反馈强化学习。和我们真正的强化学习对比起来，有人类反馈参与的强化学习，它是一个可可操作的模型，不能无限重复这个过程。意思就是如果它是一个人类参与的强化学习的话，就有可能会出错。但是我们真正的强化学习，那那是可以无限期的去做学习的。而且给出的答案都是明确的，还会有有限的情况出现。那我现在就快速的把强化学习这个部分的内容给大家介介绍一下。是同样的我做了两个笔记，一个是这个白板，还有一份是是这个飞书文档。这个这个文档里面呢，我已经把这个笔记的完整的文档放到了这里。你可以打开这个文档,找到这个地方,下载这个文件,打开这个笔记的网站,把文件拖拽进去,你就能够得到这样的一份可编辑的文件了。听课的过程中,你可以自由的来编辑这个笔记。好,那我们现在直接进入课程的第三部分强化学习。为了介绍强化学习呢,刚才我也给大家介绍过了,大神用了教材来做了类比预训练的过程就是一个阅读教科书获取背景知识的过程。监督学习的过程呢就是大元模型模仿人类专家去回答问题的过程。强化学习的阶段是通过练习题这些实践的问题和反馈奖励信号来提升解题的能力。大神给到了一个例子,我们也是使用这个网站来看一下。这个例子里面提出了一个计算题,给到了4种答案。那究竟哪一种答案是对于大语言模型来说更加talk友好的呢？而且当我们遇到这样的一个问题的过程,看看ChatGPT的回答,它是人类阅读友好的。所以如果我们想要得到正确的答案,究竟哪一个是最优的prompt？作为人类标注员呢,其实我们是不知道哪一个更好的那我们来分析一下这四个prompt究竟哪一个好。我们可以看第四个,它非常的简短,可以节省token。但是呢我们在监督学习里面也了解过,如果我们要求单元模型在单个token上有大量的运算的话,那其实是容易出错的那这这这个例子不是很好,不太适合把这个prompt直接喂给大元模型,这样会诱导大元模型很快的跳过计算过程,让大元模型去心算,这样是容易出错的。我们再来对比第一个和第二个proof,它们都是有计算过程的。但是人类标注员呢也不知道第一个和第二个哪一个更好。我们看第二个,它有计算过程和解释,但是对人类友好呢不代表就是对大元模型也有好。而且这些解释类的token对于语言模型来说没有什么影响,是在浪费token。那既然人类标注员没有办法去得出答案,那怎么办呢？这个是一个普遍的问题,不仅仅是数学题,我们人类的知识不是大元模型的知识。所以我们希望大元模型能够自己去找到合适的token序列。它需要在强化学习和反复实验的过程中,自己去发现哪一些才是合适的。Prompt大神又用这个网站来模拟了一个强化训练的过程。我们可以看到还是这个计算题,第一次让大元模型跑出来一个结果,我们看一下它的结果是对的。第二次再让大语言模型去回答,又给到了一个正确的答案。我们模拟强化学习的过程就是这样的,同一个问题给到大元模型,让大大元模型去回答无数次,甚至有时候会让他去回答100万次。如果大元模型回答100万次会发生什么呢？还是这个计算题的事例让模型回答了15次。绿色是模型给出正确答案的次数,一共四次,红色呢是模型给出错误答案的次数,一共11次。黄色呢代表模型给到了一个非常优秀的答案,它不仅正确,而且还考虑到其他的一些情况。那面对这种情况的话,我们就可以用黄色的这个优秀答案去继续训练模型,更新模型的参数。当然这里还有很多强化学习的细节没有展示,这只是在介绍强化学习的概念。所以我们会发现强化学习的过程呢是模型在回答的过程中自己去找到更好的答案。这些不是人工标注员可以找到的,模型会自己判断找到可靠并且有统计学意义的prompt,并且充分利用模型已有的知识。它其实本质是试错法,让模型去猜测许多不同类型的解决方案,在检查这些方案,强化学习就是模型自己找到正确的答案,而且我们鼓励模型去使用这些正确的答案。调整参数时间越久的话,模型的表现就会越好像是预训练阶段、监督学习阶段都已经很成熟了。那像强化学习的话,它还是一个比较早期的阶段,而且有很多大公司都还没有开源。他们在强化学习这个阶段的参数介绍完了强化学习的这个原理之后呢,大神开始介绍deep thick deep sik开源的强化学习的具体的细节信息。他还把deep sik的论文给我们看了一下,论文链接我也放在这里了。我们看到了大元模型通过强化的学习,不断的提升它解决数学问题的能力。这里给到了一些数学题的类型,大元模型如何去回答它。而且在优化了后期,模型似乎使用了更长的平均回复长度,模型的表现更好了,模型出现了涌现,这是影响上面长度膨胀的原因,这是硬编码做不到的。我们前面也介绍过硬编码就是人类预制的代码,那现在模型自己去涌现了,在这个地方有一个aha moment,我们现在都用过deep sick了,它中间有一个推理过程和一个给人类看到推理结果中间的这个推理过程就是强化学习的结果,它是导致token膨胀的原因。然后deep sik去输出的回答呢是以人类阅读友好的方式来呈现的那我最近用ChatGPT比较多,有时候也想要去了解GPT4O和O3有什么区别。这里面大神也给出了解释,O3的话它就是推理模型,4O是SFT监督学习模型。所以如果我们希望去专注于复杂问题的深度推理和逻辑分析,那我们可以使用GPTO3。如果我们要去解决一些常用的简单问题,那我们用4O就可以了。在我们使用O3的时候,我们会发现GPT它隐藏了它的思维链的过程,就是因为它担心被反向推导出推理的轨迹。大神给到了这样的评价,GPT的推理模型好用deep si的RE也是一个非常可靠的思维模型。它也给出了Google现在的思维模型,也是一种早期的实验性的思维模型。所以强化学习的出现呢是一个令人兴奋的新阶段。关于强化学习了。其实在神经网络单元模型之前,还有一个mind开发的阿尔法go系统。当年他打败了李在石,直接一举成名。他是在围棋这样的封闭的领域里面去做强化学习。我们可以看这张图,在围棋领域里面如果采用紫色的监督学习,去使用大量的围棋棋谱,那AI呢它是不会超过人类的最高水平的。但是如果他去使用强化学习,像阿尔法go里这样的AI那他最后就是可以打败人类。而且他越往上走是跟它的算力相关。但是2025年大元模型的强化学习是处于起步阶段,但是已经能看到强化学习在推理方面的潜力的。所以我们用SFT监督学习去仅仅模仿专家是不够的这里面还有一个很有意思的是,阿尔法go在第37步的时候下了一个人类专家,绝对不会去下了一步棋,这是一个非常罕见的招数。这里还推荐了这个网址,让我们去看一下当时阿尔法go下第37步棋的时候,你在时的反应。那我们前面讲到的这些强化学习,比如像计算题,这些都是可验证的领域。因为他们的答案都是具体的答案,是可以做评分的那还有一些不可验证的领域,像创作、写笑话、作诗,我们怎么去做强化学习的训练呢？这里提到了人类反馈强化学习RLHF。在这里面大神举了一个例子,如果我们去写一个笑话,那我们怎么样给这些笑话打分呢？人类反馈强化学习的方式呢就是在所有的这些生成的笑话里面,让人类标注员来评价哪个笑话好笑,这是不太现实的那有没有一种自动的方法呢？这里提到了RHHF的一种核心思想。如果我们在人力投入无限的情况下,我们是可以去打分的。但是我们是不可能投入那么多的人力的。所以RHF的方法呢叫间歇性的加入人类。第一步是让人类去评分,比如说在讲笑话的这个例子里面,一共有五个笑话。那人类先对这个笑话进行排序,这一行就是人类的排序。第二步呢是去搭建一个询问奖励模型,让他对这个笑话进行评分。这里也是一个transformer,通过输入人类的评分和笑话去输出分数,把人类排序和奖励模型的打分进行比较。根据对比结果来更新模型的分数。比如说第一名,人类排序第一位的是0点8分,最高这个是ok的。但是人类排序第五位的他得了0点4分,这是不对的。因为前面还有0.1更低分,这个时候我们就要去更新模型。最后让人类排序和模型评分的顺序一致,模型就能够越来越模仿人类的打分了。这就是人类反馈的强化学习。那它是有一些优势的,它可以显著的提升模型的性能,去生成更加符合人类偏好的高质量回答。它也可以降低标注的难度,人类标注员只需要对这个模型的回答进行排序,不需要直接编写理想的答案,这样也降低了标注的难度。还有就是涌现思维链,RLHF训练出的模型能够涌现出类似人类思维链的推理过程,提高复杂问题的解决能力。但是它也有自己的一些局限性,第一个是他会去操作模型,第二个是有时候得分很高的一些样本。它可能是对于人类阅读来说可能是没有任何含义的一些样本,我们称之为对抗样本。虽然它有一些局限呢,但是RLHF它的价值是它仍然是一种有效的微调技术,能够显著提升大元模型的性能,让它更加实用。到这里呢整个强化学习的部分就介绍完了,我们介绍了可验证领域的强化学习,它是全成长模型自己去训练,自己可以无限期的运行的。答案都是明确的。也提到了人类反馈的强化学习,这中间会间歇性的加入人类的干预。这种RLHF的方法呢有自己的优势,也有自己的局限,但是整体上也都是可以让模型更优。强化学习还提到了deep thick,它就是一种强化学习的模型,并且是开源的,训练成本很低。还提到了阿尔法go经典的强化学习的案例打败了人类。在这个课程的收尾部分呢,大神介绍了大元模型的未来能力与发展趋势。大元模型将会具备多模态的能力,不仅能够处理文本,还能原生的处理音频和图像等多种模态的数据。现在我们在音频和图像处理上面的模型能力已经非常好了。智能体未来的大元模型将发展成智能体,能够自主的执行复杂的任务,进行长期规划和执行,并与人类进行更深入的协作。无处不在的隐形化大元模型将更深入的融入各种工具和应用中,成为像计算机一样普及的基础设施。测试时的训练。未来的研究方向呢是希望让模型在测试时也能持续学习和数据,克服当前模型参数固定的局限性。上下文的处理,未来的大元模型需要处理更长的上下文,以应对多模态和长期任务的需求。大神还给到了如何获得一些大元模型相关的资讯信息。第一个是这个网站,我们可以看大元模型的排名。大神说这个排名以前还挺真的,但是现在可能感觉有人在干预数据了,所以可以看看。还有这个网站可以看AI news,这里收录了每一天的AI news信息非常的多啊,人类可能看不完,但是它很全。我还发现从4月25号开始,这个网站它升级了。它现在变成了一个非常正式的去售卖news slender的一个网站,说明他做的很好啊。还有x Twitter上也可以去关注自己喜欢的AI的博主。我们在哪里使用和找到大元模型呢？它给到了专用的网站GPT,我们常用的了还有本地运行的模型的一些工具。因为我自己用不上,所以我就不介绍了,我们就用这种主流的网站就好了。最后的最后,chat b的本质与未来展望,其实我们在课程一开始就提出来了。整个课程是要探讨ChatGPT的这个文本框背后的本质是什么。那现在在课程的最后呢,大神也给到了回答。GPT的本质是OpenAI数据标注员的神经网络模拟器。它模仿人类标注员在遵循OpenAI标注指南的情况下,对各种提示词的理想助手式的回应,这个就是本质。又提到了单元模型的局限性是并非完美,有幻觉,存在一些能力缺陷。我们做用户应谨慎使用,并且进行人工检查和验证。单元模型的优势和未来都给到了非常正面的认可。好,那整个课程就介绍完了。现在对于你来说pre training、预训练、监督学习、强化学习,你的脑海中有没有这张map呢？欢迎找我要这个课程笔记,结合着课程视频一起看。我真的非常强烈推荐你去看,去听听看吧。
### 强化学习攻略：解锁大元模型的智能奥秘

在当今数字化时代，强化学习作为人工智能领域的关键技术，正发挥着越来越重要的作用。它不仅能让模型在不断尝试中提升性能，还能解锁许多令人惊叹的能力。

预训练是强化学习的基石，如同为模型搭建知识框架。监督学习则像是模型的导师，引导其模仿人类专家。而强化学习阶段，模型通过实践问题与奖励信号自我提升。

以解决数学题为例，面对多种答案，如何挑选最优prompt？这需要模型在反复实验中摸索。像deep thick这样的开源模型，以低成本展现强大实力。

人类反馈强化学习RLHF更是一大亮点。它能显著提升模型性能，生成符合人类偏好的回答。但也存在局限性，如对抗样本问题。

阿尔法go在围棋领域的成功，证明了强化学习的潜力。大元模型未来将具备多模态能力，成为智能体，融入生活方方面面。

想深入了解强化学习吗？快来探索这个充满奥秘的领域吧！
强化学习、预训练、监督学习、deep thick、RLHF、阿尔法go、大元模型、GPT、思维链、人类反馈
[Q]：强化学习与预训练、监督学习有何不同？
[A]：预训练提供背景知识，监督学习模仿专家，强化学习通过实践和奖励提升能力。
[Q]：deep thick是什么？
[A]：它是一个开源的强化学习模型，能提升大元模型解决数学问题的能力。
[Q]：RLHF有哪些优势和局限？
[A]：优势是提升模型性能等，局限是会操作模型，存在对抗样本。
[Q]：阿尔法go在强化学习中有什么作用？
[A]：它在围棋领域成功应用强化学习，打败人类，展示了强化学习的潜力。
[Q]：大元模型未来有哪些发展趋势？
[A]：将具备多模态能力，发展成智能体，融入各种工具和应用。
[Q]：如何获得大元模型相关资讯？
[A]：可通过特定网站看排名、AI news，还可在Twitter关注博主。
[Q]：GPT4O和O3有什么区别？
[A]：O3是推理模型，4O是SFT监督学习模型，适用于不同类型问题。
[Q]：强化学习在不可验证领域如何训练？
[A]：如写笑话，采用人类反馈强化学习RLHF，间歇性加入人类干预。

豆抖大人2026-01-06 21:52:58