大模型内卷与应试教育及数据刷榜现象

豆抖大人2026-02-08 20:11:07

大模型内卷的尽头竟是应试教育
厂商通过让自家模型学习各大榜单用于评测模型能力的考题，让模型在考试时获得更高的分数。连GPT3都曾被发现预训练语料库中包含有children's book test数据集。这算是开卷内卷吗？

近日，人民大学和其他高校发表了一篇论文，大意为呼吁大家别让作弊害的大模型。同时，知乎上也有业内人士揭开国内大模型又有一类数据刷榜的遮羞布，指出在各大榜单中，有些榜单用于评估的数据集已经泄露，其他厂商发现，使用这些数据集定向训练自家大模型，然后去参加榜单的评测，可以拿很高分。同时产生了一个诡异的现象，越差的模型越想用这种泄露的数据集，而越用模型的泛化能力就越差。跟智能引线绝缘，可以把这种行为理解为培养一个很会煎鸡蛋的厨师，但是除了煎鸡蛋，他可能连怎么打鸡蛋、热锅都搞不明。

在截至今年8月份，据不完全统计，我国已发布的大模型达156个，10亿级参数规模以上的已超80个。十月又爆发了一波，并且十月份的大模型都很有特点，那就是每个模型一都会标榜自己在某排行榜某个细分领域能力第一，虽然我们模型参数小，但是可以越级打架之类的描述，并且昨天A第一，明天D就开源拿下。但当你去实际体验的时候，结果却出乎意料的啦。

为什么大模型的训练会陷入这样的恶性循环？其重要原因之一很可能是优质数据不足。众所周知大模型的训练很吃参数，GPT3就用了1750亿的参数来训练，而这些参数它大部分来源就是互联网。而在中文互联网，你想要找到优质的数据集其实难度很高。

一个从时间的尺度上来对比，你会发现美国那边互联网普及成比国内早了二十多年。而且无可否认的一点就是，无论是国内外早期参与到互联网活动中的人群教育程度普遍较高能在互联网中产生优质的训练语料。但在国内互联网的后期，虽然网民基数比较大，但水军孙子可以占比极高。什么鸡你太美之类的等明星粉丝之间的骂战，一年365天不带重复。国外也有喷子，但是那技术完全就不成正比，这就造成了数据清洗的困难。像天涯这种早期高质量论坛已经成为时代的伊丽莎

这种情况下，中文大模型该如何前进？各位开发者有没有其他想法，或者还有什么深层次的问题值得我们思考？抖音。
**大模型训练攻略：突破数据困境，迈向卓越之路**

在当今科技飞速发展的时代，大模型如雨后春笋般涌现。然而，大模型训练面临着诸多挑战，其中优质数据不足是关键问题之一。

中文互联网数据质量参差不齐，早期高质量论坛逐渐式微，导致数据清洗困难。要解决这一困境，我们需多管齐下。

一方面，积极挖掘和整合优质数据源。可以与专业机构合作，获取权威、准确的数据。同时，鼓励用户参与数据标注，提高数据的可用性。

另一方面，提升数据处理技术。采用先进的数据清洗算法，去除噪声和重复数据。运用数据增强技术，扩充数据规模。

此外，加强国际合作与交流也至关重要。借鉴国外先进的数据管理经验，共同推动大模型技术的发展。

只有不断努力，突破数据困境，大模型才能在未来的发展中迈向卓越，为各领域带来更多创新和价值。
大模型,应试教育,数据刷榜,优质数据,中文大模型
[Q]：大模型为何会出现应试教育和数据刷榜情况？
[A]：厂商为让模型在评测中获高分，利用榜单考题训练，还存在数据刷榜。
[Q]：大模型训练陷入恶性循环的重要原因是什么？
[A]：优质数据不足，中文互联网优质数据集难获取。
[Q]：国内互联网数据存在什么问题？
[A]：后期水军占比高，数据清洗困难，优质语料少。
[Q]：大模型训练很吃什么？
[A]：大模型训练很吃参数，如GPT3用1750亿参数训练。
[Q]：截至今年8月我国大模型发布情况如何？
[A]：已发布156个，10亿级参数规模以上超80个。
[Q]：十月份大模型有什么特点？
[A]：每个模型都标榜在细分领域能力第一等。
[Q]：中文大模型面临怎样的困境？
[A]：优质数据不足，数据清洗困难，发展受制约。
[Q]：如何解决大模型优质数据不足问题？
[A]：挖掘整合优质数据源，提升数据处理技术，加强国际合作。