直播赛事解说迎来变革,AI学会实时解说体育与游戏竞赛

直播赛事解说迎来至暗时刻,AI终于学会实时解说体育和游戏竞赛。字节跳动shoe lab联合新加坡国立大学发布首个能实时观看视频进行语音解说的大模型live信息。在实时性测试中,AI对视频内容理解的延迟仅0.5秒。喂,release life C, C tie speed, welcome to China tie. 在NBA比赛解说中,模型展现惊人的人类特征和动作识别能力,能及时识别投篮权,并在得分后说出比分情况。Line, fleet, Green, Brooks Thomson, sn gn, here is Thompson. Got it. The rockets lead by gun. 像dota这种团战离开各种角色技能满天飞的视频模型,都能够准确识别角色微操施法者技能释放时机是否合理。Four times PaaS, a radio decreased from 900 to 700, and the data from 5.5s left t优秀的地方在于,当下传统视觉模型看视频都是看完2秒视频写一段解说,不具备实时解说的能力。团队创造流式训练方法,把视频切成2秒1个的小片段,并及时生成对应的文字脚本,营造即时解说的效果。但训练这种泛化能力强的AI需要大量视频画面和高质量解说数据,靠人工标注并不现实。不过研发团队发现,在YouTube上很多解说视频带有自动字幕。团队通过将比赛视频中关键时刻的视频画面和文本截取出来,我也给AI进行针对性训练。比如库里接到传球三分球,尽量避免口水化内容。训练完后的模型大小仅7笔骐,解说质量效果甚至超越72B参数的宽2.5VL和lava video,而且light信息泛化能力极强,在没说明的情况下,让拉CC看笔记本泡水后如何处理的的视频,他能猜测出视频的意图,得每个步骤加上解说。Or you've dropped it in a part of of this is what you need to. The first of all, you're going to need some paper, and you want to use this to wipe down the entire lapa. You'll need a pencil of sw, right? And you want to underscore all the screens on the bottom. Then you can use a hair Dover to dry out the inside of the laptop. 最恐怖的是AI极强的学习能力,能让它短时间内模仿任何解说员的特质,甚至是克隆声,到时候就是一场AI对人类解说员的围剿。目前模型预训练数据集均已在hugging face上开的,有基准模型,也有基于坤二微调的模型,感兴趣的小伙伴可以去了解。
《探索AI实时解说:为体育与游戏竞赛带来全新体验》

在当今的赛事解说领域,AI正掀起一场革命。字节跳动与新加坡国立大学合作推出的大模型,能实时观看视频并进行语音解说。

在体育赛事中,它对视频内容理解延迟仅0.5秒,在NBA比赛解说里,能精准识别投篮权及得分情况。对于像dota这类团战复杂的游戏视频,也能准确判断角色技能释放时机。

传统视觉模型不具备实时解说能力,而新模型采用流式训练方法,将视频切成小片段生成脚本。但训练它需要大量数据,研发团队借助YouTube上带自动字幕的解说视频,进行针对性训练。

训练后的模型效果惊人,大小仅7笔骐,却超越了72B参数的模型,泛化能力极强。其强大的学习能力还能模仿解说员特质,甚至克隆声音。目前模型预训练数据集已在hugging face开放,感兴趣的可去了解。
AI实时解说,体育竞赛,游戏竞赛,大模型,流式训练
[Q]:AI实时解说在体育赛事中有哪些突出表现?
[A]:在实时性测试中,对视频内容理解延迟仅0.5秒,能及时识别投篮权并说出比分。
[Q]:AI对游戏竞赛视频的解说能力如何?
[A]:像dota这种团战复杂的视频,能准确识别角色技能释放时机是否合理。
[Q]:传统视觉模型与新的AI实时解说模型有何不同?
[A]:传统视觉模型看完2秒视频写一段解说,不具备实时解说能力,新模型采用流式训练方法。
[Q]:研发团队如何解决训练AI所需的数据问题?
[A]:利用YouTube上带自动字幕的解说视频,截取关键画面和文本进行针对性训练。
[Q]:训练后的AI模型有什么特点?
[A]:模型大小仅7笔骐,解说质量超越72B参数的模型,泛化能力极强。
[Q]:AI的学习能力会对人类解说员产生什么影响?
[A]:能短时间内模仿解说员特质,甚至克隆声音,可能形成对人类解说员的围剿。
[Q]:在哪里可以获取模型预训练数据集?
[A]:均已在hugging face上开放。
[Q]:模型预训练数据集有哪些类型?
[A]:有基准模型,也有基于坤二微调的模型。
share