GPT5的使用体验:图片、视频及复杂任务处理

看GPT5已经全面替换了之前的所有模型,4O呢已经成为过去。我们期待了两年的GPT5啊,经历了无数次难产之后终于来了。现在呢我们进来只有GPT5和GPT5 stick。从发布到现在啊我用了几轮,最明显的感知就是它对图片的理解更透彻了。这是我为它准备一张图片啊,我说请描述这张图中的所有细节,并推测拍摄场景,推测这张图片拍摄前发生了什么。看它的分析,我觉得还是很牛的,它还能分析视频了,不过分析视频啊,我发现会出错。比如我这次这是我准备的一段视频,我说请帮我分析这段视频中正在发生什么,帮我列出视频中所涉及的人物物品以及人物的动作。看它会说拆分成关键帧进行分析。那这条视频呢是29秒啊,它是拆了1帧,然后呢它接着又来了一个28个视频,相关关键正在光流统计,现在不知道什么意思,呃,反正看着很牛逼的样子。然后呢,它噼里啪啦移动实操作后,结果出来之后,我勒个去啊,这不是前面图片中的分析结果吗?这。呃,再就是它执行复杂任务啊,不需要多轮追问了,它会一次性跨领域的帮我们去完成多部的任务。我给它准备了一份微软前段时间发布的一篇PDF文件啊,我说呢请根据我提供的PDF文件帮我提炼要点,翻译成中文,生成120秒的中文口播稿,最后帮我生成监测字幕。这种呢以前需要多轮执行的任务,它现在可以一气呵成。现在还有个厉害的四号的时候呢,让我最痛的就是它的上下文记忆能力。前面我刚说过的话,几番对话之后啊,它就会忘掉。输出的结果中呢就好像我前面从来都没有跟它说过这样的话一样。就比如我在执行一次任务的时候,我跟它说我这个项目部署在这个文件夹,请你后续输出命令的时候给予我的真实目录,帮我输出命令,便于我直接复制粘贴。那不到3种任务它就又会输出,请你用真实的目录替换。这两天用下来啊,反正感觉是好了很多。我说一次后呢它就能记住很久。代码修复和解释能力啊在发布会上说呢也强了很多,但是我还没有去测,朋友们可以去试试啊。
### GPT5使用攻略

GPT5是一款强大的语言模型,在很多方面都有出色表现。

在图片理解上,它能精准描述细节并推测拍摄场景。比如给它一张图片,它能详细说出图中所有细节,还能推测拍摄前发生了什么。

视频分析方面,它会尝试拆分关键帧进行分析。像一段29秒的视频,它拆了15帧,还会进行光流统计等操作。不过有时分析视频会出错。

执行复杂任务时,它无需多轮追问,能一次性跨领域完成多项任务。例如根据PDF文件提炼要点、翻译、生成口播稿和监测字幕等。

但它的上下文记忆能力还有待提高。几番对话后,之前说过的话容易被忘掉。比如执行任务时提到的项目目录,几次任务后就可能不再记得。

代码修复和解释能力据说也有所增强,大家可以亲自去测试体验一番,充分发掘GPT5的各种功能,让它更好地为我们服务。
GPT5,图片理解,视频分析,复杂任务,上下文记忆
[Q]:GPT5对图片的理解能力如何?
[A]:能精准描述细节并推测拍摄场景及拍摄前发生的事。
[Q]:GPT5分析视频的表现怎样?
[A]:会拆分关键帧分析,但可能出错。
[Q]:GPT5执行复杂任务有什么变化?
[A]:无需多轮追问,能一次性跨领域完成多项任务。
[Q]:GPT5的上下文记忆能力怎么样?
[A]:几番对话后容易忘掉之前说过的话。
[Q]:GPT5在代码修复和解释能力方面如何?
[A]:发布会上称有所增强,可亲自测试。
[Q]:GPT5分析视频会进行哪些操作?
[A]:拆分成关键帧,还会进行光流统计等。
[Q]:用GPT5处理PDF文件能完成哪些任务?
[A]:提炼要点、翻译、生成口播稿和监测字幕。
[Q]:使用GPT5时对项目目录的记忆情况如何?
[A]:几次任务后可能会忘掉之前设定的目录。
share