GPT5的使用体验：图片、视频及复杂任务处理

豆抖大人2025-12-19 10:55:44

看GPT5已经全面替换了之前的所有模型，4O呢已经成为过去。我们期待了两年的GPT5啊，经历了无数次难产之后终于来了。现在呢我们进来只有GPT5和GPT5 stick。从发布到现在啊我用了几轮，最明显的感知就是它对图片的理解更透彻了。这是我为它准备一张图片啊，我说请描述这张图中的所有细节，并推测拍摄场景，推测这张图片拍摄前发生了什么。看它的分析，我觉得还是很牛的，它还能分析视频了，不过分析视频啊，我发现会出错。比如我这次这是我准备的一段视频，我说请帮我分析这段视频中正在发生什么，帮我列出视频中所涉及的人物物品以及人物的动作。看它会说拆分成关键帧进行分析。那这条视频呢是29秒啊，它是拆了1帧，然后呢它接着又来了一个28个视频，相关关键正在光流统计，现在不知道什么意思，呃，反正看着很牛逼的样子。然后呢，它噼里啪啦移动实操作后，结果出来之后，我勒个去啊，这不是前面图片中的分析结果吗？这。呃，再就是它执行复杂任务啊，不需要多轮追问了，它会一次性跨领域的帮我们去完成多部的任务。我给它准备了一份微软前段时间发布的一篇PDF文件啊，我说呢请根据我提供的PDF文件帮我提炼要点，翻译成中文，生成120秒的中文口播稿，最后帮我生成监测字幕。这种呢以前需要多轮执行的任务，它现在可以一气呵成。现在还有个厉害的四号的时候呢，让我最痛的就是它的上下文记忆能力。前面我刚说过的话，几番对话之后啊，它就会忘掉。输出的结果中呢就好像我前面从来都没有跟它说过这样的话一样。就比如我在执行一次任务的时候，我跟它说我这个项目部署在这个文件夹，请你后续输出命令的时候给予我的真实目录，帮我输出命令，便于我直接复制粘贴。那不到3种任务它就又会输出，请你用真实的目录替换。这两天用下来啊，反正感觉是好了很多。我说一次后呢它就能记住很久。代码修复和解释能力啊在发布会上说呢也强了很多，但是我还没有去测，朋友们可以去试试啊。
### GPT5使用攻略

GPT5是一款强大的语言模型，在很多方面都有出色表现。

在图片理解上，它能精准描述细节并推测拍摄场景。比如给它一张图片，它能详细说出图中所有细节，还能推测拍摄前发生了什么。

视频分析方面，它会尝试拆分关键帧进行分析。像一段29秒的视频，它拆了15帧，还会进行光流统计等操作。不过有时分析视频会出错。

执行复杂任务时，它无需多轮追问，能一次性跨领域完成多项任务。例如根据PDF文件提炼要点、翻译、生成口播稿和监测字幕等。

但它的上下文记忆能力还有待提高。几番对话后，之前说过的话容易被忘掉。比如执行任务时提到的项目目录，几次任务后就可能不再记得。

代码修复和解释能力据说也有所增强，大家可以亲自去测试体验一番，充分发掘GPT5的各种功能，让它更好地为我们服务。
GPT5,图片理解,视频分析,复杂任务,上下文记忆
[Q]：GPT5对图片的理解能力如何？
[A]：能精准描述细节并推测拍摄场景及拍摄前发生的事。
[Q]：GPT5分析视频的表现怎样？
[A]：会拆分关键帧分析，但可能出错。
[Q]：GPT5执行复杂任务有什么变化？
[A]：无需多轮追问，能一次性跨领域完成多项任务。
[Q]：GPT5的上下文记忆能力怎么样？
[A]：几番对话后容易忘掉之前说过的话。
[Q]：GPT5在代码修复和解释能力方面如何？
[A]：发布会上称有所增强，可亲自测试。
[Q]：GPT5分析视频会进行哪些操作？
[A]：拆分成关键帧，还会进行光流统计等。
[Q]：用GPT5处理PDF文件能完成哪些任务？
[A]：提炼要点、翻译、生成口播稿和监测字幕。
[Q]：使用GPT5时对项目目录的记忆情况如何？
[A]：几次任务后可能会忘掉之前设定的目录。