暴力测试：AI能否代替人的岗位

豆抖大人2026-03-19 10:10:43

暴力测试AI到底能不能代替人的岗位？

香港大学开发os world，设计了369个真实场景的任务，以及跨多个应用程序的工作流程。在各种操作系统上测试AII的真实能力，包括但不限于用浏览器搜索特定信息，用软件进行电子表格编辑，使用dip进行图像编辑，以及使用VS code进行代码编辑和项目管理。并且我们可以实时通过桌面看模型的真实水平。

参与实验的模型包括了GPT4v Germany pro cloud 3o twice，基本上主流大模型都包括了。研究人员发现，在某些任务上，GPT4V模型的表现相对较好，但即使是GPT4V也只能完成大约12.24%的任务，远低于人类操作者超过72.36%的成功率。Mix RROOCOG agent这些开源社区的模型在os role任务上的表现成功率较低。

据论文介绍，大模型们面临的问题包括，模型难以准确的在屏幕上定位并执行精确的鼠标点击操作。在理解和执行涉及特定软件操作的任务时遇到困难，尽管模型能够处理文本输入，但在处理截图和基于图像的输入时仍然存在挑战，并且模型在需要长期规划和记忆的任务中表现不佳。

总的来说，人类暂时安全了抖音。
在当今科技飞速发展的时代，AI的能力备受关注。许多人担心AI会取代人类岗位。这里有一份关于AI能否替代人类岗位的攻略。深入探讨AI在不同任务中的表现，像香港大学进行的测试，涉及多种操作系统和任务场景。分析主流大模型如GPT4V等的能力，了解它们能完成的任务比例以及面临的问题，比如屏幕定位、软件操作理解等困难。通过这些内容，帮助大家清晰认识AI与人类岗位的关系，让你在这个科技浪潮中对自身职业发展有更明确的方向和判断，不再盲目担忧，而是理性看待AI对工作领域的冲击与机遇。
AI,岗位替代,香港大学,模型测试,大模型问题
[Q]：香港大学开发的os world测试了什么？
[A]：测试了369个真实场景任务及跨多个应用程序的工作流程。
[Q]：参与实验的模型有哪些？
[A]：包括GPT4v Germany pro cloud 3o twice等主流大模型。
[Q]：GPT4V模型在任务中的表现如何？
[A]：能完成约12.24%的任务，远低于人类72.36%的成功率。
[Q]：开源社区的模型在os role任务上表现怎样？
[A]：成功率较低。
[Q]：大模型面临哪些问题？
[A]：难以准确屏幕定位、执行鼠标点击，理解特定软件操作困难等。
[Q]：大模型处理图像输入存在什么挑战？
[A]：处理截图和基于图像的输入时仍有挑战。
[Q]：大模型在长期规划和记忆任务中表现如何？
[A]：表现不佳。
[Q]：人类目前在岗位替代方面安全吗？
[A]：目前人类暂时安全。