暴力测试:AI能否代替人的岗位
暴力测试AI到底能不能代替人的岗位?
香港大学开发os world,设计了369个真实场景的任务,以及跨多个应用程序的工作流程。在各种操作系统上测试AII的真实能力,包括但不限于用浏览器搜索特定信息,用软件进行电子表格编辑,使用dip进行图像编辑,以及使用VS code进行代码编辑和项目管理。并且我们可以实时通过桌面看模型的真实水平。
参与实验的模型包括了GPT4v Germany pro cloud 3o twice,基本上主流大模型都包括了。研究人员发现,在某些任务上,GPT4V模型的表现相对较好,但即使是GPT4V也只能完成大约12.24%的任务,远低于人类操作者超过72.36%的成功率。Mix RROOCOG agent这些开源社区的模型在os role任务上的表现成功率较低。
据论文介绍,大模型们面临的问题包括,模型难以准确的在屏幕上定位并执行精确的鼠标点击操作。在理解和执行涉及特定软件操作的任务时遇到困难,尽管模型能够处理文本输入,但在处理截图和基于图像的输入时仍然存在挑战,并且模型在需要长期规划和记忆的任务中表现不佳。
总的来说,人类暂时安全了抖音。
在当今科技飞速发展的时代,AI的能力备受关注。许多人担心AI会取代人类岗位。这里有一份关于AI能否替代人类岗位的攻略。深入探讨AI在不同任务中的表现,像香港大学进行的测试,涉及多种操作系统和任务场景。分析主流大模型如GPT4V等的能力,了解它们能完成的任务比例以及面临的问题,比如屏幕定位、软件操作理解等困难。通过这些内容,帮助大家清晰认识AI与人类岗位的关系,让你在这个科技浪潮中对自身职业发展有更明确的方向和判断,不再盲目担忧,而是理性看待AI对工作领域的冲击与机遇。
AI,岗位替代,香港大学,模型测试,大模型问题
[Q]:香港大学开发的os world测试了什么?
[A]:测试了369个真实场景任务及跨多个应用程序的工作流程。
[Q]:参与实验的模型有哪些?
[A]:包括GPT4v Germany pro cloud 3o twice等主流大模型。
[Q]:GPT4V模型在任务中的表现如何?
[A]:能完成约12.24%的任务,远低于人类72.36%的成功率。
[Q]:开源社区的模型在os role任务上表现怎样?
[A]:成功率较低。
[Q]:大模型面临哪些问题?
[A]:难以准确屏幕定位、执行鼠标点击,理解特定软件操作困难等。
[Q]:大模型处理图像输入存在什么挑战?
[A]:处理截图和基于图像的输入时仍有挑战。
[Q]:大模型在长期规划和记忆任务中表现如何?
[A]:表现不佳。
[Q]:人类目前在岗位替代方面安全吗?
[A]:目前人类暂时安全。
香港大学开发os world,设计了369个真实场景的任务,以及跨多个应用程序的工作流程。在各种操作系统上测试AII的真实能力,包括但不限于用浏览器搜索特定信息,用软件进行电子表格编辑,使用dip进行图像编辑,以及使用VS code进行代码编辑和项目管理。并且我们可以实时通过桌面看模型的真实水平。
参与实验的模型包括了GPT4v Germany pro cloud 3o twice,基本上主流大模型都包括了。研究人员发现,在某些任务上,GPT4V模型的表现相对较好,但即使是GPT4V也只能完成大约12.24%的任务,远低于人类操作者超过72.36%的成功率。Mix RROOCOG agent这些开源社区的模型在os role任务上的表现成功率较低。
据论文介绍,大模型们面临的问题包括,模型难以准确的在屏幕上定位并执行精确的鼠标点击操作。在理解和执行涉及特定软件操作的任务时遇到困难,尽管模型能够处理文本输入,但在处理截图和基于图像的输入时仍然存在挑战,并且模型在需要长期规划和记忆的任务中表现不佳。
总的来说,人类暂时安全了抖音。
在当今科技飞速发展的时代,AI的能力备受关注。许多人担心AI会取代人类岗位。这里有一份关于AI能否替代人类岗位的攻略。深入探讨AI在不同任务中的表现,像香港大学进行的测试,涉及多种操作系统和任务场景。分析主流大模型如GPT4V等的能力,了解它们能完成的任务比例以及面临的问题,比如屏幕定位、软件操作理解等困难。通过这些内容,帮助大家清晰认识AI与人类岗位的关系,让你在这个科技浪潮中对自身职业发展有更明确的方向和判断,不再盲目担忧,而是理性看待AI对工作领域的冲击与机遇。
AI,岗位替代,香港大学,模型测试,大模型问题
[Q]:香港大学开发的os world测试了什么?
[A]:测试了369个真实场景任务及跨多个应用程序的工作流程。
[Q]:参与实验的模型有哪些?
[A]:包括GPT4v Germany pro cloud 3o twice等主流大模型。
[Q]:GPT4V模型在任务中的表现如何?
[A]:能完成约12.24%的任务,远低于人类72.36%的成功率。
[Q]:开源社区的模型在os role任务上表现怎样?
[A]:成功率较低。
[Q]:大模型面临哪些问题?
[A]:难以准确屏幕定位、执行鼠标点击,理解特定软件操作困难等。
[Q]:大模型处理图像输入存在什么挑战?
[A]:处理截图和基于图像的输入时仍有挑战。
[Q]:大模型在长期规划和记忆任务中表现如何?
[A]:表现不佳。
[Q]:人类目前在岗位替代方面安全吗?
[A]:目前人类暂时安全。
评论 (0)
