大模型视觉能力对比:质朴AI表现突出

最近大模型都在卷视觉,就是发图片让大模型说出内容。
但是呢这个东西也有强弱之分,最近质朴AI开源的这个就比较强,比如一张卡通房子的图片,问GPT和问质朴AI,GPT会跟你说有三个房子,而质朴AI则会说在图片最右边还有一个跟图片中房子结构很像的东西,图片中应该是四个房子。
我也尝试把图片缩减到2个房子和一个角落,结果AI也答出来了。
那咱们再上点难度,问AAI这图片有多少只狗?这张是12只,这张是16支,居然全对了。
这可是以前网上的人机测试,这里我们提高一下难度,给AI的图片里有饭菜,还有一面镜子。大部分AI现在是无法区分镜子和现实的。质谱AI给出了这样的答案,桌子上有多少道菜,在什么位置都被AI数清楚了。
之所以能做到这么强,是因为质朴在训练这个AI时,将视觉理解放在更优先的位置,使用5B参数的视觉编码器,6B参数的视觉专家模块,总共11B参数建模图像特征,让这个AI的势力得到加强,成为一个能看能说的大模型。
《大模型视觉攻略:深入了解视觉能力及提升方法》
在当今科技发展中,大模型的视觉能力备受关注。不同的大模型在处理图片时表现各异。比如质朴AI,它在视觉方面有着独特优势。
首先,在识别图片内容上,质朴AI比一些常见的大模型更精准。像面对卡通房子图片,能准确识别出更多隐藏元素;对于缩减后的图片及含狗的图片,也能给出正确答案。
其次,在复杂场景下,如图片中有饭菜和镜子,质朴AI能清晰数出桌上的菜及位置,而多数AI却难以区分镜子和现实。
这得益于其训练时的参数设置,采用5B参数的视觉编码器和6B参数的视觉专家模块,共11B参数建模图像特征,大大加强了视觉能力。
对于想要利用大模型视觉能力的用户来说,了解这些差异很重要。可以根据自身需求选择合适的大模型,若追求精准的图片识别和复杂场景处理,质朴AI是不错的选择。同时,深入研究其参数设置原理,也有助于进一步探索大模型视觉领域的奥秘,为相关应用开发和研究提供有力参考。
大模型,视觉,质朴AI,图片识别,参数,视觉编码器,视觉专家模块
[Q]:大模型在视觉方面都有哪些表现?
[A]:不同大模型有强弱之分,如质朴AI在图片识别上更精准。
[Q]:质朴AI在识别卡通房子图片时有什么不同?
[A]:GPT说有三个房子,质朴AI能指出右边还有一个类似结构的,共四个。
[Q]:把图片缩减后AI还能准确识别吗?
[A]:能,如缩减到2个房子和一个角落,AI也能答出来。
[Q]:问AAI图片中狗的数量,结果如何?
[A]:两张图片答案分别是1十二只和16只,居然全对。
[Q]:给AI含饭菜和镜子的图片,大部分AI表现怎样?
[A]:大部分AI无法区分镜子和现实。
[Q]:质朴AI在含饭菜镜子图片中表现如何?
[A]:能数清楚桌子上有多少道菜及位置。
[Q]:质朴AI训练时采用了什么参数设置?
[A]:使用5B参数的视觉编码器,6B参数的视觉专家模块,共11B参数建模图像特征。
[Q]:质朴AI为何视觉能力强?
[A]:将视觉理解放更优先位置,通过参数设置加强了视觉能力。
share