最近大模型都在卷视觉,就是发图片让大模型说出内容。但是呢这个东西也有强弱之分,最近质朴AI开源的这个就比较强,比如一张卡通房子的图片,问GPT和问质朴AI,GPT会跟你说有三个房子,而质朴AI...