让大模型像乐高积木一样拓展各种多模态能力。字节跳动的新论文脑洞大开提出了乐高语言大模型,通过捕捉输入数据的局部信息,实现对图像、视频和音频等多模态数据的精确理解和定位。为了实现这一...