类CLIP多模态模型有哪些?
1、CLIP
CLIP是OpenAI在2021年提出的一种通用的视觉语言模型,它从大量的图像-文本对中学习,能够进行出色的图像分类和图文匹配等任务。CLIP的关键在于利用对比学习的方式同时提取图像和文本的表征,使得相关的图像和文本具有相似的表征。这种学习方式使得CLIP具有强大的零样本迁移能力。
2、 FLIP
FLIP 是Facebook AI在2022年提出的一种融合语言和视觉的预训练模型。它与CLIP不同的是,FLIP不仅利用图像-文本对进行预训练,还融合了对图像的各种注释信息,如目标检测框、属性标签等。这种多模态融合使得FLIP在复杂的视觉语言任务上表现更加出色。 ..
3、SigLIP
SigLIP 是谷歌在2023年提出的一种基于签名的多模态预训练模型。它利用图像和文本的对应关系建立一个潜在的"签名"空间,使得视觉和语言特征能够在这个共享空间中进行对应和匹配。这种方法也赋予了SigLIP出色的跨模态理解能力。
4、ImageBind. 1point3acres.com
ImageBind 作者创新性地提出了使用图片作为连接不同类型数据的桥梁。这种方法使我们能够同时处理并建模不同类型的语义信息。例如,<图片, 文本>的数据对在互联网中非常常见,而<图片, 深度图>或<视频,音频>等数据对也相对容易获取。如图1所示,通过将图片作为各种类型数据之间的桥梁,我们可以将从<图片, 文本>数据对中学习到的语义信息传递到其他类型的数据对中。这样,我们就可以利用这种方法对其他类型的数据进行有效的预训练。
5、 4M-21
4M-21 是一个基于多模态掩码预训练的模型,它通过在多种不同类型的数据上进行训练来增强其性能。该模型使用特定于数据类型的分词器进行编码,从而实现了在各种不同类型的数据上训练统一的模型。
|