回复: 0
收起左侧

类CLIP多模态模型有哪些?面试被问懵了

本楼:   👍  0
0%
0%
0   👎
全局:   2
67%
33%
1

2023(7-9月) 码农类General 硕士 全职@字节跳动 - 网上海投 - 技术电面  | Pass | 应届毕业生
类CLIP多模态模型有哪些?
1、CLIP
CLIP是OpenAI在2021年提出的一种通用的视觉语言模型,它从大量的图像-文本对中学习,能够进行出色的图像分类和图文匹配等任务。CLIP的关键在于利用对比学习的方式同时提取图像和文本的表征,使得相关的图像和文本具有相似的表征。这种学习方式使得CLIP具有强大的零样本迁移能力。
2、 FLIP
FLIP 是Facebook AI在2022年提出的一种融合语言和视觉的预训练模型。它与CLIP不同的是,FLIP不仅利用图像-文本对进行预训练,还融合了对图像的各种注释信息,如目标检测框、属性标签等。这种多模态融合使得FLIP在复杂的视觉语言任务上表现更加出色。 ..
3、SigLIP
SigLIP 是谷歌在2023年提出的一种基于签名的多模态预训练模型。它利用图像和文本的对应关系建立一个潜在的"签名"空间,使得视觉和语言特征能够在这个共享空间中进行对应和匹配。这种方法也赋予了SigLIP出色的跨模态理解能力。
4、ImageBind. 1point3acres.com
ImageBind 作者创新性地提出了使用图片作为连接不同类型数据的桥梁。这种方法使我们能够同时处理并建模不同类型的语义信息。例如,<图片, 文本>的数据对在互联网中非常常见,而<图片, 深度图>或<视频,音频>等数据对也相对容易获取。如图1所示,通过将图片作为各种类型数据之间的桥梁,我们可以将从<图片, 文本>数据对中学习到的语义信息传递到其他类型的数据对中。这样,我们就可以利用这种方法对其他类型的数据进行有效的预训练。
5、 4M-21
4M-21 是一个基于多模态掩码预训练的模型,它通过在多种不同类型的数据上进行训练来增强其性能。该模型使用特定于数据类型的分词器进行编码,从而实现了在各种不同类型的数据上训练统一的模型。

本帖子中包含更多资源

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

上一篇:Nvidia hardware architect 一面
下一篇:Flexport 视频技术面题目
您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表