随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

【新智元导读】本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

CLIP是目前最流行的视觉基座模型,其应用场景包括但不限于:

与LLM大语言模型结合成为视觉多模态大模型;

作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model,实现image-to-3D;

用于指导NeRF的优化方向从而实现text-to-3D;

本身用于开放类别的识别和检测。

但CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域,不过自然的2D图片中往往包含不同的物体,part和thing,如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。

为此,上海交通大学、复旦大学、香港中文大学、澳门大学等机构的学者们提出了Alpha-CLIP模型,在原始CLIP模型的RGB三个通道的基础上额外引入了第四个alpha通道来决定需要关注的区域。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

论文链接:https://arxiv.org/abs/2312.03818

项目主页:https://aleafy.github.io/alpha-clip

代码链接:https://github.com/SunzeY/AlphaCLIP

通过构造千万量级的「RGBA四通道图片-文本对」对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

图1Alpha-CLIP使用场景总览

图像分类

如图所示,对于ImagNet的一张图片,研究人员可以通过alpha-map控制CLIP去关注鱼或渔夫。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

以ImageNet的Zero-Shot Classification作为评价指标,研究人员验证了在对全图进行识别时,Alpha-CLIP可以保持原本CLIP的分类准确率。

进一步地,在给出了需要关注区域的长方形box或者mask时,Alpha-CLIP可以进一步提升分类准确率。

与LLM大语言模型的结合

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

将主流的LLaVA-1.5中的CLIP基座模型替换为Alpha-CLIP,用户可以通过简单地用画笔标记处需要关注的区域,从而进行指定区域的对话交互。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

在定量实验方面,研究人员通过LLaVA测试了MLLM的region caption能力。通过在RefCOCO和VG上分别进行finetune,取得了SOTA的region caption分数。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

与Stable Diffusion的结合

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

Stable-Diffusion是目前主流的2D图片生成模型,其Image Variation版本可以实现「图生图」,其中图片的编码器也是CLIP模型。通过将该模型替换为Alpha-CLIP,可以实现更复杂图片中指定物体的生成(同时较好地保留背景)。

如上图所示,使用原始的CLIP会生成同时具有狮子和老虎特征的「狮虎兽」,而Alpha-CLIP能够很好地区分两个物体,从而指导Stable Diffusion模型生成更专一的图片。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

与Point-E的结合

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

Point-E是Open-AI开源的一个支持Image-to-3D和text-to-3D的点云diffusion模型,通过将它的Image编码器从原始的CLIP替换为Alpha-CLIP。

可以支持用户对任意区域进行关注,从而恢复丢失的「表针」和「盾牌的十字架」。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

Attention Map可视化

本工作对Alpha-CLIP的注意力进行可视化,以检查Alpha-CLIP是否更加关注用户定义alpha-map。

通过检查视觉编码器中最后一个Transformer块中[CLS] token的注意力图。可视化采用了具有16个注意头的ViT-L/14模型。

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

为了进行公正比较,使用第5和第16个注意头的注意力图进行可视化,因为我们发现在这16个头中,这两个特征图最为明显。

结果如下图所示。这种可视化验证了Alpha-CLIP更加关注要聚焦的区域,更重要的是,它在保留原始CLIP特征位置的二维位置信息时没有造成损害。

结论

本文介绍的这项工作提出了Alpha-CLIP模型,该模型引入了一个额外的alpha通道,用于指定感兴趣的区域。

通过对数百万个RGBA区域-文本对进行训练,Alpha-CLIP不仅表现出卓越的区域关注能力,而且确保其输出空间与原始的CLIP模型保持一致。这种一致性使得Alpha-CLIP在CLIP的各种下游应用中能够轻松替代,无缝衔接。

研究人员证明了当提供特定关注的区域时,Alpha-CLIP展现出了更强大的Zero-Shot识别能力,并验证了它在许多下游任务中的有用性。CLIP的应用远远超出了本文的范围。研究人员希望在前景区域或mask较容易获得时,Alpha-CLIP将能够在更多场景中得到应用。

虽然Alpha-CLIP在需要关注区域的各种场景中表现出有效的性能,但目前的结构和训练过程限制了其专注于多个对象或建模不同对象之间关系的能力。

此外,当前的训练方法限制了alpha通道在中间值之外的泛化(只能接受0,1两个值),因此用户无法指定注意力的幅度。

另一个限制同时存在于Alpha-CLIP和原始CLIP中,即纯Transformer结构的编码器分辨率较低,这阻碍了Alpha-CLIP识别小物体并进行关注。

研究人员计划在未来的工作中解决这些限制并扩展CLIP的输入分辨率,相信这些未来的方向是增强Alpha-CLIP能力并在各种下游任务中扩展其实用性的途径。

参考资料:

https://arxiv.org/abs/2312.03818

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年12月13日
下一篇 2023年12月13日

热点推荐

  • 微信聊天满屏特效怎么弄,2022微信满屏特效

    大家好我是人见人爱花见花开的奶思君。最近有几个聊天特效非常火,话不多说,看效果! 猫爪爱心特效 按照顺序保存到你的手机或者添加为表情包,发送的时候也要按顺序发送。 海绵宝宝爱心特效 这个海绵宝宝的也是超级可爱,记得保存的话一定要按…

    2022年10月27日 热点
    940
  • 3万跑者参赛 2023天津马拉松鸣枪开跑

    中新网天津10月15日电 (张少宣)3万名跑者用脚丈量特色赛道,用心感受津味文化。2023天津马拉松15日在天津市区鸣枪开跑。 本次天津马拉松,共吸引了29个国家和地区的94755人参与报名,年龄最大的选手年逾90,年龄最小的健康…

    2023年10月18日
    380
  • 微信朋友圈广告怎么投放推广及费用(微信朋友圈广告怎么推广)

    微信朋友圈广告怎么推广(微信朋友圈广告怎么投放推广及费用) 微信朋友圈首次尝试信息流广告功能,今年二月,微信上线朋友圈广告自主投放端。而最近微信朋友圈广告怎么推广,微信朋友圈上线本地推广广告,线下的实体店商户可以选择在特定时段、对…

    2022年10月11日 热点
    950
  • 如若旅游,就去武汉!赏美景品美食度蜜月长见识,一站搞定

    一、“九省通衢,百湖之城,宜居武汉” 武汉位于长江和汉江的交汇处,交通便利,古时候从武汉循长江水道西可上巴蜀,东可去吴越,北溯汉水可至豫陕,经洞庭湖可南达湘桂,所以素有“九省通衢”之称。 说起武汉,人们会想到千古名楼—黄鹤楼”,这…

    2022年10月25日
    850
  • 请问提土旁一个于是什么字?

    圩 提土旁一个于是圩字,是个多音字,读作wéi,意思是中国江淮低洼地区周围防水的堤;当圩读xū时,指的是中国湘、赣、闽、粤等地区称集市。 提土旁一个于是圩字,多音字 :xū、wéi、yú。 发音一: 读音xū 指的是中国湘、赣、闽…

    2023年5月12日
    610
  • 中国十大空调品牌排名(中国十大空调品牌排名)

    中央空调品牌十大排名 1、家用中央空调排名前十位是:格力、奥克斯、海尔、东芝、大金、GCHV、科龙、三菱电机、日立、美的。格力 知名空调品牌,知名家用电器品牌,成立于1991年,是集研发、生产、销售、服务于一体的专业化空调企业。 …

    2023年12月31日
    390
  • 中学老师跳10多米高桥救轻生女 获得鲜花、证书及慰问金

    6月15日,江苏宿迁,宿豫中学高二化学老师丁成闯回家途中发现一女子跳河,他立即脱衣从10余米高桥上跳下,带着女子往岸边游。在两位市民的接应下,女子被成功救上岸。宿豫区见义勇为基金会办公室主任陆先生称,丁老师的脚此前做过手术,平常腿…

    2023年6月18日
    520
  • 食用深海鱼有哪些(深海鱼有哪些)

    本文主要讲的是深海鱼有哪些,以及和食用深海鱼有哪些相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 深海鱼类有哪些鱼 1、南极冰鱼:鳄冰鱼知毕友科又称南极冰鱼、南极虾鱼,为辐鳍鱼纲鲈形目的一个科,是生长在深海零度以…

    2023年5月15日
    540
  • 地铁穿脏字T恤打闹女子回应质疑 看来生活要对她毒打了

    7月17日,有网友发视频称,上海地铁7号线有一名男乘客和一名女乘客穿着带脏字的衣服,在车厢内嬉闹。视频中,女子穿着一件绿色带三个脏字衣服,男子同样穿着带脏字衣服,两人在车厢内嬉闹,女乘客在唱歌,男乘客倒挂扶手。 “视频是17日晚在…

    2023年7月19日
    470
  • 土地当不了筹码,美发话前,中方抛售160亿房产,美已犯两大错误

    土地是一个国家的重要资源之一,同时,一个国家政府允许别国资本进驻,也是尊重这些国家的表现。但是,美国政府近期却屡次发布对华不友好政策,甚至还要限制中国人在美国的土地购买权,包括禁止中国人在美国购买房产。美方此举,显然是要“针对”中…

    2023年2月17日 热点
    720