绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
视觉Transformer及其在检测与分割上的应用
学术新青年讲座 2021/08/24 19:00:00
课程讲师

南京大学博士,曾任上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者;主要成果发表在顶级期刊和会议:TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共31篇论文,其中17篇为一作/共一/通信;研究成果获得了总共超9800次引用,单篇最高引用超2100次;其中1项成果分别入选CVPR 2023最佳论文,CVMJ 2022最佳论文候选,一次入选ESI高被引论文(前1%)和热点论文(前0.1%),4项分别入选CVPR 2020,ICCV 2021,NeurIPS 2021,ECCV 2022十大最具影响力论文,一次入选2022年百篇最高引AI论文;担任IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个国际会议/期刊的程序委员会委员/审稿人。

王文海
香港中文大学 博士后

南京大学博士,曾任上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者;主要成果发表在顶级期刊和会议:TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共31篇论文,其中17篇为一作/共一/通信;研究成果获得了总共超9800次引用,单篇最高引用超2100次;其中1项成果分别入选CVPR 2023最佳论文,CVMJ 2022最佳论文候选,一次入选ESI高被引论文(前1%)和热点论文(前0.1%),4项分别入选CVPR 2020,ICCV 2021,NeurIPS 2021,ECCV 2022十大最具影响力论文,一次入选2022年百篇最高引AI论文;担任IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个国际会议/期刊的程序委员会委员/审稿人。

课程提纲
  • 视觉Transformer的研究
  • PVT / PVTv2:基于Transformer的主干网络以及在检测和分割上的应用
  • Segformer:基于视觉Transformer的语义分割模型
  • 与CNN视觉任务的性能比较
课程简介

在计算机视觉中,以CNN为代表的网络通过多年发展,形成了一些通用的设计模式。最典型的就是金字塔结构,它具有两大特点:1)特征图的分辨率随着网络加深,逐渐减小;2)特征图的通道数随着网络加深,逐渐增大。而目前几乎所有的视觉任务都是围绕着金字塔网络结构设计的,比如目标检测模型SSD、Faster R-CNN,图像分割模型RetinaNet、PSPNet等。

作为一种自注意力机制的网络结构,Transformer在NLP领域取得了巨大的成功。 然而,Transformer 的脚步并未止步于此。2020年,谷歌科学家首次将Transformer 引用到图像分类任务中,其性能直逼CNN的SOTA。那除了图像分类任务外,Transformer是否能像ResNet网络一样用在目标检测、图像分割等下游视觉任务中呢?

基于上面的问题,来自南京大学的王文海博士等人在ICCV 2021中提出了一种面向密集预测任务的通用Backbone:金字塔视觉Transformer(Pyramid Vision Transformer,PVT)。PVT主要通过注意力机制对所有图像实现全局感受野,它比CNN的局部感受野更适合于目标检测和图像分割等任务。同时,PVT引入的渐进式金字塔架构,随着网络深度的加深,减小了Transformer的序列长度,使得计算开销大幅度缩小。在相同参数量和计算开销的情况下,PVT模型在目标检测、语义分割、实例分割等任务中都取得了不错的性能。

然而,这还没有结束,王文海博士等人基于PVT模型又提出了升级版本的PVTv2,PVTv2相较于PVT主要有3方面的改进:

1)采用卷积提取局部连续特征;

2)带zero-padding的位置编码;

3)带均值池化的线性复杂度的注意力层。

实验证明,改进后的PVTv2在分类、检测及分割方面的性能显著优于PVT。想了解PVT和PVTv2更多内容的朋友,不要错过下周的直播呦。

8月24日晚7点,智东西公开课特邀南京大学在读博士王文海参与「学术新青年讲座」第11讲的直播讲解,主题为《视觉Transformer及其在检测与分割上的应用》。

在本次讲座中,王博将从视觉Transformer的研究出发,讲解两个通用的视觉Transformer主干网络PVT和PVTv2,并分析它们在检测、分割等任务上的性能表现,之后剖析视觉Transformer的语义分割模型Segformer,并探讨与CNN视觉任务的性能对比,谁的性能更佳?

王文海是南京大学在读博士,研究方向包含物体检测、实例分割、文字检测和识别等。王博曾在TPAMI、NeurIPS、CVPR、ICCV、ECCV等顶级期刊和会议上发表过10余篇论文,并在NAIC 2021和ICDAR 2019等学术竞赛上取得冠军。目前他的Google Scholar引用量为1000+。

本次讲座将在智东西公开课知识社区进行,包含主讲和问答两个部分,其中主讲环节40分钟,问答环节20分钟。每个环节主讲老师都将通过视频直播进行实时讲解与互动。。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...