视觉Transformer及其在检测与分割上的应用

课程回放

学术新青年讲座 2021/08/24 19:00:00

课程讲师

王文海香港中文大学博士后

南京大学博士，曾任上海人工智能实验室青年科学家，研究方向为视觉基础模型研究，上海人工智能实验室“书生”系列视觉基础模型核心开发者；主要成果发表在顶级期刊和会议：TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共31篇论文，其中17篇为一作/共一/通信；研究成果获得了总共超9800次引用，单篇最高引用超2100次；其中1项成果分别入选CVPR 2023最佳论文，CVMJ 2022最佳论文候选，一次入选ESI高被引论文（前1%）和热点论文（前0.1%），4项分别入选CVPR 2020，ICCV 2021，NeurIPS 2021，ECCV 2022十大最具影响力论文，一次入选2022年百篇最高引AI论文；担任IJCAI 2021的高级程序委员会委员，以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个国际会议/期刊的程序委员会委员/审稿人。

王文海

香港中文大学博士后

课程提纲

视觉Transformer的研究
PVT / PVTv2：基于Transformer的主干网络以及在检测和分割上的应用
Segformer：基于视觉Transformer的语义分割模型
与CNN视觉任务的性能比较

课程简介

在计算机视觉中，以CNN为代表的网络通过多年发展，形成了一些通用的设计模式。最典型的就是金字塔结构，它具有两大特点：1）特征图的分辨率随着网络加深，逐渐减小；2）特征图的通道数随着网络加深，逐渐增大。而目前几乎所有的视觉任务都是围绕着金字塔网络结构设计的，比如目标检测模型SSD、Faster R-CNN，图像分割模型RetinaNet、PSPNet等。

作为一种自注意力机制的网络结构，Transformer在NLP领域取得了巨大的成功。然而，Transformer 的脚步并未止步于此。2020年，谷歌科学家首次将Transformer 引用到图像分类任务中，其性能直逼CNN的SOTA。那除了图像分类任务外，Transformer是否能像ResNet网络一样用在目标检测、图像分割等下游视觉任务中呢？

基于上面的问题，来自南京大学的王文海博士等人在ICCV 2021中提出了一种面向密集预测任务的通用Backbone：金字塔视觉Transformer(Pyramid Vision Transformer，PVT)。PVT主要通过注意力机制对所有图像实现全局感受野，它比CNN的局部感受野更适合于目标检测和图像分割等任务。同时，PVT引入的渐进式金字塔架构，随着网络深度的加深，减小了Transformer的序列长度，使得计算开销大幅度缩小。在相同参数量和计算开销的情况下，PVT模型在目标检测、语义分割、实例分割等任务中都取得了不错的性能。

然而，这还没有结束，王文海博士等人基于PVT模型又提出了升级版本的PVTv2，PVTv2相较于PVT主要有3方面的改进：

1）采用卷积提取局部连续特征；

2）带zero-padding的位置编码；

3）带均值池化的线性复杂度的注意力层。

实验证明，改进后的PVTv2在分类、检测及分割方面的性能显著优于PVT。想了解PVT和PVTv2更多内容的朋友，不要错过下周的直播呦。

8月24日晚7点，智东西公开课特邀南京大学在读博士王文海参与「学术新青年讲座」第11讲的直播讲解，主题为《视觉Transformer及其在检测与分割上的应用》。

在本次讲座中，王博将从视觉Transformer的研究出发，讲解两个通用的视觉Transformer主干网络PVT和PVTv2，并分析它们在检测、分割等任务上的性能表现，之后剖析视觉Transformer的语义分割模型Segformer，并探讨与CNN视觉任务的性能对比，谁的性能更佳？

王文海是南京大学在读博士，研究方向包含物体检测、实例分割、文字检测和识别等。王博曾在TPAMI、NeurIPS、CVPR、ICCV、ECCV等顶级期刊和会议上发表过10余篇论文，并在NAIC 2021和ICDAR 2019等学术竞赛上取得冠军。目前他的Google Scholar引用量为1000+。

本次讲座将在智东西公开课知识社区进行，包含主讲和问答两个部分，其中主讲环节40分钟，问答环节20分钟。每个环节主讲老师都将通过视频直播进行实时讲解与互动。。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...