- 课程回放

南京大学博士,曾任上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者;主要成果发表在顶级期刊和会议:TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共31篇论文,其中17篇为一作/共一/通信;研究成果获得了总共超9800次引用,单篇最高引用超2100次;其中1项成果分别入选CVPR 2023最佳论文,CVMJ 2022最佳论文候选,一次入选ESI高被引论文(前1%)和热点论文(前0.1%),4项分别入选CVPR 2020,ICCV 2021,NeurIPS 2021,ECCV 2022十大最具影响力论文,一次入选2022年百篇最高引AI论文;担任IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个国际会议/期刊的程序委员会委员/审稿人。

南京大学博士,曾任上海人工智能实验室青年科学家,研究方向为视觉基础模型研究,上海人工智能实验室“书生”系列视觉基础模型核心开发者;主要成果发表在顶级期刊和会议:TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等共31篇论文,其中17篇为一作/共一/通信;研究成果获得了总共超9800次引用,单篇最高引用超2100次;其中1项成果分别入选CVPR 2023最佳论文,CVMJ 2022最佳论文候选,一次入选ESI高被引论文(前1%)和热点论文(前0.1%),4项分别入选CVPR 2020,ICCV 2021,NeurIPS 2021,ECCV 2022十大最具影响力论文,一次入选2022年百篇最高引AI论文;担任IJCAI 2021的高级程序委员会委员,以及TPAMI、IJCV、CVPR、ICCV、ECCV等多个国际会议/期刊的程序委员会委员/审稿人。
- 视觉Transformer的研究
- PVT / PVTv2:基于Transformer的主干网络以及在检测和分割上的应用
- Segformer:基于视觉Transformer的语义分割模型
- 与CNN视觉任务的性能比较
在计算机视觉中,以CNN为代表的网络通过多年发展,形成了一些通用的设计模式。最典型的就是金字塔结构,它具有两大特点:1)特征图的分辨率随着网络加深,逐渐减小;2)特征图的通道数随着网络加深,逐渐增大。而目前几乎所有的视觉任务都是围绕着金字塔网络结构设计的,比如目标检测模型SSD、Faster R-CNN,图像分割模型RetinaNet、PSPNet等。
作为一种自注意力机制的网络结构,Transformer在NLP领域取得了巨大的成功。 然而,Transformer 的脚步并未止步于此。2020年,谷歌科学家首次将Transformer 引用到图像分类任务中,其性能直逼CNN的SOTA。那除了图像分类任务外,Transformer是否能像ResNet网络一样用在目标检测、图像分割等下游视觉任务中呢?
基于上面的问题,来自南京大学的王文海博士等人在ICCV 2021中提出了一种面向密集预测任务的通用Backbone:金字塔视觉Transformer(Pyramid Vision Transformer,PVT)。PVT主要通过注意力机制对所有图像实现全局感受野,它比CNN的局部感受野更适合于目标检测和图像分割等任务。同时,PVT引入的渐进式金字塔架构,随着网络深度的加深,减小了Transformer的序列长度,使得计算开销大幅度缩小。在相同参数量和计算开销的情况下,PVT模型在目标检测、语义分割、实例分割等任务中都取得了不错的性能。
然而,这还没有结束,王文海博士等人基于PVT模型又提出了升级版本的PVTv2,PVTv2相较于PVT主要有3方面的改进:
1)采用卷积提取局部连续特征;
2)带zero-padding的位置编码;
3)带均值池化的线性复杂度的注意力层。
实验证明,改进后的PVTv2在分类、检测及分割方面的性能显著优于PVT。想了解PVT和PVTv2更多内容的朋友,不要错过下周的直播呦。
8月24日晚7点,智东西公开课特邀南京大学在读博士王文海参与「学术新青年讲座」第11讲的直播讲解,主题为《视觉Transformer及其在检测与分割上的应用》。
在本次讲座中,王博将从视觉Transformer的研究出发,讲解两个通用的视觉Transformer主干网络PVT和PVTv2,并分析它们在检测、分割等任务上的性能表现,之后剖析视觉Transformer的语义分割模型Segformer,并探讨与CNN视觉任务的性能对比,谁的性能更佳?
王文海是南京大学在读博士,研究方向包含物体检测、实例分割、文字检测和识别等。王博曾在TPAMI、NeurIPS、CVPR、ICCV、ECCV等顶级期刊和会议上发表过10余篇论文,并在NAIC 2021和ICDAR 2019等学术竞赛上取得冠军。目前他的Google Scholar引用量为1000+。
本次讲座将在智东西公开课知识社区进行,包含主讲和问答两个部分,其中主讲环节40分钟,问答环节20分钟。每个环节主讲老师都将通过视频直播进行实时讲解与互动。。