10月12日晚上,计算机视觉三大顶会之一的ICCV2021在线上隆重举行。会议公布了马尔奖、最佳学生论文奖,最佳论文荣誉提名,PAMI-TC奖多个奖项。其中,马尔奖因计算机视觉之父大卫·马尔而得名,被看作是计算机视觉研究方向的最高荣誉之一,每两年评选一次。
本次ICCV2021的最佳论文奖(马尔奖)颁发给了来自中国科学技术大学的刘泽、西安交通大学的林宇桐、微软亚洲研究院的曹越、胡瀚等研究员共同合作的Swin Transformer: Hierarchical Vision Transformer using Shifted Windows。这篇论文“提出了名为Swin Transformer的新型视觉Transformer,它可以用作计算机视觉的通用骨干网络”,这也是该论文的获奖理由。
Swin Transformer将Transformer强大的建模能力和计算机视觉领域的多尺度、局部性、平移不变性三种先验知识相结合。它将图片切分为无重合的窗口,在每一个局部窗口内部进行自注意力机制计算;同时采用跨窗口连接,允许窗口之间进行信息交换。同时,层次化的Transformer特征图也为下游(检测、分割)等任务带来了更大的收益。Swin Transformer的这些特性使其在图像分类、目标检测、语义分割、动作识别等任务上取得了很好的性能,其发布时更在多个公开榜单上取得了第一名的成绩。
我校学生林宇桐作为共同第一作者参与了Swin Transformer的工作。林宇桐是人工智能学院与微软亚洲研究院联合培养的博士生,导师为郑南宁院士。他本科毕业于西安交通大学钱学森学院计算机试验班。