美团提出基于隐式条件位置编码

发布时间：2021-04-06 14:45:43 所属栏目：外闻来源：互联网

导读：Facebook 的 DETR （ECCV 2020）[2] 和谷歌的 ViT （ICLR 2021）[3] 的提出，Transformer 在视觉领域的应用开始迅速升温，成为当下视觉研究的第一热点。但视觉 Transformer 受限于固定长度的位置编码，不能像 CNN 一样直接处理不同的输入尺寸，这在很大程度

Facebook 的 DETR （ECCV 2020）[2] 和谷歌的 ViT （ICLR 2021）[3] 的提出，Transformer 在视觉领域的应用开始迅速升温，成为当下视觉研究的第一热点。但视觉 Transformer 受限于固定长度的位置编码，不能像 CNN 一样直接处理不同的输入尺寸，这在很大程度上限制了视觉 Transformer 的应用，因为很多视觉任务，如检测，需要在测试时动态改变输入大小。

一种解决方案是对 ViT 中位置编码进行插值，使其适应不同的图片大小，但这种方案需要重新 fine-tune 模型，否则结果会变差。

最近，美团提出了一种用于视觉 Transformer 的隐式条件位置编码 CPE [1]，放宽了显式位置编码给输入尺寸带来的限制，使得 Transformer 便于处理不同尺寸的输入。实验表明，应用了 CPE 的 Transformer 性能优于 ViT 和 DeiT。

背景

谷歌的 ViT 方法通常将一幅 224×224 的图片打散成 196 个 16×16 的图片块（patch），依次对其做线性编码，从而得到一个输入序列（input sequence），使 Transformer 可以像处理字符序列一样处理图片。同时，为了保留各个图片块之间的位置信息，加入了和输入序列编码维度等长的位置编码。DeiT [4] 提高了 ViT 的训练效率，不再需要把大数据集（如 JFT-300M）作为预训练的限制，Transformer 可以直接在 ImageNet 上训练。

对于视觉 Transformer，位置编码不可或缺

在 ViT 和 CPVT 的实验中，我们可以发现没有位置编码的 Transformer 性能会出现明显下降。除此之外，在 Table 1 中，可学习（learnable）的位置编码和正余弦（sin-cos）编码效果接近，2D 的相对编码（2D RPE）性能较差，但仍然优于去掉位置编码的情形。

（编辑：济南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

抖音刷剧也要付费，短	斯特兰蒂斯CEO向电动汽
东南亚网约车巨头上市	供应链90%本地化特斯