IDPT技術前沿 |Transformer iN Transformer(TNT)

2022-09-15 | admin

簡介

傳統的Vision Transformer(ViT)作為特征提取backbone時是將圖像劃分為若干個局部patches，然后利用multi-head自注意力機制計算它們各自的包含各個局部patches之間的關系的representation。但因為自然圖像的復雜度相較于自然文本更高，細節和顏色信息更豐富，以及ViT劃分的粒度不夠細，無法挖掘不同的尺度和位置的物體特征。因此，在本文中，作者指出了這些局部patches內部的自注意力也至關重要，并基于此提出了一種新的架構，即 Transformer iN Transformer(TNT)。具體來說，作者將局部patches（如：16×16）作為 visual sentence，并將其進一步劃分為更小的patch（如：4×4 ）作為 visual word。每個單詞的attention會與給定的visual sentence中其他的word一起計算，計算成本可忽略不計。最后將單詞和句子的特征結合起來，提高表征能力。
更具體地，不同visual words的feature以及attention的計算分別依賴于共享的network以減少參數量和浮點數計算量。visual words的features將會聚合成相應的visual sentence。對于識別任務而言，作者依舊使用了MLP來做class token。