您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
fig是什么意思 论文中fig是什么意思
特征,信息,序列fig是什么意思 论文中fig是什么意思
发布时间:2019-02-08加入收藏来源:互联网点击:
image token和mask token解耦。MAE在encoder部分只使用image token,使得encoder学到的特征更加干净,mask token只在decoder中进行使用,同时这种设计可以大幅度的降低encoder的计算量。
特征提取和图像重建解耦。MAE的encoder只负责特征提取,decoder只负责图像重建,所以decoder不需要很大的计算量。encoder是下游任务真正想要的,最后用于下游任务的时候,把不干净的decoder扔掉就好了。而BEiT的encoder是需要同时兼顾特征提取和图像重建,需要同时将image token和mask token映射到一个低维空间中,特征提取需要迁就图像重建,降低了encoder的上限。特征提取和图像重建解耦也是高mask ratio的关键。
pixel的重建目标。pixel的重建目标可以尽可能的利用好图像信息,避免监督信息的丢失,而iGPT和BEiT的resize重建目标和token重建目标都会有不同程度的监督信息的丢失,降低了encoder的上限。
还有一个小细节
重建loss只作用在mask token上,这会提升0.5个点,这个设计使得image token和mask token的解耦更加彻底,试想一下,如果image token也计算重建loss,这会导致encoder的输出和decoder没办法完全解耦,image token的重建loss梯度会回传到encoder上,导致encoder将一部分注意力分散到了重建任务上,增加了encoder的学习难度。
image token和mask token解耦对于encoder的影响
这里我画了一个图来解释一下image token和mask token解耦对于encoder的影响。
image token和mask token同时送入encoder,相当于是将两个不同高维空间映射到一个低维空间中,假设image token映射到了一个低维空间中,那么encoder就需要分散出一部分的注意力将mask token映射到同一个空间。而MAE的encoder只对image token进行映射,这个映射空间不要对mask token进行迁就,能够尽可能的得到干净的语义特征,提高了encoder的上限。
BERT vs MAE
MAE另一个有意思的点是通过mask ratio揭示了vision和language两种模态之间本质差异。
将BERT和MAE的框架进行比较,MAE多了一个decoder重建的过程,并且mask token只用于decoder。BERT的和MAE的encoder功能有所不同,BERT的功能更类似于MAE的decoder重建,通过上下文来预测mask信息,而MAE的encoder主要是为了得到好的特征表达,用于图像信息的高度抽象。正是由于language本身就是高度抽象的信息,只需要通过encoder进行重建即可,而vision本身有大量的冗余信息需要先通过encoder获得高度抽象的信息,然后再通过decoder进行重建。另外,NLP大多数的下游任务和BERT的预测mask信息是兼容的,而CV大多数的下游任务不需要重建,而是为了获得高度抽象信息(比如图像分类、目标检测、语义分割),也就是只需要encoder。
另外讲一下mask ratio和模型复杂度还有特征表达之间的关系。
实际上,随着mask ratio的上升,模型复杂度逐渐降低(正则逐渐上升),而特征表达能力上,是先上升后下降的过程。一开始mask ratio比较低,噪声比较大,学到的特征不够干净,特征表达能力弱,随着mask ratio的增加,噪声逐渐减小,特征表达能力逐渐增加,直到mask ratio过大,不能从有效的特征中学到合适的特征表达。
这也能解释为什么vision是高mask ratio(75%),而language是低mask ratio(15%)。上面也说到language本身就是高度抽象的信息,而vision是带有大量冗余的信息,也就是说特征表达能力最强的最优mask ratio,language会更小,vision会更大。因为language噪声更小,需要通过更多的上下文信息推理相互关系,而vision需要减少冗余信息的噪声,通过更小的模型复杂度学到真正的语义信息。
mask ratio其实是在找最适合数据的模型复杂度,mask越多,模型越简单,mask越少,模型越复杂。
Reference
[1] Masked Autoencoders Are Scalable Vision Learners
[2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[3] BEIT: BERT Pre-Training of Image Transformers
[4] Generative Pretraining from Pixels
[5] Extracting and composing robust features with denoising autoencoders
[6] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
[7] Attention Is All You Need
[8] jalammar.github.io/illustrated-bert/
本文到此结束,希望对大家有所帮助呢。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |