您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
mtmit(告别规范化!MIT 谷歌等提出全新残差学习方法,效果惊艳)
网络,初始化,方法mtmit(告别规范化!MIT 谷歌等提出全新残差学习方法,效果惊艳)
发布时间:2020-12-06加入收藏来源:互联网点击:
-
Fixup 初始化实 验
我们在 CIFAR-10 数据库上测试了第一轮迭代(即数据库中所有图像通过模型一次)结束后模型的测试准确率,发现对于多种深度的卷积神经网络,在学习率相同的情况下 Fixup 可以达到与 BatchNorm 相同的效果。实验结果如下图所示:
图 1 CIFAR-10 数据库上各种方法的训练结果比较,值越大表示结果越好。
此外,我们还对比了使用 Fixup 训练不同深度的 ResNet 和其他方法在 ImageNet 数据库上的结果,实验结果如下表所示:
可以看出 Fixup 与组规范化方法的性能不相上下,该实验中通过交叉验证得到了三种方法的最优偏置标量,对于批规范化、组规范化和 Fixup 分别为 0.2,0.1 和 0.7。
此外,在机器翻译的 SOTA 方法中我们同样使用 Fixup 代替规范化层进行了实验。我们惊奇地发现,当使用 Fixup 代替规范化层可以更好地防止模型过拟合,我们认为这要归功于 dropout 操作的正则化。在两个数据库上,使用 Fixup 都取得了目前最好的结果,实验结果如下表:
结 论Fixup 通过对标准初始化进行适当的放缩来解决训练过程中梯度爆炸和梯度消失的问题。在不使用规范化的情况下,使用 Fixup 训练的残差网络可以达到与使用规范化训练时相同的稳定性,甚至在网络层数达到了 10000 层时也可以不相上下。此外,在使用了合适正则化方法的情况下,通过 Fixup 训练的不使用规范化的残差网络在图像分类和机器翻译上达到了目前最好的水平。在理论和应用两方面,这篇工作都给出了一种新的尝试。在理论层面,去除规范化有利于更简便地分析残差网络。在应用层面,Fixup 对于发展正则化方法提供了可能,比如结合 ZeroInit 等。
论文链接:https://arxiv.org/pdf/1901.09321.pdf
本文到此结束,希望对大家有所帮助呢。
上一篇:中卫游戏(— 中卫网络景观游戏《冬日威胁》启航盛典举行欢迎仪式)
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |