反向传布是深度进修算法中必不成少的构成部门,可是其固有的梯度爆炸(消散),计较速率慢等问题一向困扰着学界。近日,新西兰维多利亚惠灵顿大学的钻研者提出了一种新型的算法,可让深度进修在不依靠反向传布的环境下举行收敛,完全解决了梯度爆炸问题。同时,钻研者暗示,只必要分外练习单层的收集便可以到达图象分类中的 SOTA 机能。
钻研者暗示,HSIC-Bottleneck 的表示在 MNIST/FashionMNIST/CIFAR10 分类中的表示与具备交织熵方针函数的反向传布算法至关。且只必要在练习好的、已冻结参数 HSIC-Bottleneck 收集上再增长一个基于 SGD 且没有反向传布一层收集可以或许实现图象分类的 SOTA 机能。
尺度反向传布的可视化。
广受表彰的 HSIC-Bottleneck
固然不少钻研者都晓得咱们应当找一种比反向传布更优异的法子,但反向传布利用太广了,也很是直观柔美。是以,很难有钻研者提出真正能 Work,且还很是有上风的 BP 替换品。在这篇论文放到 Reddit 后,不少钻研者都很是赞成这项事情,并暗示这个范畴很是值得存眷。
DontShowYourBack 暗示:「这篇论文的附加值其实不在于它是不是到达了 SOTA 成果,在我眼里,作者想法利用了一种既不繁杂、又不必要对称反馈的机制,并得到了很好的结果,这才是真正首要的身分。理论上,它能利用于更低计较力的平台和更怪异的架构,由于这些是将反向传布利用到当前硬件和架构上最大的挑战。」
该用户表白,他将亲身钻研这类法子,并但愿能快速看到一些有趣的成果。
HSIC Bottleneck 的作者暗示,反向传布计较梯度的繁杂度为 O(D^3),此中 D 暗示分歧层级的神经元数目。是以全部神经收集的反传繁杂度为 O(LD^3),此中 L 暗示层级数。可是对付 HSIC 来讲,它的计较繁杂度为 O(M^2),此中 M 暗示样本数目,如许全部收集的计较繁杂度为 O(LM^2)。