深层学习中超参数的简单理解

< > >

作者:edison_g


强>文本: > >

说,这些参数会随机梯度下降(SGD)!事实上,在caffe.proto参数在Caffe网络出现的参数详细解释。
>强>学习率>强> >
学习速率决定权值更新的速度。设置太多使结果超过最优值。太小会使衰退太慢。因此,有必要通过人工干预来调整学习速率来调整参数,因此以下3个参数是基于自适应思想的解决方案。以下3个参数是重量衰减、重量衰减、动量动量和学习率衰减学习率衰减。


> >强>重量衰减>强> > > >

在实际应用中,为了避免过拟合的网络,必须是价值函数(成本函数)添加一些正则化,添加这定期对成本函数的标准:



上述公式的基本思想是减少不重要参数对最终结果的影响,而网络中的有用权值不会受到权重衰减的影响。

在机器学习和模式识别,会出现过拟合,当网络过拟合网络逐渐变大,因此,为了避免过拟合现象的出现,将使误差函数中加入惩罚,惩罚乘以方共同所有的权重和衰减常数。它是用来惩罚重物的。
动量>强> >
p的动量是由牛顿定律导出的。其基本思想是寻找增加惯性的最佳效果。在错误的表面存在新元时,可以更快的学习。


>强>学习率衰减>强> > >

此方法旨在提高SGD优化的能力,这是减少每次迭代学习率。


点击此处:神经网络权值衰减与学习率的差异
下一步是我所知道的一些信息(为参考学习编译):

权重衰减的使用(重量衰减)既提高收敛精度也提高了收敛速度,其最终目标是为了防止过拟合。在损失函数中,权重衰减是在正则化系数(正则化)的前面,规则的一般方向模型的复杂性,所以权重衰减的作用是调节模型复杂度对损失函数的影响,如果权重衰减模型大,复值的损失函数大。
动量是梯度下降法中常用的加速技术。对于一般的SGD,其表达



沿负梯度方向向下。SGD,动量,具有如下形式:




<img class=“src=”https://image.ipaiban.com/upload-ueditor-image-20171130-1512023390253065237.png数据”src=“http://mmbiz.qpic.cn/mmbiz_png/1mtnaxmwswmlp08gjhcas4ugickrz2qn

资料全部来自网络,如果有问题可以发邮件到站长邮箱