梯度下降推导
以感知器为例,可以梯度下降来学习合适的权重和偏置: 假设有n个样本,第i次的实际输出为y,对于样本的预测输出可以表示为: \[ \bar{y}^i = w_1x_1^i+w_2x_2^i+...+w_nx_n^i+b \] 任意一个样本的实际输出和预测输出单个样本的误差,可以使用MES表示: \[ e^i=\frac{1}{2}(y^i-\bar{y}^i)^{2} \] 那么所有误差的和可以表示为: \[ \begin{aligned} E &= e^1+e^2+...+e^n \\ &= \sum_{i=1}^ne^i \\ &= \frac{1}{2}\sum_{i=1}^n(y^i-w^Tx^i)^2 \end{aligned} \] 想象一下,当你从山顶往下……