四、逻辑回归函数的正则化

正则化是一个通用的算法和思想,所有会产生过拟合现象的算法都可以使用正则化来避免过拟合。逻辑回归函数也同样存在这个问题,下面简单介绍逻辑回归函数的正则化方法。[br] 正则化一般会采用 L1 范式或者 L2 范式,其形式分别为[math]\phi\left(\omega\right)=\parallel x\parallel_1[/math]和[math]\phi\left(\omega\right)=\parallel x\parallel_2[/math]。 [br] [br] [b](一)L1 正则化[/b][br][br] L1 正则化通常称之为 LASSO 回归,相当于为模型添加了这样一个先验知识:[math]\omega[/math] 服从零均值拉普拉斯分布。而拉普拉斯分布的表达式为[br] [br] [math]f\left(\omega\mid\mu,b\right)=\frac{1}{2b}e^{\left(-\frac{\mid\omega-\mu\mid}{b}\right)}[/math][br][br] 由于有了这个先验知识,逻辑回归极大似然估计函数可以写为[br] [br] [math]L\left(\omega\right)=P\left(y\mid\omega,x\right)P\left(\omega\right)=\prod^N_{i=1}p\left(x_i\right)^{y_i}\left[1-p\left(x_i\right)\right]^{1-y_i}\prod^d_{j=1}\frac{1}{2b}e^{\left(-\frac{\mid\omega_j\mid}{b}\right)}[/math][br][br] 对等式两边取 ln ,再取负,可得目标函数为[br] [br] [math]-lnL\left(\omega\right)=-\sum_i\left\{y_ilnp\left(x_i\right)+\left(1-y_i\right)ln\left[1-p\left(x_i\right)\right]\right\}+\frac{1}{2b^2}\sum_j\mid\omega_j\mid[/math][br] [br] 上式等价于原始损失函数的后面加上了 L1 正则,因此 L1 正则的本质其实是为模型增加了“模型参数服从零均值拉普拉斯分布”这一先验知识。
[b](二)L2 正则化[/b][br][br] L2 正则化通常称之为 Ridge 回归,或岭回归,相当于为模型添加了这样一个先验知识:[math]\omega[/math] 服从零均值正态分布。[br] 正态分布的表达式为[br][br] [math]f\left(\omega\mid\mu,\sigma\right)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{\left(\omega-\mu\right)^2}{2\sigma^2}}[/math][br][br] 由于引入了先验知识,所以似然函数可以写为[br] [br] [math]L\left(\omega\right)=P\left(y\mid\omega,x\right)P\left(\omega\right)[/math][br] [br] [math]=\prod^N_{i=1}p\left(x_i\right)^{y_i}\left[1-p\left(x_i\right)\right]^{1-y_i}\prod^d_{j=1}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{\omega_j^2}{2\sigma^2}}[/math][br] [br] [math]=\prod^N_{i=1}p\left(x_i\right)^{y_i}\left[1-p\left(x_i\right)\right]^{1-y_i}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{\omega^T\omega}{2\sigma^2}}[/math][br][br] 对等式两边取 ln ,再取负,可得目标函数为[br] [br] [math]-lnL\left(\omega\right)=-\sum_i\left\{y_ilnp\left(x_i\right)+\left(1-y_i\right)ln\left[1-p\left(x_i\right)\right]\right\}+\frac{1}{2\sigma^2}\omega^T\omega[/math][br] [br] 等价于原始的损失函数后面加上了 L2 正则,因此 L2 正则的本质其实是为模型增加了“模型参数服从零均值正态分布”这一先验知识。

Tiedot: 四、逻辑回归函数的正则化