0%

Logistic Regression and Maximum likelihood estimation

为什么 LR 用极大似然估计而不用最小二乘

  1. 如果用最小二乘法,目标函数就是 \[E_{w,b}=\sum_{i=1}^{m}\left ( y_{i}-\frac{1}{1+e^{-\left ( w^{T}x_{i}+b \right )}}\right )^2 \] 是非凸的,不容易求解,会得到局部最优。

  1. 如果用最大似然估计,目标函数就是对数似然函数: \[l_{w,b}=\sum_{i=1}^{m}\left ( -y_{i}\left ( w^{T}x_{i}+b \right )+ln\left ( 1+e^{w^{T}x_{i}+b} \right ) \right )\]

是关于 (w,b) 的高阶连续可导凸函数,可以方便通过一些凸优化算法求解,比如梯度下降法、牛顿法等。

LR cost function 的具体推导过程

最大化似然概率的形式:

\[max \prod_{i=1}^{m}p(y_{i}|x_{i},\theta)\]

对于二分类问题有:

\[p_{1}=p(y=1|x,\theta)=\frac{e^{x\theta}}{1+e^{x\theta}},y=1\] \[p_{0}=p(y=0|x,\theta)=\frac{1}{1+e^{x\theta}},y=0\]

用一个式子表示上面这个分段的函数为:

\[p=p(y|x,\theta)=p_{1}^{y_{i}}\ast p_{0}^{1-y_{i}}\]

代入目标函数中,再对目标函数取对数,则目标函数变为:

\[max \sum_{i=1}^{m}({y_{i}\log{p_{1}}+(1-y_{i})\log{p_{0})}}\]

如果用 \(h_{\theta}(x_{i})\) 来表示 \(p_{1}\) ,则可用 \(1-h_{\theta}(x_{i})\) 来表示 \(p_{0}\) ,再将目标函数max换成min,则目标函数变为:

\[min -\frac{1}{m}\sum_{i=1}^{m}({y_{i}\log{h_{\theta}(x_{i})}+(1-y_{i})\log({1-h_{\theta}(x_{i})}))}\]

Reference from https://www.zhihu.com/question/65350200