Logistic Regression and Maximum likelihood estimation

为什么 LR 用极大似然估计而不用最小二乘

  1. 如果用最小二乘法,目标函数就是 是非凸的,不容易求解,会得到局部最优。

  1. 如果用最大似然估计,目标函数就是对数似然函数:

是关于 (w,b) 的高阶连续可导凸函数,可以方便通过一些凸优化算法求解,比如梯度下降法、牛顿法等。

LR cost function 的具体推导过程

最大化似然概率的形式:

对于二分类问题有:

用一个式子表示上面这个分段的函数为:

代入目标函数中,再对目标函数取对数,则目标函数变为:

如果用 $h_{\theta}(x_{i})$ 来表示 $p_{1}$ ,则可用 $1-h_{\theta}(x_{i})$ 来表示 $p_{0}$ ,再将目标函数max换成min,则目标函数变为:

Reference from https://www.zhihu.com/question/65350200

Donate article here
Share the post