基于逻辑回归的分类预测学习笔记

2021-06-01 约 88 字预计阅读 1 分钟次阅读

逻辑回归虽名为“回归”，但实际是一种分类学习方法。

逻辑回归（或称对数几率回归）突出的特点：模型简单和模型可解释性强
优劣势：
- 优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；
- 缺点：容易欠拟合，分类精度可能不高；由于其本质上是一个线性的分类器，所以不能应对较为复杂的数据情况
对于多分类（有三个及以上输出）而言，将多个二分类的逻辑回归组合，即可实现多分类

逻辑回归原理:

通过Logistic函数（或称为Sigmoid函数），对多元线性回归方程中的变量值进行决策（分类预测）。

Logistic函数(本文简写为logi(z)),在z=0的时候取值为0.5，并且 logi(z) 函数的取值范围为(0,1):

$$ logi(z) = 1/(1+e^{-z}) $$

当z>=0时，y>=0.5，分类为1；

当z<0时，y<0.5，分类为0；

其对应的 y 值我们可以视为类别1的概率预测值$P$.

一般的多元线性回归方程（任意阶可导的凸函数才能作为逻辑回归的目标函数）：

$$ z = w_0 + \textstyle\sum_{i=1}^n w_i x_i $$

将回归方程代入Logistic函数，得：

$$ P = P(y=1 | x, \theta) = 1/(1+e^{w_0 + \textstyle\sum_{i=1}^n w_i x_i}) $$

则，$ P(y=1 | x, \theta) = P, P(y=0 | x, \theta) = 1 - P $，从中学习得出系数权值w，从而得到一个针对于当前数据的特征逻辑回归模型，对于比较重视的特征，其对应的系数权值会更大些。

代码链接：

通过此次得学习，我学到了逻辑回归的基本原理及其相关应用。逻辑回归有它的局限性，适合样本量较少的情况，而且精度不太高，但是用可解释性强。因此，针对不同的项目，采用不同的方法很重要，若用神经网络处理鸢尾花数据集可能大材小用了，数据量大到一定程度，也许神经网络是个不错的选择。

目录