python机器学习Logistic回归原理推导

作者:是日秋和 时间:2022-12-17 00:45:15 

前言

Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。如对数学公式过敏,引发不适,后果自负。

Logistic回归原理与推导

Logistic回归中虽然有回归的字样,但该算法是一个分类算法,如图所示,有两类数据(红点和绿点)分布如下,如果需要对两类数据进行分类,我们可以通过一条直线进行划分(w0 * x0 + w1 * x1+w2 * x2)。当新的样本(x1,x2)需要预测时,带入直线函数中,函数值大于0,则为绿色样本(正样本),否则为红样本(负样本)。

推广到高维空间中,我们需要得到一个超平面(在二维是直线,在三维是平面,在n维是n-1的超平面)切分我们的样本数据,实际上也就是求该超平面的W参数,这很类似于回归,所以取名为Logistic回归。

python机器学习Logistic回归原理推导

sigmoid函数

当然,我们不直接使用z函数,我们需要把z值转换到区间[0-1]之间,转换的z值就是判断新样本属于正样本的概率大小。 我们使用sigmoid函数完成这个转换过程,公式如下。通过观察sigmoid函数图,如图所示,当z值大于0时,σ值大于0.5,当z值小于0时,σ值小于于0.5。利用sigmoid函数,使得Logistic回归本质上是一个基于条件概率的判别模型。

python机器学习Logistic回归原理推导

目标函数

其实,我们现在就是求W,如何求W呢,我们先看下图,我们都能看出第二个图的直线切分的最好,换句话说,能让这些样本点离直线越远越好,这样对于新样本的到来,也具有很好的划分,那如何用公式表示并计算这个目标函数呢?

python机器学习Logistic回归原理推导

这时就需要这个目标函数的值最大,以此求出θ。

梯度上升法

在介绍梯度上升法之前,我们看一个中学知识:求下面函数在x等于多少时,取最大值。

解:求f(x)的导数:2x,令其为0,求得x=0时,取最大值为0。但在函数复杂时,求出导数也很难计算函数的极值,这时就需要使用梯度上升法,通过迭代,一步步逼近极值,公式如下,我们顺着导数的方向(梯度)一步步逼近。

利用梯度算法计算该函数的x值:

def f(x_old):
        return -2*x_old
def cal():
    x_old  = 0
    x_new = -6
    eps = 0.01
    presision = 0.00001
    while abs(x_new-x_old)>presision:
       x_old=x_new
       x_new=x_old+eps*f(x_old)
    return x_new
-0.0004892181072978443

Logistic回归实践

数据情况

读入数据,并绘图显示:

def loadDataSet():
   dataMat = [];labelMat = []
   fr = open('数据/Logistic/TestSet.txt')
   for line in fr.readlines():
       lineArr = line.strip().split()
       dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
       labelMat.append(int(lineArr[2]))
   return dataMat, labelMat

训练算法

利用梯度迭代公式,计算W:

def sigmoid(inX):
   return 1.0/(1 + np.exp(-inX))
def gradAscent(dataMatIn, labelMatIn):
   dataMatrix = np.mat(dataMatIn)
   labelMat = np.mat(labelMatIn).transpose()
   m,n = np.shape(dataMatrix)
   alpha = 0.001
   maxCycles = 500
   weights = np.ones((n,1))
   for k in range(maxCycles):
       h = sigmoid(dataMatrix * weights)
       error = labelMat - h
       weights = weights + alpha * dataMatrix.transpose() * error
   return weights

通过计算的weights绘图,查看分类结果

算法优缺点

  • 优点:易于理解和计算

  • 缺点:精度不高

来源:https://juejin.cn/post/7081155423838928903

标签:python,机器学习,Logistic,回归
0
投稿

猜你喜欢

  • PHP封装cURL工具类与应用示例

    2023-10-18 11:57:36
  • Python定时执行程序问题(schedule)

    2021-07-26 14:18:22
  • python数据操作之lambda表达式详情

    2022-08-19 21:21:32
  • python 统计一个列表当中的每一个元素出现了多少次的方法

    2021-09-21 13:48:32
  • Python 创建TCP服务器的方法

    2022-04-17 08:17:50
  • JS实现弹出下载对话框及常见文件类型的下载

    2024-04-23 09:07:05
  • Pandas读取csv时如何设置列名

    2023-11-25 19:54:55
  • SQL Server中避免触发镜像SUSPEND的N种方法

    2024-01-29 07:01:03
  • mysql5.58的编译安装

    2011-01-29 16:26:00
  • 您需要了解的DIV+CSS网页布局的8条面试题目

    2010-01-29 13:22:00
  • python中的列表与元组的使用

    2023-07-23 08:25:12
  • Python Django form 组件动态从数据库取choices数据实例

    2024-01-21 17:00:52
  • python GUI库图形界面开发之PyQt5动态(可拖动控件大小)布局控件QSplitter详细使用方法与实例

    2023-06-20 22:10:04
  • 用python写一个windows下的定时关机脚本(推荐)

    2022-03-01 10:26:37
  • mysql存储过程如何利用临时表返回结果集

    2024-01-13 07:39:05
  • sqlserver 数据库压缩与数据库日志(ldf)压缩方法分享

    2012-01-05 18:57:19
  • PHP simplexml_import_dom()函数讲解

    2023-06-09 19:18:30
  • Python教程之Python多态的深层次理解

    2021-07-30 07:50:53
  • Golang中Delve版本太低无法Debug的问题

    2024-04-25 15:18:05
  • Python 实现删除某路径下文件及文件夹的实例讲解

    2021-05-07 08:31:49
  • asp之家 网络编程 m.aspxhome.com