python皮尔逊相关性数据分析分析及实例代码

作者:fanstuck 时间:2021-03-12 13:23:34 

前言

相关性分析算是很多算法以及建模的基础知识之一了,十分经典。关于许多特征关联关系以及相关趋势都可以利用相关性分析计算表达。其中常见的相关性系数就有三种:person相关系数,spearman相关系数,Kendall's tau-b等级相关系数。各有各自的用法和使用场景。当然关于这以上三种相关系数的计算算法和原理+代码我都会在我专栏里面写齐全。目前关于数学建模的专栏已经将传统的机器学习预测算法、维度算法、时序预测算法和权重算法写的七七八八了,有这个需求兴趣的同学可以去看看。

python皮尔逊相关性数据分析分析及实例代码

数值类型

之前在我上篇文章说过关于数据特征是一个很重要的例子,任何分析算法都需要建立在其符合使用场景之上,我们需要对症下药,从数据特征开始分析。

按照数据存储的数据格式可以归纳为两类:

python皮尔逊相关性数据分析分析及实例代码

按照特征数据含义又可分为:

  • 离散型随机变量:取值只能是可取范围内的指定数值类型的随机变量,比如年龄、车流量此类数据。

  • 连续随机变量:按照测量或者计算方法得到,在某个范围内连取n个值,此类数据可化为定类数据。

  • 二分类数据:此类数据仅只有两类:例如是与否、成功与失败。

  • 多分类数据:此类数据有多类:例如天气出太阳、下雨、阴天。

  • 周期型数据:此类数据存在一个周期循环:例如周数月数。

那么问题来了,关于这三种系数到底适用于哪种数据场景呢?

皮尔逊系数使用场景

首先使用皮尔逊系数的情况包含以下三种特性,我们从scipy的函数pearsonr的相关说明就可以看出:

The Pearson correlation coefficient [1] measures the linear relationship between two datasets. Like other correlation coefficients, this one varies between -1 and +1 with 0 implying no correlation. Correlations of -1 or +1 imply an exact linear relationship. Positive correlations imply that as x increases, so does y. Negative correlations imply that as x increases, y decreases.

也就是说:皮尔逊相关系数测量两个数据集之间的线性关系。与其他相关系数一样,该系数在-1和+1之间变化,0表示不相关。-1或+1的相关性意味着精确的线性关系。正相关意味着x增加,y也增加。负相关意味着随着x增加,y减少。 总结一下对于皮尔逊相关系数的使用场景,有三种必要的特性使用皮尔逊系数最佳:

  • 连续数据

  • 正态分布

  • 线性关系

上述三个条件均满足才能使用pearson相关系数,否则就用spearman相关系数。定序数据之间也只用spearman相关系数,不能用pearson相关系数。

皮尔逊相关系数(Pearson correlation)

1.定义

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:

python皮尔逊相关性数据分析分析及实例代码

 变量相关强度

相关程度极强相关强相关中等强度相关弱相关极弱相关或无相关
相关系数绝对值1-0.80.8-0.60.6-0.40.4-0.20.2-0

2.线性关系判定

一般可以利用散点图加上最小二乘法拟合大体看出线性关系:

python皮尔逊相关性数据分析分析及实例代码

3.正态检验

1.KS检验

假设检验的基本思想:

若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的。如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设。

实质分析: 假设检验实质上是对原假设是否正确进行检验,因此检验过程中要使原假设得到维护,使之不轻易被拒绝;否定原假设必须有充分的理由。同时,当原假设被接受时,也只能认为否定该假设的根据不充分,而不是认为它绝对正确。

借助假设检验的思想,利用K-S检验可以对数列的性质进行检验:

python皮尔逊相关性数据分析分析及实例代码

def normal_test(data):
   u = data.mean()
   std = data.std()
   result = stats.kstest(data, 'norm', (u, std))
   print(result)
normal_test()

python皮尔逊相关性数据分析分析及实例代码

此时,pvalue > 0.05,不拒绝原假设。因此数据服从正态分布。

4.计算代码

若以上验证均成功则采取皮尔逊相关系数进行相关性分析,可以使用pandas的函数corr:

DataFrame.corr(method='pearson',
              min_periods=1,
              numeric_only=_NoDefault.no_default)

参数说明:

method: {‘pearson’, ‘kendall’, ‘spearman’} or callable。Method of correlation。

  • pearson : standard correlation coefficient,皮尔逊系数

  • kendall : Kendall Tau correlation coefficient,肯德尔系数

  • spearman :Spearman rank correlation,斯皮尔曼系数

min_periods:int, optional。每对列所需的最小样本数。目前仅适用于Pearson和Spearman相关性。 numeric_only:bool, default True。仅包含浮点、整型或布尔型数据。

rho =df_test.corr(method='pearson')
rho

python皮尔逊相关性数据分析分析及实例代码

plt.rcParams['font.family'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.heatmap(rho, annot=True)
plt.title('Heat Map', fontsize=18)

python皮尔逊相关性数据分析分析及实例代码

来源:https://juejin.cn/post/7196290097549361209

标签:python,皮尔逊,相关性,数据分析
0
投稿

猜你喜欢

  • 使用DW中遇到的常见问题详解

    2008-03-18 16:27:00
  • python爬虫数据保存到mongoDB的实例方法

    2021-10-10 09:52:24
  • python获取list下标及其值的简单方法

    2023-09-18 08:30:56
  • 不同浏览器空格的宽度

    2007-08-22 08:29:00
  • Python ArcPy实现批量拼接长时间序列栅格图像

    2021-09-07 18:48:53
  • Python系统公网私网流量监控实现流程

    2022-05-16 07:55:39
  • mysql 存在该记录则更新,不存在则插入记录的sql

    2024-01-29 07:19:24
  • Pandas中DataFrame交换列顺序的方法实现

    2023-01-21 10:21:08
  • 一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系

    2022-06-27 14:21:53
  • php之二维数组排序问题

    2023-07-15 06:44:42
  • 详解Django中Request对象的相关用法

    2021-12-08 16:30:06
  • python基础中的文件对象详解

    2021-10-20 00:22:40
  • vue如何搭建多页面多系统应用

    2024-05-02 17:03:47
  • TIOBE编程语言排行榜前20的语言入门书籍推荐

    2023-04-05 12:19:48
  • Select count(*)、Count(1)和Count(列)的区别及执行方式

    2024-01-28 14:43:04
  • JavaScript 图片变换效果(ie only)

    2010-01-20 12:40:00
  • Symfony控制层深入详解

    2023-11-14 20:43:33
  • 浅析Python语言自带的数据结构有哪些

    2022-01-14 04:08:44
  • Python页面加载的等待方式总结

    2023-07-24 23:42:30
  • Python神经网络TensorFlow基于CNN卷积识别手写数字

    2022-06-18 20:23:00
  • asp之家 网络编程 m.aspxhome.com