python聚类算法选择方法实例

作者:小妮浅浅 时间:2023-12-01 13:51:11 

说明

1、如果数据集是高维度的,选择谱聚类是子空间的一种。

2、如果数据量是中小型的,比如在100W条以内,K均值会是更好的选择;如果数据量超过100W条,可以考虑使用MiniBatchKMeans。

3、如果数据集中有噪声(离群点),使用基于密度的DBSCAN可以有效解决这个问题。

4、若追求更高的分类准确性,则选择谱聚类比K均值准确性更好。

实例


import numpy as np
import matplotlib.pyplot as plt

# 数据准备
raw_data = np.loadtxt('./pythonlearn/cluster.txt') # 导入数据文件
X = raw_data[:, :-1] # 分割要聚类的数据
y_true = raw_data[:, -1]

print(X)

知识点扩充:

聚类算法

有许多类型的聚类算法。许多算法在特征空间中的示例之间使用相似度或距离度量,以发现密集的观测区域。因此,在使用聚类算法之前,扩展数据通常是良好的实践。

聚类分析的所有目标的核心是被群集的各个对象之间的相似程度(或不同程度)的概念。聚类方法尝试根据提供给对象的相似性定义对对象进行分组。

一些聚类算法要求您指定或猜测数据中要发现的群集的数量,而另一些算法要求指定观测之间的最小距离,其中示例可以被视为“关闭”或“连接”。因此,聚类分析是一个迭代过程,在该过程中,对所识别的群集的主观评估被反馈回算法配置的改变中,直到达到期望的或适当的结果。scikit-learn 库提供了一套不同的聚类算法供选择。下面列出了10种比较流行的算法:

  • 亲和力传播

  • 聚合聚类

  • BIRCH

  • DBSCAN

  • K-均值

  • Mini-Batch K-均值

  • Mean Shift

  • OPTICS

  • 光谱聚类

  • 高斯混合

每个算法都提供了一种不同的方法来应对数据中发现自然组的挑战。没有最好的聚类算法,也没有简单的方法来找到最好的算法为您的数据没有使用控制实验。在本教程中,我们将回顾如何使用来自 scikit-learn 库的这10个流行的聚类算法中的每一个。这些示例将为您复制粘贴示例并在自己的数据上测试方法提供基础。我们不会深入研究算法如何工作的理论,也不会直接比较它们。让我们深入研究一下。

来源:https://www.py.cn/jishu/jichu/31919.html

标签:python,聚类算法
0
投稿

猜你喜欢

  • python使用Matplotlib绘制多种常见图形

    2023-05-26 05:06:28
  • ThinkPHP5.0框架控制器继承基类和自定义类示例

    2024-05-03 15:52:24
  • Python字符串中删除特定字符的方法

    2023-07-25 18:58:54
  • Vue中正确使用jQuery的方法

    2023-07-02 17:07:45
  • python 换位密码算法的实例详解

    2021-10-07 10:25:57
  • SQL Server Agent 服务启动后又停止问题

    2024-01-25 21:56:49
  • html风格tooltip效果的实现

    2010-04-08 13:00:00
  • mysql 查询数据库中的存储过程与函数的语句

    2024-01-26 17:30:35
  • python文件读写代码实例

    2023-08-09 19:29:52
  • python颜色随机生成器的实例代码

    2022-12-03 19:40:05
  • SQL SERVER 2012新增函数之逻辑函数CHOOSE详解

    2024-01-15 10:04:06
  • jquery实用技巧之输入框提示语句

    2024-04-22 12:49:10
  • Python-Tkinter Text输入内容在界面显示的实例

    2023-03-21 13:50:58
  • Python基于Webhook实现github自动化部署

    2023-09-28 21:31:27
  • 详解mysql8.0创建用户授予权限报错解决方法

    2024-01-26 08:58:31
  • 终于搞懂了Python中super(XXXX, self).__init__()的作用了

    2022-01-04 00:35:44
  • python 七种邮件内容发送方法实例

    2022-01-13 21:06:38
  • python os.stat()如何获取相关文件的系统状态信息

    2022-06-18 09:28:23
  • Python实现的RSS阅读器实例

    2021-11-21 14:46:49
  • Python实现人脸识别

    2022-10-01 06:06:24
  • asp之家 网络编程 m.aspxhome.com