Python特征降维知识点总结

作者:小妮浅浅 时间:2022-07-12 11:17:42 

说明

1、PCA是最经典、最实用的降维技术,尤其在辅助图形识别中表现突出。

2、用来减少数据集的维度,同时保持数据集中对方差贡献最大的特征。

保持低阶主成分,而忽略高阶成分,低阶成分往往能保留数据的最重要部分。

实例


from sklearn.feature_selection import VarianceThreshold

# 特征选择  VarianceThreshold删除低方差的特征(删除差别不大的特征)
var = VarianceThreshold(threshold=1.0)   # 将方差小于等于1.0的特征删除。 默认threshold=0.0
data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

print(data)
'''
[[0]
[4]
[1]]
'''

内容扩展:

python实现拉普拉斯降维


def laplaEigen(dataMat,k,t):
m,n=shape(dataMat)
W=mat(zeros([m,m]))
D=mat(zeros([m,m]))
for i in range(m):
k_index=knn(dataMat[i,:],dataMat,k)
for j in range(k):
 sqDiffVector = dataMat[i,:]-dataMat[k_index[j],:]
 sqDiffVector=array(sqDiffVector)**2
 sqDistances = sqDiffVector.sum()
 W[i,k_index[j]]=math.exp(-sqDistances/t)
 D[i,i]+=W[i,k_index[j]]
L=D-W
Dinv=np.linalg.inv(D)
X=np.dot(D.I,L)
lamda,f=np.linalg.eig(X)
return lamda,f
def knn(inX, dataSet, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize,1)) - dataSet
sqDiffMat = array(diffMat)**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()
return sortedDistIndicies[0:k]
dataMat, color = make_swiss_roll(n_samples=2000)
lamda,f=laplaEigen(dataMat,11,5.0)
fm,fn =shape(f)
print 'fm,fn:',fm,fn
lamdaIndicies = argsort(lamda)
first=0
second=0
print lamdaIndicies[0], lamdaIndicies[1]
for i in range(fm):
if lamda[lamdaIndicies[i]].real>1e-5:
print lamda[lamdaIndicies[i]]
first=lamdaIndicies[i]
second=lamdaIndicies[i+1]
break
print first, second
redEigVects = f[:,lamdaIndicies]
fig=plt.figure('origin')
ax1 = fig.add_subplot(111, projection='3d')
ax1.scatter(dataMat[:, 0], dataMat[:, 1], dataMat[:, 2], c=color,cmap=plt.cm.Spectral)
fig=plt.figure('lowdata')
ax2 = fig.add_subplot(111)
ax2.scatter(f[:,first], f[:,second], c=color, cmap=plt.cm.Spectral)
plt.show()

来源:https://www.py.cn/jishu/jichu/32598.html

标签:Python,特征降维
0
投稿

猜你喜欢

  • python脚本和网页有何区别

    2023-04-01 21:24:10
  • python实现简单的计时器功能函数

    2023-02-13 08:33:55
  • vuex实现的简单购物车功能示例

    2024-05-08 10:43:19
  • Python爬虫之xlml解析库(全面了解)

    2023-03-30 21:16:17
  • windows11安装SQL server数据库报错等待数据库引擎恢复句柄失败解决办法

    2024-01-16 07:18:52
  • python使用Image处理图片常用技巧分析

    2023-01-17 14:51:38
  • MySQL数据库的事务和索引详解

    2024-01-21 00:40:48
  • 利用golang的字符串解决leetcode翻转字符串里的单词

    2023-07-17 16:36:21
  • perl中的范围声明our-my-local介绍

    2022-12-15 02:21:50
  • python整小时 整天时间戳获取算法示例

    2021-02-11 10:27:33
  • Django的CVB实例详解

    2023-11-04 06:47:26
  • python使用Turtle库画画写名字

    2023-12-03 03:58:38
  • django的model操作汇整详解

    2022-05-16 03:59:46
  • django自定义非主键自增字段类型详解(auto increment field)

    2021-08-22 02:11:42
  • 9种python web 程序的部署方式小结

    2021-04-14 10:39:44
  • sqlserver中获取月份的天数的方法分享

    2011-09-30 11:27:52
  • python自动截取需要区域,进行图像识别的方法

    2021-05-14 11:04:42
  • 交互设计规范原则

    2011-09-30 11:52:12
  • CSS的学习应该注意学习方法

    2007-11-27 00:20:00
  • 提升MongoDB性能的方法

    2024-01-14 02:43:34
  • asp之家 网络编程 m.aspxhome.com