Python特征降维知识点总结
作者:小妮浅浅 时间:2022-07-12 11:17:42
说明
1、PCA是最经典、最实用的降维技术,尤其在辅助图形识别中表现突出。
2、用来减少数据集的维度,同时保持数据集中对方差贡献最大的特征。
保持低阶主成分,而忽略高阶成分,低阶成分往往能保留数据的最重要部分。
实例
from sklearn.feature_selection import VarianceThreshold
# 特征选择 VarianceThreshold删除低方差的特征(删除差别不大的特征)
var = VarianceThreshold(threshold=1.0) # 将方差小于等于1.0的特征删除。 默认threshold=0.0
data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print(data)
'''
[[0]
[4]
[1]]
'''
内容扩展:
python实现拉普拉斯降维
def laplaEigen(dataMat,k,t):
m,n=shape(dataMat)
W=mat(zeros([m,m]))
D=mat(zeros([m,m]))
for i in range(m):
k_index=knn(dataMat[i,:],dataMat,k)
for j in range(k):
sqDiffVector = dataMat[i,:]-dataMat[k_index[j],:]
sqDiffVector=array(sqDiffVector)**2
sqDistances = sqDiffVector.sum()
W[i,k_index[j]]=math.exp(-sqDistances/t)
D[i,i]+=W[i,k_index[j]]
L=D-W
Dinv=np.linalg.inv(D)
X=np.dot(D.I,L)
lamda,f=np.linalg.eig(X)
return lamda,f
def knn(inX, dataSet, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize,1)) - dataSet
sqDiffMat = array(diffMat)**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()
return sortedDistIndicies[0:k]
dataMat, color = make_swiss_roll(n_samples=2000)
lamda,f=laplaEigen(dataMat,11,5.0)
fm,fn =shape(f)
print 'fm,fn:',fm,fn
lamdaIndicies = argsort(lamda)
first=0
second=0
print lamdaIndicies[0], lamdaIndicies[1]
for i in range(fm):
if lamda[lamdaIndicies[i]].real>1e-5:
print lamda[lamdaIndicies[i]]
first=lamdaIndicies[i]
second=lamdaIndicies[i+1]
break
print first, second
redEigVects = f[:,lamdaIndicies]
fig=plt.figure('origin')
ax1 = fig.add_subplot(111, projection='3d')
ax1.scatter(dataMat[:, 0], dataMat[:, 1], dataMat[:, 2], c=color,cmap=plt.cm.Spectral)
fig=plt.figure('lowdata')
ax2 = fig.add_subplot(111)
ax2.scatter(f[:,first], f[:,second], c=color, cmap=plt.cm.Spectral)
plt.show()
来源:https://www.py.cn/jishu/jichu/32598.html
标签:Python,特征降维
0
投稿
猜你喜欢
python脚本和网页有何区别
2023-04-01 21:24:10
python实现简单的计时器功能函数
2023-02-13 08:33:55
vuex实现的简单购物车功能示例
2024-05-08 10:43:19
Python爬虫之xlml解析库(全面了解)
2023-03-30 21:16:17
windows11安装SQL server数据库报错等待数据库引擎恢复句柄失败解决办法
2024-01-16 07:18:52
python使用Image处理图片常用技巧分析
2023-01-17 14:51:38
MySQL数据库的事务和索引详解
2024-01-21 00:40:48
利用golang的字符串解决leetcode翻转字符串里的单词
2023-07-17 16:36:21
perl中的范围声明our-my-local介绍
2022-12-15 02:21:50
python整小时 整天时间戳获取算法示例
2021-02-11 10:27:33
Django的CVB实例详解
2023-11-04 06:47:26
python使用Turtle库画画写名字
2023-12-03 03:58:38
django的model操作汇整详解
2022-05-16 03:59:46
django自定义非主键自增字段类型详解(auto increment field)
2021-08-22 02:11:42
9种python web 程序的部署方式小结
2021-04-14 10:39:44
sqlserver中获取月份的天数的方法分享
2011-09-30 11:27:52
python自动截取需要区域,进行图像识别的方法
2021-05-14 11:04:42
交互设计规范原则
2011-09-30 11:52:12
CSS的学习应该注意学习方法
2007-11-27 00:20:00
提升MongoDB性能的方法
2024-01-14 02:43:34