python代码如何实现余弦相似性计算
作者:郭雪原 时间:2021-08-15 03:40:04
这篇文章主要介绍了python代码如何实现余弦相似性计算,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
A:西米喜欢健身
B:超超不爱健身,喜欢打游戏
step1:分词
A:西米/喜欢/健身
B:超超/不/喜欢/健身,喜欢/打/游戏
step2:列出两个句子的并集
西米/喜欢/健身/超超/不/打/游戏
step3:计算词频向量
A:[1,1,1,0,0,0,0]
B:[0,1,1,1,1,1,1]
step4:计算余弦值
余弦值越大,证明夹角越小,两个向量越相似。
step5:python代码实现
import jieba
import jieba.analyse
def words2vec(words1=None, words2=None):
v1 = []
v2 = []
tag1 = jieba.analyse.extract_tags(words1, withWeight=True)
tag2 = jieba.analyse.extract_tags(words2, withWeight=True)
tag_dict1 = {i[0]: i[1] for i in tag1}
tag_dict2 = {i[0]: i[1] for i in tag2}
merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys())
for i in merged_tag:
if i in tag_dict1:
v1.append(tag_dict1[i])
else:
v1.append(0)
if i in tag_dict2:
v2.append(tag_dict2[i])
else:
v2.append(0)
return v1, v2
def cosine_similarity(vector1, vector2):
dot_product = 0.0
normA = 0.0
normB = 0.0
for a, b in zip(vector1, vector2):
dot_product += a * b
normA += a ** 2
normB += b ** 2
if normA == 0.0 or normB == 0.0:
return 0
else:
return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 2)
def cosine(str1, str2):
vec1, vec2 = words2vec(str1, str2)
return cosine_similarity(vec1, vec2)
print(cosine('阿克苏苹果', '阿克苏苹果'))
来源:https://www.cnblogs.com/guoxueyuan/p/7779239.html
标签:python,余弦,相似性
0
投稿
猜你喜欢
Python3中的re.findall()方法及re.compile()
2023-04-12 11:54:47
Django中信号signals的简单使用方法
2023-08-18 08:49:49
奇淫技巧和西天取经
2009-08-24 12:34:00
JavaScript 扩展运算符用法实例小结【基于ES6】
2024-04-22 13:06:03
python 处理dataframe中的时间字段方法
2021-04-27 05:21:33
mysql性能优化之索引优化
2024-01-15 13:51:44
MySQL为例讲解JDBC数据库连接步骤
2024-01-25 06:14:52
“)”引起PNG透明滤镜失效
2008-08-11 13:10:00
python实现简单俄罗斯方块游戏
2023-04-13 03:28:05
python基于tkinter制作下班倒计时工具
2022-09-17 00:43:36
MySQL Version确认问题(版本确认)
2024-01-19 15:20:47
5个很好的Python面试题问题答案及分析
2023-05-12 18:45:23
Python数据分析Matplotlib 柱状图绘制
2023-10-19 03:00:02
django 2.2和mysql使用的常见问题
2024-01-27 17:40:02
python静态方法实例
2023-02-17 12:03:22
Python+Opencv识别两张相似图片
2022-11-07 09:12:55
一个基于flask的web应用诞生 bootstrap框架美化(3)
2023-12-04 02:30:39
Python函数关键字参数及用法详解
2023-08-13 00:34:06
Nodejs做文本数据处理实现详解
2024-05-13 10:04:06
解决Python下json.loads()中文字符出错的问题
2022-06-17 21:16:52