python中如何使用朴素贝叶斯算法
作者:lc19861217 时间:2023-02-26 08:51:39
这里再重复一下标题为什么是"使用"而不是"实现":
首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高。
其次,对于数学不好的人来说,为了实现算法而去研究一堆公式是很痛苦的事情。
再次,除非他人提供的算法满足不了自己的需求,否则没必要"重复造轮子"。
下面言归正传,不了解贝叶斯算法的可以去查一下相关资料,这里只是简单介绍一下:
1.贝叶斯公式:
P(A|B)=P(AB)/P(B)
2.贝叶斯推断:
P(A|B)=P(A)×P(B|A)/P(B)
用文字表述:
后验概率=先验概率×相似度/标准化常量
而贝叶斯算法要解决的问题就是如何求出相似度,即:P(B|A)的值
3. 在scikit-learn包中提供了三种常用的朴素贝叶斯算法,下面依次说明:
1)高斯朴素贝叶斯:假设属性/特征是服从正态分布的(如下图),主要应用于数值型特征。
使用scikit-learn包中自带的数据,代码及说明如下:
>>>from sklearn import datasets ##导入包中的数据
>>> iris=datasets.load_iris() ##加载数据
>>> iris.feature_names ##显示特征名字
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
>>> iris.data ##显示数据
array([[ 5.1, 3.5, 1.4, 0.2],[ 4.9, 3. , 1.4, 0.2],[ 4.7, 3.2, 1.3, 0.2]............
>>> iris.data.size ##数据大小 ---600个
>>> iris.target_names ##显示分类的名字
array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
>>> from sklearn.naive_bayes import GaussianNB ##导入高斯朴素贝叶斯算法
>>> clf = GaussianNB() ##给算法赋一个变量,主要是为了方便使用
>>> clf.fit(iris.data, iris.target) ##开始分类。对于量特别大的样本,可以使用函数partial_fit分类,避免一次加载过多数据到内存
>>> clf.predict(iris.data[0].reshape(1,-1)) ##验证分类。标红部分特别说明:因为predict的参数是数组,data[0]是列表,所以需要转换一下
array([0])
>>> data=np.array([6,4,6,2]) ##验证分类
>>> clf.predict(data.reshape(1,-1))
array([2])
这里涉及到一个问题:如何判断数据符合正态分布? R语言里面有相关函数判断,或者直接绘图也可以看出来,但是都是P(x,y)这种可以在坐标系里面直接
画出来的情况,而例子中的数据如何确定,目前还没有搞明白,这部分后续会补上。
2)多项式分布朴素贝叶斯:常用于文本分类,特征是单词,值是单词出现的次数。
##示例来在官方文档,详细说明见第一个例子
>>> import numpy as np
>>> X = np.random.randint(5, size=(6, 100)) ##返回随机整数值:范围[0,5) 大小6*100 6行100列
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB()
>>> clf.fit(X, y)
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)
>>> print(clf.predict(X[2]))
[3]
3)伯努力朴素贝叶斯:每个特征都是是布尔型,得出的结果是0或1,即出现没出现
##示例来在官方文档,详细说明见第一个例子
>>> import numpy as np
>>> X = np.random.randint(2, size=(6, 100))
>>> Y = np.array([1, 2, 3, 4, 4, 5])
>>> from sklearn.naive_bayes import BernoulliNB
>>> clf = BernoulliNB()
>>> clf.fit(X, Y)
BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)
>>> print(clf.predict(X[2]))
[3]
补充说明:此文还不完善,示例一中也有部分说明需要写,最近事情较多,后续会逐渐完善。
来源:http://www.cnblogs.com/lc1217/p/6590022.html
标签:python,算法


猜你喜欢
这三个好用的python函数你不能不知道!
2023-04-23 10:29:22

如何编写Go语言中间件的实例教程
2024-04-25 15:29:05
element-ui表格列金额显示两位小数的方法
2024-04-26 17:41:10

JavaScript函数参数使用带参数名的方式赋值传入的方法
2024-04-30 09:51:52
Python实现线性判别分析(LDA)的MATLAB方式
2022-07-21 02:38:34

用CSS实现柱状图(Bar Graph)的方法(二)—基于表格元素的柱状图
2008-05-26 13:23:00
Django Auth应用实现用户身份认证
2022-10-20 12:37:36
JavaScript 数据结构之字典方法
2024-04-16 09:28:22
Python实现的爬取小说爬虫功能示例
2022-07-14 20:36:16
python 调用API接口 获取和解析 Json数据
2022-01-24 17:57:15
Django基础知识 web框架的本质详解
2023-03-23 17:38:01
vue中如何引入html静态页面
2023-07-02 17:03:34

Python EOL while scanning string literal问题解决方法
2021-01-20 23:58:38

TypeScript新语法之infer extends示例详解
2024-03-13 20:42:27

详解Vue 多级组件透传新方法provide/inject
2024-06-05 09:21:03
php实现简单的权限管理的示例代码
2024-05-05 09:18:37

去掉CSS赘余代码,CSS可以更简洁
2008-11-05 13:07:00
Python实现按逗号分隔列表的方法
2023-06-08 08:32:16
深入解读Python解析XML的几种方式
2022-11-29 02:52:31

python实现输出一个序列的所有子序列示例
2022-04-13 18:34:45
