判断网页编码的方法python版
作者:mickelfeng 时间:2022-06-29 10:01:18
在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。
下面介绍两种判断网页编码的方法:
总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。
方法一:使用urllib模块的getparam方法
import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu
方法二:使用chardet模块
#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦
#author:pythontab.com
import chardet
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
print chardit1['encoding'] # baidu
标签:python,网页编码
0
投稿
猜你喜欢
python sys模块使用方法介绍
2021-02-03 09:19:16
js正则表达exec与match的区别说明
2024-04-17 10:25:26
python处理大日志文件
2021-11-09 22:21:14
golang中json操作的完全指南
2024-04-23 09:35:00
简单解析PHP程序的运行流程
2023-06-22 07:35:41
PHP常用字符串操作函数实例总结(trim、nl2br、addcslashes、uudecode、md5等)
2023-10-02 13:10:01
python使用any判断一个对象是否为空的方法
2022-08-17 07:32:16
在SUSE10环境下安装和配置MySQL数据库
2008-12-17 15:03:00
PHP PDOStatement::bindParam讲解
2023-06-05 05:47:28
python实现堆栈与队列的方法
2023-06-19 02:57:04
Python中线程threading.Thread的使用详解
2023-07-22 13:25:48
用js实现用户输入密码的强度
2007-11-22 21:41:00
破解 屏蔽 防框架代码 top.location != self.location
2008-11-27 12:59:00
对Django中static(静态)文件详解以及{% static %}标签的使用方法
2021-03-27 20:28:21
python使用docx模块读写docx文件的方法与docx模块常用方法详解
2022-05-14 11:37:17
socket + select 完成伪并发操作的实例
2022-05-09 14:23:32
Python获取单个程序CPU使用情况趋势图
2021-11-19 02:36:59
Python实现视频目标检测与轨迹跟踪流程详解
2021-12-27 06:48:37
python爬虫框架Scrapy基本应用学习教程
2021-04-05 13:09:44
ecshop百度编辑器远程下载无后缀的图片,并且加水印
2023-08-14 17:31:41