判断网页编码的方法python版

作者:mickelfeng 时间:2022-06-29 10:01:18 

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。

下面介绍两种判断网页编码的方法:

总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。

方法一:使用urllib模块的getparam方法    


import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法二:使用chardet模块    


#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦
#author:pythontab.com
import chardet
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)

print chardit1['encoding'] # baidu
标签:python,网页编码
0
投稿

猜你喜欢

  • python sys模块使用方法介绍

    2021-02-03 09:19:16
  • js正则表达exec与match的区别说明

    2024-04-17 10:25:26
  • python处理大日志文件

    2021-11-09 22:21:14
  • golang中json操作的完全指南

    2024-04-23 09:35:00
  • 简单解析PHP程序的运行流程

    2023-06-22 07:35:41
  • PHP常用字符串操作函数实例总结(trim、nl2br、addcslashes、uudecode、md5等)

    2023-10-02 13:10:01
  • python使用any判断一个对象是否为空的方法

    2022-08-17 07:32:16
  • 在SUSE10环境下安装和配置MySQL数据库

    2008-12-17 15:03:00
  • PHP PDOStatement::bindParam讲解

    2023-06-05 05:47:28
  • python实现堆栈与队列的方法

    2023-06-19 02:57:04
  • Python中线程threading.Thread的使用详解

    2023-07-22 13:25:48
  • 用js实现用户输入密码的强度

    2007-11-22 21:41:00
  • 破解 屏蔽 防框架代码 top.location != self.location

    2008-11-27 12:59:00
  • 对Django中static(静态)文件详解以及{% static %}标签的使用方法

    2021-03-27 20:28:21
  • python使用docx模块读写docx文件的方法与docx模块常用方法详解

    2022-05-14 11:37:17
  • socket + select 完成伪并发操作的实例

    2022-05-09 14:23:32
  • Python获取单个程序CPU使用情况趋势图

    2021-11-19 02:36:59
  • Python实现视频目标检测与轨迹跟踪流程详解

    2021-12-27 06:48:37
  • python爬虫框架Scrapy基本应用学习教程

    2021-04-05 13:09:44
  • ecshop百度编辑器远程下载无后缀的图片,并且加水印

    2023-08-14 17:31:41
  • asp之家 网络编程 m.aspxhome.com