Python正则表达式匹配HTML页面编码
作者:junjie 时间:2023-07-29 06:50:36
html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:
import re
a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
'<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
'<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
'<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
'<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
]
b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"
B = re.compile(b, re.IGNORECASE)
for ax in a:
r1 = B.search(ax)
if r1:
print r1.group()
print r1.group(1), len(r1.group())
else:
print 'not match'
标签:Python,正则表达式,HTML,页面编码
0
投稿
猜你喜欢
Python 字符串操作实现代码(截取/替换/查找/分割)
2023-07-14 06:14:00
全面了解JavaScript对象进阶
2024-04-22 12:47:51
Django返回HTML文件的实现方法
2022-12-25 16:26:16
Python利用operator模块实现对象的多级排序详解
2023-09-26 20:11:09
css样式表使用技巧小结
2008-01-11 20:44:00
详解git reset 加不加 --hard的区别
2022-04-03 06:45:13
location.href 在IE6中不跳转的解决方法与推荐使用代码
2024-04-19 10:13:38
ASP+ajax注册即时提示程序代码
2011-02-05 11:25:00
Python实现两个list求交集,并集,差集的方法示例
2021-12-27 19:52:06
利用d3.js实现蜂巢图表带动画效果
2024-04-18 10:15:19
python中内置函数ord()返回字符串的ASCII数值实例详解
2023-09-05 07:07:26
本地windows安装两个mysql服务器,配置主从同步
2024-01-15 13:57:30
微信小程序学习笔记之表单提交与PHP后台数据交互处理图文详解
2023-11-22 19:29:44
查询SQL Server Index上次Rebuild时间的方法
2024-01-14 11:31:23
Layer UI表格列日期格式化及取消自动填充日期的实现方法
2024-04-22 13:02:22
Python中的正则表达式与JSON数据交换格式
2023-06-21 18:16:26
Mysql 删除重复数据保留一条有效数据(最新推荐)
2024-01-20 17:08:11
详解配置Django的Celery异步之路踩坑
2022-11-25 22:06:45
Python+Pygame制作简易版2048小游戏
2022-12-01 18:05:03
Python Django实现个人博客系统的搭建
2021-12-17 15:04:58