Python正则表达式匹配HTML页面编码

作者:junjie 时间:2023-07-29 06:50:36 

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:


import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
  '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
  '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
  '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
  '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
  '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
  '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
  ]

b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"

B = re.compile(b, re.IGNORECASE)

for ax in a:
 r1 = B.search(ax)

if r1:
   print r1.group()
   print r1.group(1), len(r1.group())
 else:
   print 'not match'


标签:Python,正则表达式,HTML,页面编码
0
投稿

猜你喜欢

  • Python 字符串操作实现代码(截取/替换/查找/分割)

    2023-07-14 06:14:00
  • 全面了解JavaScript对象进阶

    2024-04-22 12:47:51
  • Django返回HTML文件的实现方法

    2022-12-25 16:26:16
  • Python利用operator模块实现对象的多级排序详解

    2023-09-26 20:11:09
  • css样式表使用技巧小结

    2008-01-11 20:44:00
  • 详解git reset 加不加 --hard的区别

    2022-04-03 06:45:13
  • location.href 在IE6中不跳转的解决方法与推荐使用代码

    2024-04-19 10:13:38
  • ASP+ajax注册即时提示程序代码

    2011-02-05 11:25:00
  • Python实现两个list求交集,并集,差集的方法示例

    2021-12-27 19:52:06
  • 利用d3.js实现蜂巢图表带动画效果

    2024-04-18 10:15:19
  • python中内置函数ord()返回字符串的ASCII数值实例详解

    2023-09-05 07:07:26
  • 本地windows安装两个mysql服务器,配置主从同步

    2024-01-15 13:57:30
  • 微信小程序学习笔记之表单提交与PHP后台数据交互处理图文详解

    2023-11-22 19:29:44
  • 查询SQL Server Index上次Rebuild时间的方法

    2024-01-14 11:31:23
  • Layer UI表格列日期格式化及取消自动填充日期的实现方法

    2024-04-22 13:02:22
  • Python中的正则表达式与JSON数据交换格式

    2023-06-21 18:16:26
  • Mysql 删除重复数据保留一条有效数据(最新推荐)

    2024-01-20 17:08:11
  • 详解配置Django的Celery异步之路踩坑

    2022-11-25 22:06:45
  • Python+Pygame制作简易版2048小游戏

    2022-12-01 18:05:03
  • Python Django实现个人博客系统的搭建

    2021-12-17 15:04:58
  • asp之家 网络编程 m.aspxhome.com