python处理“&#”开头加数字的html字符方法

作者:laozhang 时间:2021-11-05 17:09:42 

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:


风水大术士

python处理“&#”开头加数字的html字符方法

python处理“&#”开头加数字的html字符方法

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

python处理“&#”开头加数字的html字符方法

定义变量,再定义转换代码。

python处理“&#”开头加数字的html字符方法

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。 

python处理“&#”开头加数字的html字符方法

测试运行,这串字符串正常输出了中文。

python处理“&#”开头加数字的html字符方法

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

python处理“&#”开头加数字的html字符方法

导入html后,直接用".unescape()"来处理字符串。

python处理“&#”开头加数字的html字符方法

运行后,正常转换成了中文字符。

python处理“&#”开头加数字的html字符方法

感谢大家的阅读和对脚本之家的支持。

标签:python,开头,数字,html字符
0
投稿

猜你喜欢

  • Python学习笔记之os模块使用总结

    2023-05-12 07:46:21
  • Python基本数据类型之字符串str

    2021-06-03 22:47:31
  • JavaScript 数组的 uniq 方法

    2007-12-07 18:28:00
  • Golang语言学习拿捏Go反射示例教程

    2023-06-22 23:30:23
  • Python编程OpenCV和Numpy图像处理库实现图片去水印

    2023-10-10 15:12:44
  • css清除浮动的方法总结与选择

    2008-06-06 12:58:00
  • python运行或调用另一个py文件或参数方式

    2023-10-26 02:04:47
  • Python如何使用字符打印照片

    2023-06-12 09:20:34
  • python实现知乎高颜值图片爬取

    2023-03-11 10:35:54
  • selenium3.0+python之环境搭建的方法步骤

    2023-03-20 06:00:22
  • python paramiko模块学习分享

    2021-11-10 16:57:00
  • 全面阐述overflow:hidden属性

    2008-08-18 13:30:00
  • Python中assert函数的使用(含源代码)

    2022-07-18 19:46:49
  • 发个js从样式表取值的函数

    2008-05-20 12:23:00
  • PHP用Session实现用户登陆功能

    2023-06-18 02:09:38
  • Python工程师面试题 与Python Web相关

    2021-11-10 13:00:48
  • python数据可视化JupyterLab实用扩展程序Mito

    2021-01-24 13:42:04
  • 微信公众平台开发入门教程(图文详解)

    2023-06-21 11:10:05
  • php以post形式发送xml的方法

    2023-11-22 12:40:47
  • Python获取秒级时间戳与毫秒级时间戳的示例代码

    2022-05-05 22:13:00
  • asp之家 网络编程 m.aspxhome.com