python正则过滤字母、中文、数字及特殊字符方法详解

作者:jlulxg 时间:2022-02-20 10:14:47 

去除数字,特殊字符,只保留汉字


import re

s = '1123*#$ 中abc国'
str = re.sub('[a-zA-Z0-9'!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘'![\\]^_`{|}~\s]+', "", s)
# 去除不可见字符
str = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+', '', x)
print(str)
# 结果为:中国

去除特殊字符,只保留汉子,字母、数字


import re
string = "123我123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》"
print(string)
123我123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》
sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(sub_str)
123我123456abcdefgABCVDFF

正则表达式说明

函数说明
sub(pattern,repl,string)把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**]表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5汉字的unicode范围
\u0030-\u0039数字的unicode范围
\u0041-\u005a大写字母unicode范围
\u0061-\u007a小写字母unicode范围
\uAC00-\uD7AF韩文的unicode范围
\u3040-\u31FF日文的unicode范围

来源:https://blog.csdn.net/jlulxg/article/details/84650683

标签:python,正则,中文
0
投稿

猜你喜欢

  • Python字符串本身作为bytes进行解码的问题

    2022-12-22 07:18:42
  • golang协程关闭踩坑实战记录

    2024-02-13 00:02:57
  • Python用函数思想完成哥德巴赫猜想代码分析

    2022-05-05 11:42:06
  • Go语言中的自定义类型你了解吗

    2024-02-06 00:11:36
  • pytorch中使用cuda扩展的实现示例

    2021-02-17 23:46:55
  • Python如何实现定时器功能

    2023-04-13 23:19:28
  • Python中的元类编程入门指引

    2023-08-02 02:43:44
  • 后端开发使用pycharm的技巧(推荐)

    2021-11-16 14:50:07
  • 浅谈Django中view对数据库的调用方法

    2024-01-17 02:13:28
  • mysql installer community 8.0.16.0安装配置图文教程

    2024-01-14 00:30:55
  • 教你使用Pycharm配置远程Jupyter

    2023-02-09 19:43:06
  • Tensorflow使用支持向量机拟合线性回归

    2021-01-20 03:38:42
  • 给Django Admin添加验证码和多次登录尝试限制的实现

    2022-10-17 01:09:34
  • 一起来了解python的运算符

    2022-08-29 03:01:17
  • XMLHttpRequest Level 2 使用指南

    2024-04-18 10:49:50
  • Python 时间操作time详情

    2023-09-13 13:23:09
  • python多线程与多进程及其区别详解

    2021-10-10 04:04:49
  • Python如何使用Gitlab API实现批量的合并分支

    2023-01-31 18:17:45
  • Vue Render函数原理及代码实例解析

    2023-07-02 16:34:38
  • python文件读取失败怎么处理

    2023-05-06 17:14:46
  • asp之家 网络编程 m.aspxhome.com