python正则过滤字母、中文、数字及特殊字符方法详解
作者:jlulxg 时间:2022-02-20 10:14:47
去除数字,特殊字符,只保留汉字
import re
s = '1123*#$ 中abc国'
str = re.sub('[a-zA-Z0-9'!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘'![\\]^_`{|}~\s]+', "", s)
# 去除不可见字符
str = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+', '', x)
print(str)
# 结果为:中国
去除特殊字符,只保留汉子,字母、数字
import re
string = "123我123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》"
print(string)
123我123456abcdefgABCVDFF?/ ,。,.:;:''';'''[]{}()()《》
sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(sub_str)
123我123456abcdefgABCVDFF
正则表达式说明
函数 | 说明 |
sub(pattern,repl,string) | 把字符串中的所有匹配表达式pattern中的地方替换成repl |
[^**] | 表示不匹配此字符集中的任何一个字符 |
\u4e00-\u9fa5 | 汉字的unicode范围 |
\u0030-\u0039 | 数字的unicode范围 |
\u0041-\u005a | 大写字母unicode范围 |
\u0061-\u007a | 小写字母unicode范围 |
\uAC00-\uD7AF | 韩文的unicode范围 |
\u3040-\u31FF | 日文的unicode范围 |
来源:https://blog.csdn.net/jlulxg/article/details/84650683
标签:python,正则,中文
0
投稿
猜你喜欢
Python字符串本身作为bytes进行解码的问题
2022-12-22 07:18:42
golang协程关闭踩坑实战记录
2024-02-13 00:02:57
Python用函数思想完成哥德巴赫猜想代码分析
2022-05-05 11:42:06
Go语言中的自定义类型你了解吗
2024-02-06 00:11:36
pytorch中使用cuda扩展的实现示例
2021-02-17 23:46:55
Python如何实现定时器功能
2023-04-13 23:19:28
Python中的元类编程入门指引
2023-08-02 02:43:44
后端开发使用pycharm的技巧(推荐)
2021-11-16 14:50:07
浅谈Django中view对数据库的调用方法
2024-01-17 02:13:28
mysql installer community 8.0.16.0安装配置图文教程
2024-01-14 00:30:55
教你使用Pycharm配置远程Jupyter
2023-02-09 19:43:06
Tensorflow使用支持向量机拟合线性回归
2021-01-20 03:38:42
给Django Admin添加验证码和多次登录尝试限制的实现
2022-10-17 01:09:34
一起来了解python的运算符
2022-08-29 03:01:17
XMLHttpRequest Level 2 使用指南
2024-04-18 10:49:50
Python 时间操作time详情
2023-09-13 13:23:09
python多线程与多进程及其区别详解
2021-10-10 04:04:49
Python如何使用Gitlab API实现批量的合并分支
2023-01-31 18:17:45
Vue Render函数原理及代码实例解析
2023-07-02 16:34:38
python文件读取失败怎么处理
2023-05-06 17:14:46