Python查找文件中包含中文的行方法
作者:AlbertS 发布时间:2023-06-11 11:16:20
标签:Python,文件,中文,行
前言
近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。
代码
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files
__author__ = 'AlbertS'
import re
def start_find_chinese():
find_count = 0;
with open('ko_untranslated.txt', 'wb') as outfile:
with open('source_ko.txt', 'rb') as infile:
while True:
content = infile.readline()
if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
outfile.write(content)
find_count += 1;
if not content:
return find_count
# start to find
if __name__ == '__main__':
count = start_find_chinese()
print("find complete! count =", count)
原始文件
source_ko.txt文件内容
3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달
运行效果(ko_untranslated.txt文件)
2840 飞黄腾达
4841 同归于尽
总结
1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。
2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。
3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。
来源:https://blog.csdn.net/albertsh/article/details/78128042
0
投稿
猜你喜欢
- 见以下两个文件:showimage.asp Change the HTTP header
- 从 Google 的一个细节说起:整个虚线框都是“Next”的可点击区域。看似不经意,却直接提升了细节的可用性。其它页码也巧妙地和上面的字母
- 最近在做项目的时候经常会用到定时任务,由于我的项目是使用Java来开发,用的是SpringBoot框架,因此要实现这个定时任务其实并不难。后
- python jenkins 打包构建代码# pip install python-jenkinsimport jenkinsimport
- 前言:为了帮助广大考生和家长了解高考历年的录取情况,很多网站都汇总了各省市的录取控制分数线,为广大考生填报志愿提供参考。因受多种因素影响,每
- 本文实例讲述了Python编程中event对象的用法。分享给大家供大家参考,具体如下:Python提供了Event对象用于线程间通信,它是由
- 使用FFmpeg命令拼接多个mp3格式的音频文件时报错抛出异常,使用命令格式如下:ffmpeg -i 1.mp3 -i 2.mp3 -fil
- 1. 原理图2. 说明JS 中用来存储待执行回调函数的队列包含 2 个不同特定的列队宏列队:用来保存待执行的宏任务(回调),比如:定时器回调
- def getFibonacci(num): res=[0,1] a=0 b=1 for x in
- 这个格式是我自创的,经常有人问我为什么,这里做个简单总结:1、分类,一个模块或者同类功能定义为一类定义,每类定义之间用段落隔开。2、分级,每
- 如下所示:def str_to_hex(s): s = s.split(' ')&nbs
- 本文实例讲述了Python 类属性与实例属性,类对象与实例对象用法。分享给大家供大家参考,具体如下:demo.py(类属性,所有实例对象共用
- 在ASP中,FSO的意思是File System Object,即文件系统对象。
- 前言日常工作中我们经常接触到一些文本类信息,需要从文本中解析出数据信息,然后再进行数据分析操作。而对文本类信息进行解析是一件比较头秃的事情,
- 上篇文章介绍了ROS TF坐标变换基本概念及使用案例,今天给大家介绍ROS机器人底盘坐标像素变换,一起看看吧对于ROS
- 交互设计师的一项重要工作就是进行产品原型设计(Prototype Design)。而产品原型设计最基础的工作,就是画出站点的大体wirefr
- 前言:问题分析:在进行数据库查询的时候,我们都知道索引可以加快数据查询的效率。但是在实际的业务场景下,经常会遇到即使在表中增加了索引,但是同
- demo: <div v-for="item in temps" :key="
- 前言:Matplotlib 通常与 NumPy、Pandas 一起使用,是数据分析中不可或缺的重要工具之一。Matplotlib 是 Pyt
- 神经网络的逻辑应该都是熟知的了,在这里想说明一下交叉验证交叉验证方法:看图大概就能理解了,大致就是先将数据集分成K份,对这K份中每一份都取不