Python实现pdf文档转txt的方法示例
作者:肥宝Fable 时间:2021-12-08 19:16:16
本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考,具体如下:
首先,这是一个比较粗糙的版本,因为已经够用了,而且对pdf的格式不熟悉,所以暂时没有进一步优化。
还有,这是转成txt的,所以如果是有图片的pdf是无法保存图片的。
至于本来就是图片的文本,这里是无法分析出来的。那些图片的pdf,估计要用图形匹配的方式来处理,类似于超速拍摄的车牌识别。
不过这样的程度,已经不是文本处理了。扯远了。。。
转出来的文字,好像按照pdf里面的所展示的来换行了,看不到有什么规则还原,我也不知道怎么处理,将就着用吧。
另外,初始代码是网上找的,最初地址不知道哪里了。
用到了第三方库pdfminier
pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k
下载后,用cmd执行命令 setup.py install
安装完之后打开eclipse会弹出要求加载一些东西,点击确定就行了。
再来看看代码:
import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
class CPdf2TxtManager():
'''''
classdocs
'''
def __init__(self):
'''''
Constructor
'''
def changePdfToText(self, filePath):
file = open(path, 'rb') # 以二进制读模式打开
#用文件对象来创建一个pdf文档分析器
praser = PDFParser(file)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器 与文档对象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密码
# 如果没有密码 就创建一个空的字符串
doc.initialize()
# 检测文档是否提供txt转换,不提供就忽略
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed
# 创建PDf 资源管理器 来管理共享资源
rsrcmgr = PDFResourceManager()
# 创建一个PDF设备对象
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
# 创建一个PDF解释器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)
pdfStr = ''
# 循环遍历列表,每次处理一个page的内容
for page in doc.get_pages(): # doc.get_pages() 获取page列表
interpreter.process_page(page)
# 接受该页面的LTPage对象
layout = device.get_result()
# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,
for x in layout:
if (isinstance(x, LTTextBoxHorizontal)):
pdfStr = pdfStr + x.get_text() + '\n'
fileNames = os.path.splitext(filePath)
file2 = open(fileNames[0] + '.txt','wb')#保存这些内容
file2.write(pdfStr.encode())
file2.close()
file.close()
if __name__ == '__main__':
'''''
解析pdf 文本,保存到txt文件中
'''
path = r'C:\Users\Administrator\Desktop\《精力管理》.pdf'
pdf2TxtManager = CPdf2TxtManager()
pdf2TxtManager.changePdfToText(path)
更多Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》
希望本文所述对大家Python程序设计有所帮助。
来源:http://blog.csdn.net/u012175089/article/details/69267037
标签:Python,pdf,txt
0
投稿
猜你喜欢
ASP生成静态模版技术(带参数的标签)
2009-03-03 12:29:00
Python使用re模块实现正则表达式操作指南
2022-03-14 18:11:11
django admin后台添加导出excel功能示例代码
2023-10-19 10:43:48
对pandas replace函数的使用方法小结
2022-07-04 15:20:24
linux mysql5.5升级至mysql5.7的步骤与踩到的坑
2024-01-21 17:09:08
Python算法中的时间复杂度问题
2021-03-20 04:52:50
详解使用Python处理文件目录的相关方法
2023-08-01 02:55:30
XHTML中id与class的使用原则与技巧
2007-12-17 13:07:00
使用Spring AOP实现MySQL数据库读写分离案例分析(附demo)
2024-01-16 04:47:03
php结合js实现点击超链接执行删除确认操作
2023-11-15 03:30:51
pytorch实现mnist分类的示例讲解
2022-03-30 09:17:19
利用MySQL加密函数保护Web网站敏感数据
2008-12-17 16:11:00
Python+tkinter使用40行代码实现计算器功能
2023-05-07 17:27:16
如何计算 tensorflow 和 pytorch 模型的浮点运算数
2023-07-17 04:20:58
Python semaphore evevt生产者消费者模型原理解析
2021-11-14 12:52:39
Linux/UNIX和Window平台上安装Mysql
2024-01-24 00:00:15
Django全局启用登陆验证login_required的方法
2021-05-29 12:49:31
解决Pandas的DataFrame输出截断和省略的问题
2021-10-28 10:22:19
SQL语句练习实例之二——找出销售冠军
2011-10-24 19:52:45
asp不用DSN也能连接EXCEL吗?
2009-10-29 12:25:00