Python实现pdf文档转txt的方法示例

作者:肥宝Fable 时间:2021-12-08 19:16:16 

本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考,具体如下:

首先,这是一个比较粗糙的版本,因为已经够用了,而且对pdf的格式不熟悉,所以暂时没有进一步优化。

还有,这是转成txt的,所以如果是有图片的pdf是无法保存图片的。

至于本来就是图片的文本,这里是无法分析出来的。那些图片的pdf,估计要用图形匹配的方式来处理,类似于超速拍摄的车牌识别。

不过这样的程度,已经不是文本处理了。扯远了。。。

转出来的文字,好像按照pdf里面的所展示的来换行了,看不到有什么规则还原,我也不知道怎么处理,将就着用吧。

另外,初始代码是网上找的,最初地址不知道哪里了。

用到了第三方库pdfminier

pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k

下载后,用cmd执行命令 setup.py install

安装完之后打开eclipse会弹出要求加载一些东西,点击确定就行了。

再来看看代码:


import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
class CPdf2TxtManager():
 '''''
 classdocs
 '''
 def __init__(self):
   '''''
   Constructor
   '''
 def changePdfToText(self, filePath):
   file = open(path, 'rb') # 以二进制读模式打开
   #用文件对象来创建一个pdf文档分析器
   praser = PDFParser(file)
   # 创建一个PDF文档
   doc = PDFDocument()
   # 连接分析器 与文档对象
   praser.set_document(doc)
   doc.set_parser(praser)
   # 提供初始化密码
   # 如果没有密码 就创建一个空的字符串
   doc.initialize()
   # 检测文档是否提供txt转换,不提供就忽略
   if not doc.is_extractable:
     raise PDFTextExtractionNotAllowed
   # 创建PDf 资源管理器 来管理共享资源
   rsrcmgr = PDFResourceManager()
   # 创建一个PDF设备对象
   laparams = LAParams()
   device = PDFPageAggregator(rsrcmgr, laparams=laparams)
   # 创建一个PDF解释器对象
   interpreter = PDFPageInterpreter(rsrcmgr, device)
   pdfStr = ''
   # 循环遍历列表,每次处理一个page的内容
   for page in doc.get_pages(): # doc.get_pages() 获取page列表
     interpreter.process_page(page)
     # 接受该页面的LTPage对象
     layout = device.get_result()
     # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,
     for x in layout:
       if (isinstance(x, LTTextBoxHorizontal)):
         pdfStr = pdfStr + x.get_text() + '\n'
   fileNames = os.path.splitext(filePath)
   file2 = open(fileNames[0] + '.txt','wb')#保存这些内容
   file2.write(pdfStr.encode())
   file2.close()
   file.close()
if __name__ == '__main__':
 '''''
  解析pdf 文本,保存到txt文件中
 '''
 path = r'C:\Users\Administrator\Desktop\《精力管理》.pdf'
 pdf2TxtManager = CPdf2TxtManager()
 pdf2TxtManager.changePdfToText(path)

更多Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

来源:http://blog.csdn.net/u012175089/article/details/69267037

标签:Python,pdf,txt
0
投稿

猜你喜欢

  • ASP生成静态模版技术(带参数的标签)

    2009-03-03 12:29:00
  • Python使用re模块实现正则表达式操作指南

    2022-03-14 18:11:11
  • django admin后台添加导出excel功能示例代码

    2023-10-19 10:43:48
  • 对pandas replace函数的使用方法小结

    2022-07-04 15:20:24
  • linux mysql5.5升级至mysql5.7的步骤与踩到的坑

    2024-01-21 17:09:08
  • Python算法中的时间复杂度问题

    2021-03-20 04:52:50
  • 详解使用Python处理文件目录的相关方法

    2023-08-01 02:55:30
  • XHTML中id与class的使用原则与技巧

    2007-12-17 13:07:00
  • 使用Spring AOP实现MySQL数据库读写分离案例分析(附demo)

    2024-01-16 04:47:03
  • php结合js实现点击超链接执行删除确认操作

    2023-11-15 03:30:51
  • pytorch实现mnist分类的示例讲解

    2022-03-30 09:17:19
  • 利用MySQL加密函数保护Web网站敏感数据

    2008-12-17 16:11:00
  • Python+tkinter使用40行代码实现计算器功能

    2023-05-07 17:27:16
  • 如何计算 tensorflow 和 pytorch 模型的浮点运算数

    2023-07-17 04:20:58
  • Python semaphore evevt生产者消费者模型原理解析

    2021-11-14 12:52:39
  • Linux/UNIX和Window平台上安装Mysql

    2024-01-24 00:00:15
  • Django全局启用登陆验证login_required的方法

    2021-05-29 12:49:31
  • 解决Pandas的DataFrame输出截断和省略的问题

    2021-10-28 10:22:19
  • SQL语句练习实例之二——找出销售冠军

    2011-10-24 19:52:45
  • asp不用DSN也能连接EXCEL吗?

    2009-10-29 12:25:00
  • asp之家 网络编程 m.aspxhome.com