一文教会你用Python读取PDF文件

作者:梦想橡皮擦 时间:2021-03-23 00:24:55 

实战场景

Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况:

  • 提取 PDF 中的文字

  • 将 PDF 中每页转换为图片

  • word 转换为PDF

  • PDF生成,编辑,导入导出

  • PDF在线渲染

除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现。

本次实战选择 pdfplumber 库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编辑无法实现,即本文学习一款专注于 PDF 内容提取的库。

> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

pdfplumber 库具备如下特点:

  • 可以访问PDF对象中的任意元素详细信息;

  • 可以提取文本和表格,而且用法简单;

  • 集成了可视化调试。

Python PDF 实战编码

下面可以编写 PDF 操作的基础代码。

import pdfplumber

with pdfplumber.open('./dddd.pdf') as pdf:
   for page in pdf.pages:
       print(page.extract_text())

# 每页打印一分页分隔
       print('---------- 分页分隔 ----------')

导入 pdfplumber 模块之后,使用 pdfplumber.open('./dddd.pdf') 打开本地 pdf 文件,然后通过 pdf.pages 遍历所有页,在通过页对象.extract_text() 方法,提取文本信息。

pdfplumber.open() 方法的签名如下所示:

pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })

其中各参数描述如下:

  • file_name:文件名,必选参数;

  • password:PDF的密码;

  • laparams:布局参数。

除此之外,如果希望读取 PDF,还可以使用 load() 方法,该方法也会返回 pdfplumber.PDF 类的实例。

pdfplumber.PDF 对象实例,主要有两个重要属性:

  • .metadata:从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等;

  • .pages:包含 pdfplumber.Page 实例的列表,每一个实例代表PDF每一页的信息。

上文提及的 pdfplumber.Page 实例是 pdfplumber 的核心,后续对 PDF 的操作大量围绕该类的属性和方法实施,其重要属性如下所示:

  • page_number:页码顺序,第一页的序号是 1;

  • witdh:宽度;

  • height:高度;

  • .objects/.chars/.lines/.rects/.curves/.figures/.images:获取PDF页中的重要数据。

核心方法如下所示:

  • extract_text():提取页中的文本;

  • extract_words():提取所有单词及其相关信息;

  • extract_tables(): 提取页面的表格。

extract_text() 呈现结果

一文教会你用Python读取PDF文件

extract_words() 呈现结果

一文教会你用Python读取PDF文件

extract_tables() 呈现效果,由于 PDF 中无表格,所有每页得到的都是空!

一文教会你用Python读取PDF文件

补充

当然Python除了读取PDF文件,还有一些其他功能,例如加密PDF,旋转和叠加页面等,下面是实现的示例代码

旋转和叠加页面

import PyPDF2

from PyPDF2.pdf import PageObject

# 创建一个读PDF文件的Reader对象

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')

# 创建一个写PDF文件的Writer对象

writer = PyPDF2.PdfFileWriter()

# 对PDF文件所有页进行循环遍历

for page_num in range(reader.numPages):

# 获取指定页码的Page对象

current_page = reader.getPage(page_num) # type: PageObject

if page_num % 2 == 0:

# 奇数页顺时针旋转90度

current_page.rotateClockwise(90)

else:

# 偶数页反时针旋转90度

current_page.rotateCounterClockwise(90)

writer.addPage(current_page)

# 最后添加一个空白页并旋转90度

page = writer.addBlankPage() # type: PageObject

page.rotateClockwise(90)

# 通过Writer对象的write方法将PDF写入文件

with open('resources/XGBoost-modified.pdf', 'wb') as file:

writer.write(file)

加密PDF文件

import PyPDF2

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
writer = PyPDF2.PdfFileWriter()

for page_num in range(reader.numPages):
    writer.addPage(reader.getPage(page_num))

# 通过encrypt方法加密PDF文件,方法的参数就是rre

#设置的密码
writer.encrypt('foobared')

with open('resources/XGBoost-encrypted.pdf', 'wb') as file:

writer.write(file)

批量添加水印

import PyPDF2

from PyPDF2.pdf import PageObject

reader1 = PyPDF2.PdfFileReader('resources/XGBoost.pdf') reader2 = PyPDF2.PdfFileReader('resources/watermark.pdf')
writer = PyPDF2.PdfFileWriter()

# 获取水印页
watermark_page = reader2.getPage(0)

for page_num in range(reader1.numPages):

current_page = reader1.getPage(page_num) # type: PageObject                                           current_page.mergePage(watermark_page)

# 将原始页和水印页进行合并
    writer.addPage(current_page)

# 将PDF写入文件
with open('resources/XGBoost-watermarked.pdf', 'wb') as file:

writer.write(file)

来源:https://juejin.cn/post/7129692963273179149

标签:Python,读取,PDF
0
投稿

猜你喜欢

  • Python利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

    2022-03-27 17:21:42
  • 详解使用Python写一个向数据库填充数据的小工具(推荐)

    2024-01-13 19:06:41
  • php实现搜索一维数组元素并删除二维数组对应元素的方法

    2023-10-09 05:45:40
  • python 中字典嵌套列表的方法

    2022-05-17 04:54:15
  • 一文带你了解MySQL中触发器的操作

    2024-01-13 13:22:11
  • Python简单日志处理类分享

    2023-02-22 01:10:26
  • python集合的新增元素方法整理

    2022-10-13 02:45:28
  • ASP连接Access数据库的几种方法

    2013-06-01 20:33:19
  • Python Dict找出value大于某值或key大于某值的所有项方式

    2023-10-16 19:54:55
  • python使用tkinter实现屏幕中间倒计时

    2021-03-10 22:28:11
  • Django中使用Celery的教程详解

    2023-07-12 05:08:35
  • typecho统计博客所有文章的字数实例详解

    2023-06-13 07:52:36
  • 使用python检测手机QQ在线状态的脚本代码

    2023-03-27 02:12:06
  • python模拟表单提交登录图书馆

    2021-11-06 19:20:42
  • mysql5.7.10开启慢查询详解

    2024-01-18 10:23:23
  • 对Python3 序列解包详解

    2023-06-15 10:39:25
  • python实现单张图像拼接与批量图片拼接

    2023-07-28 12:33:36
  • C#连接Oracle数据库使用Oracle.ManagedDataAccess.dll

    2024-01-20 11:52:53
  • 深入浅析ImageMagick命令执行漏洞

    2022-07-21 11:50:46
  • Python编程中闭包的变量作用域问题解析

    2023-07-27 01:59:47
  • asp之家 网络编程 m.aspxhome.com