全网最新用python实现各种文件类型转换的方法
作者:星幻夜极 时间:2021-02-21 08:57:42
一、word转pdf
先安装win32库:pip install pywin32
from win32com.client import gencache
from win32com.client import constants, gencache
def createPdf(wordPath, pdfPath):
"""
word转pdf
:param wordPath: word文件路径
:param pdfPath: 生成pdf文件路径
"""
word = gencache.EnsureDispatch('Word.Application')
doc = word.Documents.Open(wordPath, ReadOnly=1)
doc.ExportAsFixedFormat(pdfPath,
constants.wdExportFormatPDF,
Item=constants.wdExportDocumentWithMarkup,
CreateBookmarks=constants.wdExportCreateHeadingBookmarks)
word.Quit(constants.wdDoNotSaveChanges)
createPdf('D:\桌面\论文阅读笔记.docx','D:\桌面\论文阅读笔记.pdf')
运行结果:
二、excel转pdf
# Import Module
from win32com import client
# Open Microsoft Excel
excel = client.Dispatch("Excel.Application")
# Read Excel File
sheets = excel.Workbooks.Open('F:\书籍借阅信息.xlsx')
work_sheets = sheets.Worksheets[0]
# Convert into PDF File
work_sheets.ExportAsFixedFormat(0, 'F:\书籍借阅信息.pdf')
# 关闭服务
excel.Quit()
运行结果:
三、ppt转pdf
# 1). 导入需要的模块(打开应用程序的模块)
import win32com.client
import os
def ppt2pdf(filename, output_filename):
"""
PPT文件导出为pdf格式
:param filename: PPT文件的名称
:param output_filename: 导出的pdf文件的名称
:return:
"""
# 2). 打开PPT程序
ppt_app = win32com.client.Dispatch('PowerPoint.Application')
# ppt_app.Visible = True # 程序操作应用程序的过程是否可视化
# 3). 通过PPT的应用程序打开指定的PPT文件
# filename = "C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pptx"
# output_filename = "C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pdf"
ppt = ppt_app.Presentations.Open(filename)
# 4). 打开的PPT另存为pdf文件。17数字是ppt转图片,32数字是ppt转pdf。
ppt.SaveAs(output_filename, 32)
print("导出成pdf格式成功!!!")
# 退出PPT程序
ppt_app.Quit()
# 要处理的目录名称
dirname = 'D:\桌面\智能算法设计与实现'
# 列出指定目录的内容
filenames = os.listdir(dirname)
# for循环依次访问指定目录的所有文件名
for filename in filenames:
# 判断文件的类型,对所有的ppt文件进行处理(ppt文件以ppt或者pptx结尾的)
if filename.endswith('ppt') or filename.endswith('pptx'):
# print(filename) # PPT素材1.pptx -> PPT素材1.pdf
# 将filename以.进行分割,返回2个信息,文件的名称和文件的后缀名
base, ext = filename.split('.') # base=PPT素材1 ext=pdf
new_name = base + '.pdf' # PPT素材1.pdf
# ppt文件的完整位置: C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pptx
filename = dirname + '/' + filename
# pdf文件的完整位置: C:/Users/Administrator/Desktop/PPT办公自动化/ppt/PPT素材1.pdf
output_filename = dirname + '/' + new_name
# 将ppt转成pdf文件
ppt2pdf(filename, output_filename)
运行结果:
四、图片转pdf
from PIL import Image
import os
# 防止字符串乱码
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
def pic2pdf(img_path, pdf_path):
file_list = os.listdir(img_path)
for x in file_list:
if "jpg" in x or 'png' in x or 'jpeg' in x:
pdf_name = x.split('.')[0]
im1 = Image.open(os.path.join(img_path, x))
im1.save(pdf_path + pdf_name + '.pdf', "PDF", resolution=100.0)
if __name__ == '__main__':
# 待转换图像路径
img_path = r"D:\桌面\\"
# 转换后的pdf存放路径
pdf_path = r'D:\桌面\\'
pic2pdf(img_path=img_path, pdf_path=pdf_path)
五、pdf转word
先安装:pip install pdf2docx
from pdf2docx import Converter
pdf_file = r'D:\桌面\论文阅读笔记.pdf'
docx_file = r'D:\桌面\论文阅读笔记.docx'
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()
六、pdf转图片
先安装:pip install pdf2image
from pdf2image import convert_from_path
pages = convert_from_path('D:\桌面\论文阅读笔记.pdf', 500)
# 保存
for page in pages:
page.save('D:\桌面\论文阅读笔记.jpg', 'JPEG')
# 多图保存
for index, img in enumerate(pages):
img.save('E:\识别\page_%s.jpg' % (index+1))
如果报错pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
则需要安装配置poppler:
Windows的poppler下载地址:http://blog.alivate.com.au/poppler-windows/
解压缩后,将C:\Program Files\poppler-0.68.0\bin(可以放在其他位置)添加进环境变量-系统变量-path中,重启生效:
七、csv转excel
import pandas as pd
data = pd.read_csv('F:/train.csv',index_col=0)
data.to_excel('F:/train.xlsx',encoding='utf-8')
八、excel转csv
import pandas as pd
data = pd.read_excel('F:/train.xlsx',index_col=0)
data.to_csv('F:/train.csv',encoding='utf-8')
来源:https://blog.csdn.net/m0_46388544/article/details/125540794
标签:python,文件类型,转换
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
go语言csrf库使用实现原理示例解析
2023-08-07 03:34:38
![](https://img.aspxhome.com/file/2023/7/97167_0s.jpg)
用途相似的标签
2008-05-23 13:11:00
CI框架出现mysql数据库连接资源无法释放的解决方法
2023-11-15 07:13:35
ASP如何使用CDONTS来发送电子邮件?
2010-06-05 12:35:00
Sql server中时间查询的一个比较快的语句
2008-12-29 14:16:00
php版淘宝网查询商品接口代码示例
2023-11-14 12:01:54
Microsoft SQL Server 2000安装问题集锦
2008-12-10 14:26:00
php插件Xajax使用方法详解
2023-10-19 23:28:40
![](https://img.aspxhome.com/file/2023/5/555251_0s.png)
Go语言流程控制详情
2023-10-16 13:16:24
Django使用Mysql数据库已经存在的数据表方法
2023-07-21 15:24:59
适合所有表的添加、删除、修改的函数
2008-04-15 15:29:00
使用PHP Socket 编程模拟Http post和get请求
2023-11-15 10:58:52
SQL Server数据在不同数据库中的应用
2008-12-24 15:34:00
CSS3变换入门
2010-01-30 13:29:00
![](https://img.aspxhome.com/file/UploadPic/20101/30/01-36s.jpg)
asp dictionary对象使用介绍
2008-05-30 13:51:00
如何解决因使用On Error Resume Next导致错误不正确的问题?
2009-12-16 18:34:00
使用 Osql 工具管理 SQL Server 桌面引擎 (MSDE 2000)应用介绍
2020-07-01 22:12:59
ASP短日期格式为长日期
2009-06-11 12:53:00
python 计算t分布的双侧置信区间
2023-08-01 03:06:05
![](https://img.aspxhome.com/file/2023/9/61489_0s.jpg)
oracle数据排序后获取前几行数据的写法(rownum、fetch方式)
2023-07-02 01:15:09
![](https://img.aspxhome.com/file/2023/2/63372_0s.jpg)