【亲测可用】Python 将 PDF 转换为 Word
大家好,在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。
所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。
上面的 GIF 图片就是转换的过程。在使用前,需要安装
pdf2docx
库,下面是详细教程。
安装 pdf2docx
库
该库可以将 PDF 文件转换为 Word 文件,它使用 PyMuPDF
从 PDF 中提取数据,使用规则解析布局,并使用 python-docx
生成 docx
文件。
当然该库还有一些限制,并不是所有 PDF 都能解析的:
- 必须是基于文本的 PDF 文件
- 文字必须从左到右
- 阅读方向正常,无文字变换/旋转
- 基于规则的方法也不能 100% 转换 PDF 布局
pip install pdf2docx
转换代码
将 pdf
文件转换为 docx
文件:
# 将 pdf 文件转换为 docx 文件
def pdf2docx(pdf_file, docx_file):
cv = Converter(pdf_file)
cv.convert(docx_file)
cv.close()
# 以下是实操案例代码
from pdf2docx import Converter
def pdfToWord(pdf_file_path=None, word_file_path=None):
# Creating a Converter object.
pdf_file_path = r"C:\Users\Administrator\Desktop\1.pdf"
converter_ = Converter(pdf_file_path)
word_file_path = r"C:\Users\Administrator\Desktop\1.docx"
converter_.convert(word_file_path, start=0, end=None)
converter_.close()
pdfToWord()
转换效果: