2025年05月30日

Python 语言中 PDF 文档的常见操作

Python 可以对 PDF 文档进行多种操作，包括但不限于以下几种：

读取 PDF 内容：使用 PDF 解析库（如 PyPDF2、pdfplumber 和 fitz 等）可以读取 PDF 文档的文本内容，从而进行文本提取、搜索、分析等操作。这在需要对大量 PDF 文档进行自动化处理、数据挖掘、文本分析等场景中非常有用。

2025年05月30日

PDF文件处理:PDFPlumberLoader 对象和 PyPDFLoader对象

pdfplumber包中的 PDFPlumberLoader 对象和 langchain_community 包中的 PyPDFLoader 对象都用于加载和处理 PDF 文档，但它们有不同的实现和功能。

2025年05月30日

帮助手册回忆上次内容

2025年05月30日

之前我们介绍了从PDF文件中提取文本内容以及从PDF文件提取图片的方法，除了文本内容与图片，表格也PDF文件中常见的内容，提取表格内容时，我们不再使用PyPDF2库来实现操作，Python有多个库来实现提取表格内容，本文我们将分别介绍多个库提取PDF中表格的操作。

2025年05月30日

最近在做PDF方面的开发，主要是HTML转图片，HTML转PDF，以及打包整个网站到PDF等处理，考察了很多资料，模块也试过不少，今天说下PyPDF2这个模块的使用，不说废话，上干货。

PyPDF2完善了PyPDF的功能，其中包含了如下Class（部分）：

2025年05月30日

这是一个使用Python的10行代码将多个PDF文件合并为一个PDF的应用程序。只需将源代码与PDF文件放置在同一位置，运行该代码，所有的单个PDF文件将被合并成一个新的大PDF文件。

- 在源代码文件夹中查找所有扩展名为.pdf的文件