这适用于扫描的 PDF 吗?

No. 扫描的 PDF 是文本的图片，而不是文本本身，因此 PDF.js 无法提取任何内容。请先用 OCR 工具处理它们，然后再回来。

文本的阅读顺序会正确吗?

大多数情况下是的 - 我们按 Y 位置对项目进行排序，因此页面顶部的行会先出现。多栏布局有时会混合顺序，尤其是复杂的杂志式 PDF。

分页符是否被保留?

每页的文本由 '--- page break ---' 标记分隔，因此你可以轻松分割或浏览输出.

表格会保持可读吗？

单元格会以文本形式提取，但间距会有所不同。对于表格数据，通过桌面工具将 PDF 导出为 Excel 会得到更整齐的列。

PDF 会被上传到任何地方吗？

No. 提取完全在您的浏览器中运行。PDF 从未离开您的设备。

我能判断我的PDF是扫描件还是文本原件吗？

在任何查看器中打开它，并尝试用鼠标选择一个句子。如果选择抓取的是文字，则它是文本原生的，此工具有效。如果它抓取的是图像周围的矩形，则它是扫描件，您需要先进行 OCR。

输出使用什么字符编码？

UTF-8。假设 PDF 的文本层格式良好，特殊字符、重音和非拉丁文字将正确显示。

是否包含页眉、页脚和页码？

是的 - 我们提取文本层中的所有内容，包括页眉和页脚。如果需要，之后在您的编辑器中清理它们。

这能处理多栏学术论文吗？

大部分如此。我们按垂直位置对文本进行排序，这适用于整洁的两栏论文。复杂的布局（侧边栏、标注框、与正文交错的图注）可能会导致文本乱序。

这与从 PDF 阅读器复制粘贴相比如何？

相同的底层机制（PDF 文本层），但此页面支持一键多页提取，而非逐页提取。输出还包含您的阅读器不显示的明确分页符标记。

Subformer

免费 · 无需注册 · 在浏览器中运行

PDF

TXT

PDF 到 TXT 转换器

在浏览器中从 PDF 提取纯文本 - 非常适合搜索、引用或输入到 AI 工具。无需上传.

拖放一个或多个 - 所有文件都将转换为 TXT。逐行进度、批量转换、ZIP 下载。

为什么要将 PDF 转换为 TXT？

当你需要的是文字而不是版面时，从 PDF 转为 TXT 就是你想要的。研究人员从论文抓取引用、学生准备教科书笔记、或任何将长 PDF 输入 ChatGPT 或搜索索引的人——他们都只需要文本。手动逐页复制粘贴来抽取文本；而这可以一键完成.

提取在本地通过 Mozilla 的 PDF.js 引擎运行：我们读取每页的文本层（与你的 PDF 查看器用于选择并复制的相同文本层），并用页分隔符将其连接起来。将内容以扫描图像存储的 PDF 不会产生文本 - 这类文件需要 OCR，这是一个单独的工作流程。一切都在你的浏览器中完成; 没有任何 PDF 被上传.

2025 年的主要用例是 AI 输入准备。大型语言模型（LLM）擅长总结文本，但对原始 PDF 文件却束手无策（它们必须首先解码文件格式，这通常会导致幻觉或跳过内容）。预先提取为纯文本可以为模型提供页面上按顺序出现的精确文字，从而产生显著更好的摘要、问答答案和分析。如果您经常将研究论文、法律文件或财务备案文件输入 ChatGPT 或 Claude，这是最简洁的流程。

学术和法律工作流程是另一个主要类别。研究人员通过引用段落来引用论文；最简单的方法是“提取文本，grep关键词，复制周围的段落”。律师助理和律师对合同和案件文件也做类似的事情。文本提取步骤消除了格式和布局噪音，因此纯文本工具（grep、ripgrep、编辑器的查找功能）可以按预期工作。

关于哪些内容无法很好提取的注意事项：扫描文档（仅是文本图像——需要OCR）、受版权保护的PDF（罕见但存在——一些出版商会发布“不可复制”的PDF）、使用自定义字形映射的嵌入字体PDF（一些亚洲语言PDF，一些数学密集型学术PDF——可见文本无法映射回标准Unicode）。在消费者和商业PDF上的成功率接近100%；在学术和政府PDF上约为95%。试试看——最坏的情况是输出为空，没有损害。

常见的 PDF 到 TXT 用例

将 PDF 提供给 ChatGPT 或 Claude
LLM 处理纯文本比直接上传原始 PDF 好得多。先提取，然后将文本粘贴到聊天中或通过 API 发送以进行摘要、问答或分析。
学术引用收集
研究人员通过 grep 搜索提取文本中的关键词，然后复制周围的段落作为引用。比逐页滚动 PDF 阅读器更快。
法律合同审查
律师助理在冗长的协议中搜索特定条款或数字。纯文本可搜索；PDF 很少能。
在搜索系统中索引 PDF
Elasticsearch、Algolia 和 Postgres 全文搜索都使用纯文本。一次提取，永久索引。
构建训练数据集
在文档上进行微调的机器学习管道需要原始文本。去除视觉样式，以便模型只看到文字。
无障碍重新格式化
某些屏幕阅读器难以处理 PDF，但能流畅处理纯文本或 HTML。先提取，再重新排版以便阅读。

PDF

关于 PDF

PDF 是通用的文档格式 - 在每台设备上外观一致，打印可靠，也是分享应保持固定版式的图像的规范方式。

TXT

关于 TXT

一个不含格式的纯 UTF-8 文本文件. 可在所有设备的任意编辑器中打开. 非常适合管道传输到其他工具、可用 grep 搜索，以及供 LLM 输入.

如何将 PDF 转换为 TXT

01
放下你的 PDF 文件
将 PDF 拖到上方的转换器，或点击该框从你的设备中选择一个。
02
TXT 已被选中
我们已预选 TXT 作为输出格式。如果你想要不同的目标，请从下拉菜单中更改它。
03
转换并下载
点击 Convert 并等待进度条完成。准备好后下载 TXT.

PDF 到 TXT 常见问题

查看所有格式 →

PDF 到 TXT 转换器

为什么要将 PDF 转换为 TXT？

常见的 PDF 到 TXT 用例

将 PDF 提供给 ChatGPT 或 Claude

学术引用收集

法律合同审查

在搜索系统中索引 PDF

构建训练数据集

无障碍重新格式化

关于 PDF

关于 TXT

如何将 PDF 转换为 TXT

放下你的 PDF 文件

TXT 已被选中

转换并下载

PDF 到 TXT 常见问题

PDF 到 JPG 转换器

PDF 到 PNG 转换器

TXT 到 PDF 转换器

为什么要将 PDF 转换为 TXT？

常见的 PDF 到 TXT 用例

将 PDF 提供给 ChatGPT 或 Claude

学术引用收集

法律合同审查

在搜索系统中索引 PDF

构建训练数据集

无障碍重新格式化

关于 PDF

关于 TXT

如何将 PDF 转换为 TXT

放下你的 PDF 文件

TXT 已被选中

转换并下载

PDF 到 TXT 常见问题

这适用于扫描的 PDF 吗?

文本的阅读顺序会正确吗?

分页符是否被保留?

表格会保持可读吗？

PDF 会被上传到任何地方吗？

我能判断我的PDF是扫描件还是文本原件吗？

输出使用什么字符编码？

是否包含页眉、页脚和页码？

这能处理多栏学术论文吗？

这与从 PDF 阅读器复制粘贴相比如何？

相关转换

PDF 到 JPG 转换器

PDF 到 PNG 转换器

TXT 到 PDF 转换器