スキャンされたPDFでも動作しますか？

いいえ。スキャンされたPDFはテキストの画像であってテキストそのものではないため、PDF.js で抽出できるものがありません。まずOCRツールに掛けてから再度お越しください。

テキストは正しい読み順になりますか？

概ねはい — Y座標で項目をソートするので、ページ上部の行が先に来ます。マルチカラムのレイアウトでは、特に複雑な雑誌風PDFでは順序が混在することがあります。

ページ区切りは保持されますか?

各ページのテキストは "--- page break ---" マーカーで区切られているので、出力を簡単に分割したりざっと確認したりできます。

表は読みやすいままですか?

セルはテキストとして抽出されますが、間隔は変わります。表形式のデータは、デスクトップツールでPDFをExcelにエクスポートすると列がより整った形になります.

PDFはどこかにアップロードされますか？

いいえ。抽出は完全にブラウザ内で実行されます。PDF は端末を離れません。

自分のPDFがスキャンされたものか、テキストベースのものか判別できますか？

任意のビューアで開き、マウスで文を選択してみてください。選択が単語を掴む場合、それはテキストネイティブであり、このツールが機能します。画像周辺の長方形を掴む場合、それはスキャンされたものであり、最初にOCRが必要です。

出力ではどの文字エンコーディングが使用されますか？

UTF-8。PDFのテキストレイヤーが適切に形成されている場合、特殊文字、アクセント、非ラテン文字スクリプトは正しく表示されます。

ヘッダー、フッター、ページ番号は含まれていますか？

はい、実行中のヘッダーとフッターを含むテキストレイヤー内のすべてを抽出します。必要に応じて、後でエディターでクリーンアップしてください。

これは複数列の学術論文に対応していますか？

ほとんどの場合。テキストは垂直位置でソートされるため、きれいな2段組の文書には適しています。複雑なレイアウト（サイドバー、吹き出し、本文と混在する図のキャプション）では、テキストが順不同になることがあります。

これはPDFリーダーからのコピー＆ペーストと比較してどうですか？

同じ基盤メカニズム（PDFテキストレイヤー）ですが、このページではページごとではなくワンクリックで複数ページの抽出を処理します。出力には、リーダーが表示しない明示的な改ページマーカーも含まれます。

Subformer

サインイン

無料 · サインアップ不要 · ブラウザ上で動作

PDF

TXT

PDF から TXT へコンバーター

ブラウザでPDFからプレーンテキストを抽出します - 検索、引用、またはAIツールへの投入に最適です。アップロードは不要です。

1つまたは複数ドロップ - すべてTXTに変換されます。行ごとの進捗、一括変換、ZIPダウンロード。

なぜPDFをTXTに変換するのですか?

レイアウトではなく本文が必要なときは、PDFをTXTにするのが最適です。論文から引用を抜き取る研究者、教科書からノートを準備する学生、長いPDFをChatGPTや検索インデックスに投入する人々 — 彼らは皆本文だけを必要としています。手作業で取り出すにはページごとにコピー＆ペーストする必要がありますが、これはワンクリックで行えます。

抽出はMozillaのPDF.jsエンジンを介してローカルで実行されます: 各ページのテキスト層（PDFビューアが選択＆コピーに使用するのと同じもの）を読み取り、ページ区切りで連結します。内容がスキャン画像として格納されているPDFはテキストを出力しません - それらはOCRが必要で、別のワークフローになります。すべてブラウザ内で行われ、PDFがアップロードされることはありません。

2025年の大きなユースケースはAI入力準備です。LLMはテキストの要約に優れていますが、生のPDFでは詰まってしまいます（まずファイル形式をデコードする必要があり、その際に幻覚を起こしたりコンテンツをスキップしたりすることがよくあります）。プレーンテキストに事前抽出することで、モデルはページ上の単語を出現順に正確に取得でき、劇的に優れた要約、Q&Aの回答、分析を生成します。研究論文、法的文書、財務書類をChatGPTやClaudeに定期的に供給している場合、これが最もクリーンなパイプラインです。

学術および法務ワークフローがもう一つの主要な分野です。研究者は引用文を引用して論文を引用します。最も簡単な方法は「テキストに抽出、キーワードをgrep、周囲の段落をコピー」です。パラリーガルや弁護士は、契約書や訴訟ファイルに対して同様のことを行います。テキスト抽出ステップは、書式設定やレイアウトのノイズを除去するため、プレーンテキストツール（grep、ripgrep、エディタの検索機能）が意図したとおりに機能します。

うまく抽出できないものに関する注意：スキャンされたドキュメント（テキストの画像のみ - OCRが必要）、コピー保護されたPDF（まれですが存在します - 一部の出版社は「コピー不可」PDFを出荷しています）、カスタムグリフマッピングを使用する埋め込みフォントを持つPDF（一部のアジア言語PDF、一部の数学を多用する学術PDF - 表示されるテキストが標準Unicodeにマッピングされない）。消費者向けおよびビジネス向けPDFの成功率はほぼ100%です。学術および政府向けPDFでは約95%です。試してみてください。最悪の場合、空の出力になりますが、害はありません。

一般的なPDF から TXT へのユースケース

ChatGPTまたはClaudeへのPDF供給
LLMは生のPDFアップロードよりもプレーンテキストをはるかにうまく処理します。まずテキストを抽出し、チャットに貼り付けるか、API経由で送信して要約、Q&A、または分析を行ってください。
学術引用文献収集
研究者は抽出されたテキストからキーワードをgrepで検索し、周囲の段落を引用としてコピーします。PDFリーダーでページごとにスクロールするよりも高速です。
法的契約書のレビュー
パラリーガルは、長い契約書の中から特定の条項や数字を検索します。プレーンテキストはgrep可能ですが、PDFはめったにそうではありません。
検索システムでのPDFのインデックス作成
Elasticsearch、Algolia、Postgresの全文検索はすべてプレーンテキストを消費します。一度抽出すれば、永久にインデックス化できます。
トレーニングデータセットの構築
ドキュメントでファインチューニングを行うMLパイプラインには、生のテキストが必要です。視覚的なスタイルを削除して、モデルが単語のみを認識するようにします。
アクセシビリティ再フォーマット
一部のスクリーンリーダーはPDFに苦労しますが、プレーンテキストやHTMLはスムーズに処理します。まず抽出してから、読みやすいようにスタイルを再調整します。

PDF

PDF について

PDFはユニバーサルなドキュメント形式です - 全てのデバイスで同じ見た目になり、確実に印刷でき、レイアウトを固定したまま共有すべき画像を渡すための標準的な方法です.

TXT

TXT について

書式なしのプレーンなUTF-8テキストファイルです。あらゆるデバイスのあらゆるエディタで開けます。他のツールへのパイプ、grepでの検索、LLMへの入力に最適です。

PDF を TXT に変換する方法

01
あなたの PDF ファイルをドロップ
上のコンバータに PDF をドラッグするか、ボックスをクリックしてデバイスから選択してください.
02
TXT はすでに選択されています
TXTを出力形式に事前選択しています。別の形式にしたい場合はドロップダウンで変更してください.
03
変換してダウンロード
「Convert」をクリックして、プログレスバーが完了するまで待ちます。準備ができたら TXT をダウンロードしてください.

PDF から TXT へのよくある質問

すべての形式を見る →

PDF から TXT へコンバーター

なぜPDFをTXTに変換するのですか?

一般的なPDF から TXT へのユースケース

ChatGPTまたはClaudeへのPDF供給

学術引用文献収集

法的契約書のレビュー

検索システムでのPDFのインデックス作成

トレーニングデータセットの構築

アクセシビリティ再フォーマット

PDF について

TXT について

PDF を TXT に変換する方法

あなたの PDF ファイルをドロップ

TXT はすでに選択されています

変換してダウンロード

PDF から TXT へのよくある質問

PDF から JPG へコンバーター

PDF から PNG へコンバーター

TXT から PDF へコンバーター

なぜPDFをTXTに変換するのですか?

一般的なPDF から TXT へのユースケース

ChatGPTまたはClaudeへのPDF供給

学術引用文献収集

法的契約書のレビュー

検索システムでのPDFのインデックス作成

トレーニングデータセットの構築

アクセシビリティ再フォーマット

PDF について

TXT について

PDF を TXT に変換する方法

あなたの PDF ファイルをドロップ

TXT はすでに選択されています

変換してダウンロード

PDF から TXT へ のよくある質問

スキャンされたPDFでも動作しますか？

テキストは正しい読み順になりますか？

ページ区切りは保持されますか?

表は読みやすいままですか?

PDFはどこかにアップロードされますか？

自分のPDFがスキャンされたものか、テキストベースのものか判別できますか？

出力ではどの文字エンコーディングが使用されますか？

ヘッダー、フッター、ページ番号は含まれていますか？

これは複数列の学術論文に対応していますか？

これはPDFリーダーからのコピー＆ペーストと比較してどうですか？

関連する変換

PDF から JPG へ コンバーター

PDF から PNG へ コンバーター

TXT から PDF へ コンバーター

PDF から TXT へのよくある質問

PDF から JPG へコンバーター

PDF から PNG へコンバーター

TXT から PDF へコンバーター