Ekstrak teks biasa dari PDF dalam pelayar anda - sempurna untuk carian, petikan, atau untuk dimasukkan ke alat AI. Tiada muat naik.
Lepaskan satu atau banyak - semuanya akan ditukar kepada TXT. Kemajuan setiap baris, penukaran kelompok, muat turun ZIP.
Berpindah dari PDF ke TXT adalah apa yang anda perlukan apabila anda memerlukan kata-kata, bukan susun atur. Penyelidik mengambil petikan dari kertas, pelajar menyediakan nota dari buku teks, sesiapa yang memasukkan PDF panjang ke dalam ChatGPT atau indeks carian - kesemuanya hanya memerlukan teks. Mengeluarkannya secara manual bermakna menyalin dan menampal halaman demi halaman; ini melakukannya dengan satu klik.
Pengekstrakan dijalankan secara tempatan melalui enjin PDF.js Mozilla: kami membaca lapisan teks setiap halaman (yang sama yang digunakan penonton PDF anda untuk pilih-dan-salin) dan menggabungkannya dengan pemecah halaman. PDF yang menyimpan kandungan mereka sebagai imej yang diimbas tidak akan menghasilkan teks - itu memerlukan OCR, yang merupakan aliran kerja berasingan. Semua berlaku dalam pelayar anda; tiada PDF dimuat naik.
Kes penggunaan besar pada tahun 2025 ialah penyediaan input AI. LLM sangat baik dalam meringkaskan teks tetapi tersekat pada PDF mentah (mereka perlu menyahkod format fail terlebih dahulu, yang sering berhalusinasi atau melangkau kandungan). Pengekstrakan awal ke teks biasa memberikan model perkataan yang tepat pada halaman mengikut susunan ia muncul, yang menghasilkan ringkasan, jawapan Soal Jawab, dan analisis yang jauh lebih baik. Jika anda kerap memasukkan kertas penyelidikan, dokumen undang-undang, atau pemfailan kewangan ke ChatGPT atau Claude, ini adalah saluran paip yang paling bersih.
Aliran kerja akademik dan undang-undang adalah kategori utama yang lain. Penyelidik memetik kertas kerja dengan memetik petikan; laluan paling mudah ialah "ekstrak ke teks, grep untuk kata kunci, salin perenggan di sekeliling". Paralegal dan peguam melakukan sesuatu yang serupa untuk kontrak dan fail kes. Langkah pengekstrakan teks membuang format dan hingar susun atur supaya alat teks biasa (grep, ripgrep, ciri cari editor) berfungsi seperti yang sepatutnya.
Nota tentang apa yang tidak akan diekstrak dengan baik: dokumen yang diimbas (hanya imej teks - memerlukan OCR), PDF yang dilindungi salinan (jarang tetapi wujud - sesetengah penerbit menghantar PDF "tiada salinan"), PDF dengan fon terbenam yang menggunakan pemetaan glif tersuai (sesetengah PDF bahasa Asia, sesetengah PDF akademik yang berat matematik - teks yang kelihatan tidak memetakan kembali ke Unicode standard). Kadar kejayaan pada PDF pengguna dan perniagaan hampir 100%; pada PDF akademik dan kerajaan ia kira-kira 95%. Cubalah - kes terburuk adalah output kosong, tiada kemudaratan.
LLM mengendalikan teks biasa jauh lebih baik daripada muat naik PDF mentah. Ekstrak dahulu, kemudian tampal teks ke dalam sembang atau hantar melalui API untuk ringkasan, Soal Jawab, atau analisis.
Penyelidik grep teks yang diekstrak untuk kata kunci, kemudian salin perenggan di sekelilingnya sebagai petikan. Lebih pantas daripada menatal melalui pembaca PDF halaman demi halaman.
Paralegal mencari klausa atau nombor tertentu merentasi perjanjian panjang. Teks biasa boleh dicari; PDF jarang sekali.
Carian teks penuh Elasticsearch, Algolia dan Postgres semuanya menggunakan teks biasa. Ekstrak sekali, indeks selama-lamanya.
Saluran paip ML yang menala halus pada dokumen memerlukan teks mentah. Tanggalkan penggayaan visual supaya model hanya melihat perkataan.
Sesetengah pembaca skrin menghadapi masalah dengan PDF tetapi mengendalikan teks biasa atau HTML dengan lancar. Ekstrak dahulu, susun semula untuk bacaan.
PDF ialah format dokumen universal - kelihatan sama pada setiap peranti, dicetak dengan boleh dipercayai, dan merupakan cara kanonik untuk berkongsi imej yang harus kekal tetap dalam susun atur.
Fail teks UTF-8 ringkas tanpa pemformatan. Boleh dibuka dalam setiap penyunting pada setiap peranti. Sempurna untuk dialirkan ke alat lain, carian boleh-grep, dan untuk dimasukkan ke LLM.
Seret PDF ke penukar di atas, atau klik kotak untuk memilih satu dari peranti anda.
Kami telah prapilih TXT sebagai format keluaran. Tukar dari menu lungsur jika anda mahukan sasaran yang berbeza.
Klik Tukar dan tunggu bar kemajuan selesai. Muat turun TXT apabila ia sedia.
Tukar PDF kepada imej JPG - satu imej setiap halaman, dibungkus sebagai ZIP untuk PDF berbilang halaman.
Menjana halaman PDF kepada imej PNG tanpa kehilangan kualiti - sesuai untuk berkongsi rajah, slaid, atau halaman seperti tangkapan skrin.
Ubah fail teks biasa menjadi PDF boleh cetak dalam beberapa saat - percuma, hanya penyemak imbas, tiada pendaftaran.