Funciona amb PDFs escanejats?

No. Els PDFs escanejats són imatges de text, no text en si, així que PDF.js no té res per extreure. Passa'ls primer per una eina d'OCR i després torna.

Estarà el text en l'ordre de lectura correcte?

Majoritàriament sí - ordenem els elements per la posició Y perquè les línies de la part superior de la pàgina apareguin primer. Les maquetacions multicolumna poden, ocasionalment, barrejar-se, especialment amb PDFs complexos d'estil revista.

Es conserven els salts de pàgina?

El text de cada pàgina està separat per un marcador "--- page break ---" perquè pugueu dividir o fullejar fàcilment la sortida.

Les taules continuaran sent llegibles?

Les cel·les s'extreuen com a text però l'espaiat varia. Per a dades tabulars, exportar el PDF a Excel amb una eina d'escriptori donarà columnes més netes.

S'ha pujat el PDF en algun lloc?

No. L'extracció s'executa íntegrament al teu navegador. El PDF no surt mai del teu dispositiu.

Puc saber si el meu PDF és escanejat o natiu de text?

Obre-ho en qualsevol visualitzador i intenta seleccionar una frase amb el ratolí. Si la selecció agafa les paraules, és text natiu i aquesta eina funciona. Si agafa un rectangle al voltant d'una imatge, està escanejat i necessites OCR primer.

Quina codificació de caràcters utilitza la sortida?

UTF-8. Els caràcters especials, accents i scripts no llatins es transmeten correctament assumint que la capa de text del PDF està ben formada.

S'inclouen capçaleres, peus de pàgina i números de pàgina?

Sí, extraiem tot el que hi ha a la capa de text, inclosos els encapçalaments i peus de pàgina. Netegeu-los al vostre editor després si cal.

Això gestiona articles acadèmics de diverses columnes?

Majoritàriament. Ordenem el text per posició vertical, cosa que funciona per a documents nets de dues columnes. Maquetacions complexes (barres laterals, quadres de text destacats, peus de figura intercalats amb el cos del text) poden produir text desordenat.

Com es compara això amb copiar i enganxar des d'un lector de PDF?

El mateix mecanisme subjacent (la capa de text del PDF), però aquesta pàgina gestiona l'extracció de diverses pàgines amb un sol clic en lloc de pàgina per pàgina. La sortida també inclou marcadors de salt de pàgina explícits que el vostre lector no mostra.

Subformer

Inicia sessió

Gratuït · Sense registre · S'executa al teu navegador

PDF

TXT

Convertidor de PDF a TXT

Extreu text pla d'un PDF al teu navegador - perfecte per cercar, citar o donar d'entrada a eines d'IA. No cal pujar res.

Arrossegueu-ne un o molts - tots es convertiran a TXT. Progrés per fila, conversió per lots, descàrrega ZIP.

Per què convertir PDF a TXT?

Passar de PDF a TXT és el que vols quan necessites les paraules, no la maquetació. Investigadors que agafen cites d'un article, estudiants que preparen apunts d'un llibre de text, o qualsevol que vulgui alimentar un PDF llarg a ChatGPT o a un índex de cerca - tots ells només necessiten el text. Treure'l manualment vol dir copiar i enganxar pàgina per pàgina; això ho fa en un sol clic.

L'extracció s'executa localment mitjançant el motor PDF.js de Mozilla: llegim la capa de text de cada pàgina (la mateixa que el teu visor de PDF utilitza per seleccionar i copiar) i la concatenem amb salts de pàgina. Els PDFs que emmagatzemen el seu contingut com a imatges escanejades no proporcionaran text - aquests necessiten OCR, que és un flux de treball separat. Tot passa al teu navegador; no s'envia cap PDF.

El gran cas d'ús el 2025 és la preparació d'entrada per a IA. Els LLM són excel·lents per resumir text, però s'ofeguen amb PDF en brut (primer han de descodificar el format del fitxer, cosa que sovint al·lucina o omet contingut). L'extracció prèvia a text pla dóna al model exactament les paraules de la pàgina en l'ordre en què apareixen, la qual cosa produeix resums, respostes a preguntes i anàlisis dràsticament millors. Si alimentes regularment articles de recerca, documents legals o informes financers a ChatGPT o Claude, aquesta és la pipeline més neta.

Els fluxos de treball acadèmics i legals són l'altre gran grup. Els investigadors citen articles citant passatges; el camí més fàcil és "extreure a text, cercar la paraula clau amb grep, copiar el paràgraf circumdant". Els paralegals i advocats fan alguna cosa similar per a contractes i expedients. El pas d'extracció de text elimina el soroll de format i disseny perquè les eines de text pla (grep, ripgrep, la funció de cerca d'un editor) funcionin com se suposa.

Una nota sobre el que no s'extraurà bé: documents escanejats (només imatges de text, necessiten OCR), PDFs protegits contra còpia (rars però existeixen, alguns editors envien PDFs "sense còpia"), PDFs amb fonts incrustades que utilitzen mapatges de glifs personalitzats (alguns PDFs en idiomes asiàtics, alguns PDFs acadèmics amb moltes matemàtiques; el text visible no es correspon amb Unicode estàndard). La taxa d'èxit en PDFs de consum i empresarials és gairebé del 100%; en PDFs acadèmics i governamentals és aproximadament del 95%. Prova-ho: el pitjor cas és una sortida buida, sense cap dany.

Casos d'ús habituals de PDF a TXT

Alimentar PDFs a ChatGPT o Claude
Els LLM gestionen el text pla molt millor que les càrregues de PDF en brut. Extreu primer, després enganxa el text en un xat o envia'l mitjançant API per a resum, preguntes i respostes o anàlisi.
Recollida de cites acadèmiques
Els investigadors cerquen text extret per paraules clau i després copien el paràgraf circumdant com a cita. Més ràpid que desplaçar-se per un lector de PDF pàgina per pàgina.
Revisió de contractes legals
Els paralegals busquen clàusules o números específics en acords llargs. El text pla és cercable; el PDF rarament ho és.
Indexació de PDFs en un sistema de cerca
La cerca de text complet d'Elasticsearch, Algolia i Postgres consumeix text pla. Extreu una vegada, indexa per sempre.
Creació de conjunts de dades d'entrenament
Les pipelines d'aprenentatge automàtic que s'ajusten a documents necessiten text sense format. Elimina l'estil visual perquè el model només vegi les paraules.
Reformateig d'accessibilitat
Alguns lectors de pantalla tenen dificultats amb els PDF, però gestionen el text pla o HTML sense problemes. Extreu primer, redissenya per a la lectura.

PDF

Quant a PDF

PDF és el format de document universal - té el mateix aspecte en tots els dispositius, s'imprimeix de manera fiable i és la manera canònica de compartir imatges que han de romandre fixes al disseny.

TXT

Quant a TXT

Un fitxer de text pla en UTF-8 sense formatar. S'obre en qualsevol editor a qualsevol dispositiu. Perfecte per encaminar a altres eines, cerca amb grep i per alimentar LLMs.

Com convertir PDF a TXT

01
Deixa anar el teu fitxer PDF
Arrossega un PDF al convertidor de dalt, o fes clic a la caixa per seleccionar-ne un del teu dispositiu.
02
TXT ja està seleccionat
Hem preseleccionat TXT com a format de sortida. Canvieu-lo des del menú desplegable si voleu un destí diferent.
03
Convertir i descarregar
Fes clic a Converteix i espera que la barra de progrés acabi. Descarrega el TXT quan estigui llest.

Preguntes freqüents de PDF a TXT

Veure tots els formats →

Convertidor de PDF a TXT

Per què convertir PDF a TXT?

Casos d'ús habituals de PDF a TXT

Alimentar PDFs a ChatGPT o Claude

Recollida de cites acadèmiques

Revisió de contractes legals

Indexació de PDFs en un sistema de cerca

Creació de conjunts de dades d'entrenament

Reformateig d'accessibilitat

Quant a PDF

Quant a TXT

Com convertir PDF a TXT

Deixa anar el teu fitxer PDF

TXT ja està seleccionat

Convertir i descarregar

Preguntes freqüents de PDF a TXT

Convertidor de PDF a JPG

Convertidor de PDF a PNG

Convertidor de TXT a PDF

Per què convertir PDF a TXT?

Casos d'ús habituals de PDF a TXT

Alimentar PDFs a ChatGPT o Claude

Recollida de cites acadèmiques

Revisió de contractes legals

Indexació de PDFs en un sistema de cerca

Creació de conjunts de dades d'entrenament

Reformateig d'accessibilitat

Quant a PDF

Quant a TXT

Com convertir PDF a TXT

Deixa anar el teu fitxer PDF

TXT ja està seleccionat

Convertir i descarregar

Preguntes freqüents de PDF a TXT

Funciona amb PDFs escanejats?

Estarà el text en l'ordre de lectura correcte?

Es conserven els salts de pàgina?

Les taules continuaran sent llegibles?

S'ha pujat el PDF en algun lloc?

Puc saber si el meu PDF és escanejat o natiu de text?

Quina codificació de caràcters utilitza la sortida?

S'inclouen capçaleres, peus de pàgina i números de pàgina?

Això gestiona articles acadèmics de diverses columnes?

Com es compara això amb copiar i enganxar des d'un lector de PDF?

Conversions relacionades

Convertidor de PDF a JPG

Convertidor de PDF a PNG

Convertidor de TXT a PDF