Robitex's Blog

Ideas in the web

Estrarre testo da file Postscript o PDF


Grande mi son detto questa utility.
Si tratta di pstotext che leggendo un file in formato Postscript o PDF, crea in output un file con il testo contenuto nell’originale.

Installazione sui sistemi Debian like

L’utility si installa in Ubuntu dai repository ufficiali universe con il comando da terminale seguente (ovviamente), e occupa una manciata di KB.

$ sudo apt-get install pstotext

L’uso è semplice

Se vogliamo estrarre il testo dal file tabella_numerica.pdf al file dati_estratti.txt occorre digitare il comando:

~$ pstotext -output dati_estratti.txt tabella_numerica.pdf

Ecco fatto. Una bella comodità non trovate?

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: