¿Cómo buscar contenido de varios archivos pdf?
Posted on dom 07 mayo 2017 in command-line
Buscando en consola dentro de múltiples archivos pdf's recursivamente:
Instalar paquete que contiene pdftotext:
$ sudo apt-get install poppler-utils
Busqueda:
$ find /camino -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "tu busqueda"' \;
"-" : salida a stdout, no a un archivo
--with-filename and --label= : pondran el nombre en la salida del grep
--color : salida del grep en colores.
Este método, usa find, pdftotext y grep una combinación perfecta.
Otra opción:
$ sudo apt-get install pdfgrep
$ pdfgrep -R 'texto a buscar' /algun/camino
A partir de la versión 1.3.0 pdfgrep soporta busqueda recursiva.