¿Cómo buscar contenido de varios archivos pdf?

Posted on dom 07 mayo 2017 in command-line


Buscando en consola dentro de múltiples archivos pdf's recursivamente:

Instalar paquete que contiene pdftotext:

$ sudo apt-get install poppler-utils

Busqueda:

$ find /camino -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "tu busqueda"' \;

"-" : salida a stdout, no a un archivo

--with-filename and --label= : pondran el nombre en la salida del grep

--color : salida del grep en colores.

Este método, usa find, pdftotext y grep una combinación perfecta.

Otra opción:

$ sudo apt-get install pdfgrep

$ pdfgrep -R 'texto a buscar' /algun/camino

A partir de la versión 1.3.0 pdfgrep soporta busqueda recursiva.