Herramientas para manipular PDF en Ubuntu - Poppler
A veces necesitas agregar una página a un PDF...
Otro día en el que quieres extraer imagen y texto del pdf…
Arriba se muestra una imagen generada por IA del modelo Flux 1) de cómo “los llavadores están muy ocupados persiguiendo documentos portátiles”.
Acerca de Poppler
Poppler es una biblioteca de renderizado de PDF gratuita y de código abierto utilizada en sistemas Linux, incluido Ubuntu. Proporciona utilidades de línea de comandos para manipular y convertir archivos PDF. Aquí hay un resumen de las utilidades de Poppler en Ubuntu y cómo usarlas:
¿Qué es Poppler en Ubuntu?
- Poppler es una biblioteca de renderizado de PDF basada en el código base de xpdf-3.0.
- Incluye varias herramientas de línea de comandos para extraer texto, imágenes, fusionar/dividir PDFs y convertir PDFs a otros formatos.
- Se utiliza comúnmente en entornos de escritorio GNOME y KDE.
Instalación
Para instalar las utilidades de Poppler en Ubuntu, ejecuta:
sudo apt-get install poppler-utils
Poppler es una biblioteca de renderizado de PDF basada en el visor de PDF Xpdf.
Este paquete contiene utilidades de línea de comandos (basadas en Poppler) para obtener información de documentos PDF, convertirlos a otros formatos o manipularlos:
- pdfdetach – lista o extrae archivos incrustados (archivos adjuntos)
- pdffonts – analizador de fuentes
- pdfimages – extractor de imágenes
- pdfinfo – información del documento
- pdfseparate – herramienta de extracción de páginas
- pdfsig – verifica firmas digitales
- pdftocairo – convertidor de PDF a PNG/JPEG/PDF/PS/EPS/SVG usando Cairo
- pdftohtml – convertidor de PDF a HTML
- pdftoppm – convertidor de PDF a PPM/PNG/JPEG
- pdftops – convertidor de PDF a PostScript (PS)
- pdftotext – extracción de texto
- pdfunite – herramienta de unión de documentos
Utilidades clave de Poppler y su uso
-
pdfinfo
– Obtener metadatos de un PDF (título, autor, páginas, etc.)pdfinfo file.pdf
-
pdftotext
– Extraer texto de un PDFpdftotext file.pdf [output.txt]
-
pdfimages
– Extraer imágenes de un PDFpdfimages file.pdf output_prefix
-
pdftoppm
/pdftocairo
– Convertir páginas de PDF a imágenes (PNG, JPEG, etc.)pdftoppm -png file.pdf output_prefix
-
pdfseparate
– Dividir un PDF en páginas individualespdfseparate file.pdf output_%d.pdf
-
pdfunite
– Unir varios PDFs en unopdfunite file1.pdf file2.pdf merged.pdf
-
pdftohtml
– Convertir PDF a HTMLpdftohtml file.pdf [output.html]
-
pdffonts
– Listar fuentes utilizadas en un PDFpdffonts file.pdf
Notas adicionales
- La mayoría de los comandos admiten
-h
o--help
para opciones detalladas. - Poppler está preinstalado en muchos sistemas Linux, pero si no está presente,
poppler-utils
puede instalarse medianteapt
.
Información del paquete Launchpad de Ubuntu
https://launchpad.net/ubuntu/+source/poppler
gir1.2-poppler-0.18: datos de introspección de GObject para poppler-glib
libpoppler-cpp-dev: biblioteca de renderizado de PDF -- archivos de desarrollo (interfaz CPP)
libpoppler-cpp1: biblioteca de renderizado de PDF (biblioteca compartida CPP)
libpoppler-cpp1-dbgsym: no hay resumen disponible para libpoppler-cpp1-dbgsym en ubuntu plucky.
libpoppler-dev: biblioteca de renderizado de PDF -- archivos de desarrollo
libpoppler-glib-dev: biblioteca de renderizado de PDF -- archivos de desarrollo (interfaz GLib)
libpoppler-glib-doc: biblioteca de renderizado de PDF -- documentación para la interfaz GLib
libpoppler-glib8t64: biblioteca de renderizado de PDF (biblioteca compartida basada en GLib)
libpoppler-glib8t64-dbgsym: símbolos de depuración para libpoppler-glib8t64
libpoppler-private-dev: biblioteca de renderizado de PDF -- archivos de desarrollo privados
libpoppler-qt5-1t64: biblioteca de renderizado de PDF (biblioteca compartida basada en Qt 5)
libpoppler-qt5-1t64-dbgsym: símbolos de depuración para libpoppler-qt5-1t64
libpoppler-qt5-dev: biblioteca de renderizado de PDF -- archivos de desarrollo (interfaz Qt 5)
libpoppler-qt6-3t64: biblioteca de renderizado de PDF (biblioteca compartida basada en Qt 6)
libpoppler-qt6-3t64-dbgsym: símbolos de depuración para libpoppler-qt6-3t64
libpoppler-qt6-dev: biblioteca de renderizado de PDF -- archivos de desarrollo (interfaz Qt 6)
libpoppler140: biblioteca de renderizado de PDF
libpoppler140-dbgsym: símbolos de depuración para libpoppler140
poppler-utils: utilidades de PDF (basadas en Poppler)
poppler-utils-dbgsym: símbolos de depuración para poppler-utils