Hoe extraheer je afbeeldingen uit een PDF?

Om afbeeldingen te extraheren uit een PDF kunt u het pdfimages-hulpprogramma uit poppler-utils gebruiken: pdfimages /path/to/file.pdf /path/to/output/image

Afbeeldingen extraheren uit PDF's

Wanneer u een afbeelding moet extraheren uit een PDF-bestand

Inhoud

Soms is er echt een behoefte om een afbeelding te bewaren uit een PDF zonder schermafbeeldingen of het weergeven van de PDF op het scherm.
pdfimages helpt daarbij.

Een strip afbeelding van een man die een foto neemt van het diagram op het scherm

Om afbeeldingen te extraheren uit een PDF-bestand in Linux, is de meest gebruikte en effectieve tool de command-line utility pdfimages,
die onderdeel is van de poppler-utils package.

Gebruik van `pdfimages` util in Linux: Stap-voor-stap instructies

1. Installeer pdfimages (indien nog niet geïnstalleerd):

De meeste Linux-distributies bevatten pdfimages standaard. Indien nodig, installeer het met behulp van je pakketbeheerder:

sudo apt-get install poppler-utils

of voor Fedora:

sudo dnf install poppler-utils

2. Open een Terminal:

Druk op Ctrl + Alt + T om een terminalvenster te openen.

3. Voer pdfimages uit om afbeeldingen te extraheren:

Basis syntaxis:

pdfimages

Voorbeeld:

pdfimages /pad/naar/bestand.pdf /pad/naar/uitvoer/afbeelding

Dit extrahert alle afbeeldingen uit bestand.pdf en slaat ze op als afbeelding-000.ppm, afbeelding-001.ppm, enz., in het opgegeven uitvoerdirectory.

4. Extraheer afbeeldingen als JPEG (indien gewenst):

Om afbeeldingen in JPEG-formaat te extraheren (wanneer mogelijk), gebruik de optie -j:

pdfimages -j /pad/naar/bestand.pdf /pad/naar/uitvoer/afbeelding

Dit slaat JPEG-afbeeldingen op als .jpg-bestanden.

5. Extraheer afbeeldingen van specifieke pagina’s:

Om afbeeldingen van een bereik van pagina’s te extraheren, gebruik -f (eerste pagina) en -l (laatste pagina):

pdfimages -f 2 -l 5 -j /pad/naar/bestand.pdf /pad/naar/uitvoer/afbeelding

Dit extrahert afbeeldingen van pagina’s 2 tot en met 5.

6. Extra opties:

Om afbeeldingen als PNG te extraheren: gebruik -png (indien ondersteund door jouw versie).
Voor wachtwoordbeschermd PDF’s, gebruik -opw 'ownerpassword' of -upw 'userpassword'.

Opmerkingen

Het standaard uitvoerformaat is PPM (kleur) of PBM (grijs). Gebruik -j voor JPEG, of converteer PPM/PBM-bestanden naar andere formaten met behulp van tools zoals convert van ImageMagick indien nodig.
De uitvoerbestanden worden automatisch genummerd en opgeslagen in de opgegeven directory.

Samenvattingstabel

Voorbeeldopdracht	Beschrijving
`pdfimages invoer.pdf afbeelding`	Extrahert alle afbeeldingen in het standaard PPM/PBM-formaat
`pdfimages -j invoer.pdf afbeelding`	Extrahert afbeeldingen als JPEG wanneer mogelijk
`pdfimages -f 3 -l 5 invoer.pdf afbeelding`	Extrahert afbeeldingen van pagina’s 3 tot en met 5
`pdfimages -opw 'wachtwoord' -j invoer.pdf afbeelding`	Extrahert afbeeldingen van een PDF met eigenaar-wachtwoord

Deze methode is efficiënt en werkt voor de meeste PDF’s met ingebedde afbeeldingen. Maar:

pdfimages extrahert afbeeldingen in hun oorspronkelijke resolutie alleen.
Om de uitvoerresolutie te bepalen, gebruik een PDF-renderer zoals PyMuPDF en specificeer de gewenste DPI wanneer je de afbeelding maakt.

Hoe je afbeeldingen uit een PDF kunt opslaan met een specifieke resolutie.

Je kunt de resolutie van de geëxtraheerde afbeeldingen niet opgeven wanneer je pdfimages gebruikt, omdat dit hulpmiddel ingebedde afbeeldingen in hun oorspronkelijke formaat en resolutie extrahert zonder resampling of kwaliteitsverandering. De resolutie wordt bepaald door hoe de afbeeldingen in de PDF zijn opgeslagen, en pdfimages biedt geen optie om tijdens het extraheren te vergroten of verkleinen.

Als je afbeeldingen op een specifieke resolutie wilt extraheren (bijvoorbeeld het renderen van een pagina of een deel van een pagina als een afbeelding op een gekozen DPI), moet je een PDF-renderbibliotheek of tool zoals PyMuPDF (fitz) gebruiken. Met PyMuPDF kun je de gewenste resolutie specificeren met behulp van de dpi parameter wanneer je een pagina als afbeelding rendert:

import fitz  # PyMuPDF
doc = fitz.open("invoer.pdf")
pagina = doc.load_page(0)  # eerste pagina
pix = pagina.get_pixmap(dpi=300)  # renderen op 300 DPI
pix.save("uitvoer.png")

Deze aanpak maakt een rasterafbeelding van de pagina op de opgegeven DPI, in plaats van de oorspronkelijke ingebedde afbeeldingen te extraheren.

Andere tools die afbeeldingen uit PDFs extraheren

De beste software om afbeeldingen uit PDFs te extraheren zonder resolutieverlies zijn diegen die de oorspronkelijke ingebedde afbeeldingen direct extraheren, in plaats van ze te renderen of te resamplen. De topkeuzes zijn:

Adobe Acrobat Pro: Biedt een toegewezen “Exporteer alle afbeeldingen” functie, die afbeeldingen in hun oorspronkelijke kwaliteit en formaat als losse bestanden extrahert. Deze methode is zeer betrouwbaar en behoudt de exacte resolutie en kwaliteit van de afbeeldingen zoals ze in de PDF zijn opgeslagen.
pdfimages (uit de XPDF/Poppler suite): Een gratis, open-source command-line tool beschikbaar op Linux en andere platforms. pdfimages extrahert alle afbeeldingen uit een PDF in hun originele formaat en resolutie, inclusief ondersteuning voor JPEG, JPEG2000 en andere formaten. Het wordt breed aanbevolen voor gebruikers die op zoek zijn naar een gratis, hoge-kwaliteit extraheringsproces.
Online tools (bijv. PDF24 Tools, PDFCandy, pdfforge): Deze diensten laten je een PDF uploaden en de geëxtraheerde afbeeldingen downloaden, terwijl de oorspronkelijke resolutie behouden blijft. Ze zijn handig voor snelle taken en vereisen geen installatie, maar kunnen privacyproblemen opleveren voor gevoelige documenten.

Samenvattingstabel

Software/Hulpmiddel	Platform	Behoudt oorspronkelijke resolutie	Opmerkingen
Adobe Acrobat Pro	Windows/Mac	Ja	Betaald, professioneel, zeer betrouwbaar
pdfimages (Poppler)	Linux/Windows	Ja	Gratis, open-source, command-line utility
PDF24 Tools, PDFCandy	Webgebaseerd	Ja	Gratis, eenvoudig te gebruiken, privacyoverwegingen

Belangrijk punt:
Gebruik altijd tools die extraheren (niet renderen of schermafbeeldingen maken) van de afbeeldingen. Zowel Adobe Acrobat Pro als pdfimages zijn industrie-standaarden voor dit doel, zodat de afbeeldingen precies zoals ze in de PDF zijn opgeslagen worden opgeslagen, zonder verlies van resolutie.

pdfutils commandline opties

Bij het uitvoeren van pdfimages /help wordt er iets als het volgende weergegeven:

$ pdfimages /help
pdfimages versie 24.02.0
Auteursrecht 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Auteursrecht 1996-2011, 2022 Glyph & Cog, LLC
Gebruik: pdfimages [opties] <PDF-bestand> <afbeeldings-root>
  -f <int>       : eerste pagina om te converteren
  -l <int>       : laatste pagina om te converteren
  -png           : verander het standaard uitvoerformaat naar PNG
  -tiff          : verander het standaard uitvoerformaat naar TIFF
  -j             : schrijf JPEG-afbeeldingen als JPEG-bestanden
  -jp2           : schrijf JPEG2000-afbeeldingen als JP2-bestanden
  -jbig2         : schrijf JBIG2-afbeeldingen als JBIG2-bestanden
  -ccitt         : schrijf CCITT-afbeeldingen als CCITT-bestanden
  -all           : equivalent aan -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : druk lijst van afbeeldingen af in plaats van op te slaan
  -opw <string>  : eigenaar-wachtwoord (voor versleutelde bestanden)
  -upw <string>  : gebruiker-wachtwoord (voor versleutelde bestanden)
  -p             : voeg paginanummers toe in de uitvoerbestandsnamen
  -q             : druk geen berichten of fouten af
  -v             : druk auteursrecht en versieinformatie af
  -h             : druk gebruiksinformatie af
  -help          : druk gebruiksinformatie af
  --help         : druk gebruiksinformatie af
  -?             : druk gebruiksinformatie af

Gebruik van pdfimages util in Linux: Stap-voor-stap instructies