Afbeeldingen extraheren uit PDF's
Wanneer u een afbeelding moet extraheren uit een PDF-bestand
Soms is er echt een behoefte om een afbeelding te bewaren uit een PDF zonder schermafbeeldingen of het weergeven van de PDF op het scherm.
pdfimages
helpt daarbij.
Om afbeeldingen te extraheren uit een PDF-bestand in Linux, is de meest gebruikte en effectieve tool de command-line utility pdfimages,
die onderdeel is van de poppler-utils
package.
Gebruik van pdfimages
util in Linux: Stap-voor-stap instructies
1. Installeer pdfimages (indien nog niet geïnstalleerd):
De meeste Linux-distributies bevatten pdfimages
standaard. Indien nodig, installeer het met behulp van je pakketbeheerder:
sudo apt-get install poppler-utils
of voor Fedora:
sudo dnf install poppler-utils
2. Open een Terminal:
Druk op Ctrl + Alt + T
om een terminalvenster te openen.
3. Voer pdfimages uit om afbeeldingen te extraheren:
Basis syntaxis:
pdfimages
Voorbeeld:
pdfimages /pad/naar/bestand.pdf /pad/naar/uitvoer/afbeelding
- Dit extrahert alle afbeeldingen uit
bestand.pdf
en slaat ze op alsafbeelding-000.ppm
,afbeelding-001.ppm
, enz., in het opgegeven uitvoerdirectory.
4. Extraheer afbeeldingen als JPEG (indien gewenst):
Om afbeeldingen in JPEG-formaat te extraheren (wanneer mogelijk), gebruik de optie -j
:
pdfimages -j /pad/naar/bestand.pdf /pad/naar/uitvoer/afbeelding
- Dit slaat JPEG-afbeeldingen op als
.jpg
-bestanden.
5. Extraheer afbeeldingen van specifieke pagina’s:
- Om afbeeldingen van een bereik van pagina’s te extraheren, gebruik
-f
(eerste pagina) en-l
(laatste pagina):
pdfimages -f 2 -l 5 -j /pad/naar/bestand.pdf /pad/naar/uitvoer/afbeelding
- Dit extrahert afbeeldingen van pagina’s 2 tot en met 5.
6. Extra opties:
- Om afbeeldingen als PNG te extraheren: gebruik
-png
(indien ondersteund door jouw versie). - Voor wachtwoordbeschermd PDF’s, gebruik
-opw 'ownerpassword'
of-upw 'userpassword'
.
Opmerkingen
- Het standaard uitvoerformaat is PPM (kleur) of PBM (grijs). Gebruik
-j
voor JPEG, of converteer PPM/PBM-bestanden naar andere formaten met behulp van tools zoalsconvert
van ImageMagick indien nodig. - De uitvoerbestanden worden automatisch genummerd en opgeslagen in de opgegeven directory.
Samenvattingstabel
Voorbeeldopdracht | Beschrijving |
---|---|
pdfimages invoer.pdf afbeelding |
Extrahert alle afbeeldingen in het standaard PPM/PBM-formaat |
pdfimages -j invoer.pdf afbeelding |
Extrahert afbeeldingen als JPEG wanneer mogelijk |
pdfimages -f 3 -l 5 invoer.pdf afbeelding |
Extrahert afbeeldingen van pagina’s 3 tot en met 5 |
pdfimages -opw 'wachtwoord' -j invoer.pdf afbeelding |
Extrahert afbeeldingen van een PDF met eigenaar-wachtwoord |
Deze methode is efficiënt en werkt voor de meeste PDF’s met ingebedde afbeeldingen. Maar:
pdfimages
extrahert afbeeldingen in hun oorspronkelijke resolutie alleen.- Om de uitvoerresolutie te bepalen, gebruik een PDF-renderer zoals PyMuPDF en specificeer de gewenste DPI wanneer je de afbeelding maakt.
Hoe je afbeeldingen uit een PDF kunt opslaan met een specifieke resolutie.
Je kunt de resolutie van de geëxtraheerde afbeeldingen niet opgeven wanneer je pdfimages
gebruikt, omdat dit hulpmiddel ingebedde afbeeldingen in hun oorspronkelijke formaat en resolutie extrahert zonder resampling of kwaliteitsverandering. De resolutie wordt bepaald door hoe de afbeeldingen in de PDF zijn opgeslagen, en pdfimages
biedt geen optie om tijdens het extraheren te vergroten of verkleinen.
Als je afbeeldingen op een specifieke resolutie wilt extraheren (bijvoorbeeld het renderen van een pagina of een deel van een pagina als een afbeelding op een gekozen DPI), moet je een PDF-renderbibliotheek of tool zoals PyMuPDF (fitz
) gebruiken. Met PyMuPDF kun je de gewenste resolutie specificeren met behulp van de dpi
parameter wanneer je een pagina als afbeelding rendert:
import fitz # PyMuPDF
doc = fitz.open("invoer.pdf")
pagina = doc.load_page(0) # eerste pagina
pix = pagina.get_pixmap(dpi=300) # renderen op 300 DPI
pix.save("uitvoer.png")
Deze aanpak maakt een rasterafbeelding van de pagina op de opgegeven DPI, in plaats van de oorspronkelijke ingebedde afbeeldingen te extraheren.
Andere tools die afbeeldingen uit PDFs extraheren
De beste software om afbeeldingen uit PDFs te extraheren zonder resolutieverlies zijn diegen die de oorspronkelijke ingebedde afbeeldingen direct extraheren, in plaats van ze te renderen of te resamplen. De topkeuzes zijn:
-
Adobe Acrobat Pro: Biedt een toegewezen “Exporteer alle afbeeldingen” functie, die afbeeldingen in hun oorspronkelijke kwaliteit en formaat als losse bestanden extrahert. Deze methode is zeer betrouwbaar en behoudt de exacte resolutie en kwaliteit van de afbeeldingen zoals ze in de PDF zijn opgeslagen.
-
pdfimages (uit de XPDF/Poppler suite): Een gratis, open-source command-line tool beschikbaar op Linux en andere platforms.
pdfimages
extrahert alle afbeeldingen uit een PDF in hun originele formaat en resolutie, inclusief ondersteuning voor JPEG, JPEG2000 en andere formaten. Het wordt breed aanbevolen voor gebruikers die op zoek zijn naar een gratis, hoge-kwaliteit extraheringsproces. -
Online tools (bijv. PDF24 Tools, PDFCandy, pdfforge): Deze diensten laten je een PDF uploaden en de geëxtraheerde afbeeldingen downloaden, terwijl de oorspronkelijke resolutie behouden blijft. Ze zijn handig voor snelle taken en vereisen geen installatie, maar kunnen privacyproblemen opleveren voor gevoelige documenten.
Samenvattingstabel
Software/Hulpmiddel | Platform | Behoudt oorspronkelijke resolutie | Opmerkingen |
---|---|---|---|
Adobe Acrobat Pro | Windows/Mac | Ja | Betaald, professioneel, zeer betrouwbaar |
pdfimages (Poppler) | Linux/Windows | Ja | Gratis, open-source, command-line utility |
PDF24 Tools, PDFCandy | Webgebaseerd | Ja | Gratis, eenvoudig te gebruiken, privacyoverwegingen |
Belangrijk punt:
Gebruik altijd tools die extraheren (niet renderen of schermafbeeldingen maken) van de afbeeldingen. Zowel Adobe Acrobat Pro als pdfimages
zijn industrie-standaarden voor dit doel, zodat de afbeeldingen precies zoals ze in de PDF zijn opgeslagen worden opgeslagen, zonder verlies van resolutie.
pdfutils commandline opties
Bij het uitvoeren van pdfimages /help
wordt er iets als het volgende weergegeven:
$ pdfimages /help
pdfimages versie 24.02.0
Auteursrecht 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Auteursrecht 1996-2011, 2022 Glyph & Cog, LLC
Gebruik: pdfimages [opties] <PDF-bestand> <afbeeldings-root>
-f <int> : eerste pagina om te converteren
-l <int> : laatste pagina om te converteren
-png : verander het standaard uitvoerformaat naar PNG
-tiff : verander het standaard uitvoerformaat naar TIFF
-j : schrijf JPEG-afbeeldingen als JPEG-bestanden
-jp2 : schrijf JPEG2000-afbeeldingen als JP2-bestanden
-jbig2 : schrijf JBIG2-afbeeldingen als JBIG2-bestanden
-ccitt : schrijf CCITT-afbeeldingen als CCITT-bestanden
-all : equivalent aan -png -tiff -j -jp2 -jbig2 -ccitt
-list : druk lijst van afbeeldingen af in plaats van op te slaan
-opw <string> : eigenaar-wachtwoord (voor versleutelde bestanden)
-upw <string> : gebruiker-wachtwoord (voor versleutelde bestanden)
-p : voeg paginanummers toe in de uitvoerbestandsnamen
-q : druk geen berichten of fouten af
-v : druk auteursrecht en versieinformatie af
-h : druk gebruiksinformatie af
-help : druk gebruiksinformatie af
--help : druk gebruiksinformatie af
-? : druk gebruiksinformatie af