Ekstrak gambar dari PDF

Ketika Anda perlu mengekstrak gambar dari file PDF

Konten Halaman

Terkadang benar-benar ada kebutuhan untuk menyimpan gambar dari PDF tanpa melakukan screenshot atau menampilkan PDF di layar.
pdfimages membantu dalam hal ini.

Gambar komik seorang pria sedang mengambil foto dari diagram di layar

Untuk mengekstrak gambar dari file PDF di Linux, alat yang paling umum dan efektif adalah utilitas baris perintah pdfimages,
yang merupakan bagian dari paket poppler-utils.

Menggunakan utilitas pdfimages di Linux: Panduan Langkah demi Langkah

1. Instal pdfimages (jika belum terinstal):

Sebagian besar distribusi Linux sudah menyertakan pdfimages secara default. Jika diperlukan, instal melalui manajer paket Anda:

sudo apt-get install poppler-utils

atau untuk Fedora:

sudo dnf install poppler-utils

2. Buka Terminal:

Tekan Ctrl + Alt + T untuk membuka jendela terminal.

3. Jalankan pdfimages untuk mengekstrak gambar:

Sintaks dasar:

pdfimages  

Contoh:

pdfimages /path/to/file.pdf /path/to/output/image
  • Ini akan mengekstrak semua gambar dari file.pdf dan menyimpannya sebagai image-000.ppm, image-001.ppm, dll., di direktori output yang ditentukan.

4. Ekstrak Gambar sebagai JPEG (jika diinginkan):

Untuk mengekstrak gambar dalam format JPEG (jika memungkinkan), gunakan opsi -j:

pdfimages -j /path/to/file.pdf /path/to/output/image
  • Ini akan menyimpan gambar JPEG sebagai file .jpg.

5. Ekstrak Gambar dari Halaman Tertentu:

  • Untuk mengekstrak gambar dari rentang halaman, gunakan -f (halaman pertama) dan -l (halaman terakhir):
pdfimages -f 2 -l 5 -j /path/to/file.pdf /path/to/output/image
  • Ini mengekstrak gambar dari halaman 2 hingga 5.

6. Opsi Tambahan:

  • Untuk mengekstrak gambar sebagai PNG: gunakan -png (jika didukung oleh versi Anda).
  • Untuk PDF yang dilindungi kata sandi, gunakan -opw 'ownerpassword' atau -upw 'userpassword'.

Catatan

  • Format output default adalah PPM (warna) atau PBM (hitam putih). Gunakan -j untuk JPEG, atau konversi file PPM/PBM ke format lain menggunakan alat seperti convert dari ImageMagick jika diperlukan.
  • File output secara otomatis diberi nomor dan disimpan di direktori yang ditentukan.

Tabel Ringkasan

Contoh Perintah Deskripsi
pdfimages input.pdf image Mengekstrak semua gambar dalam format default PPM/PBM
pdfimages -j input.pdf image Mengekstrak gambar sebagai JPEG jika memungkinkan
pdfimages -f 3 -l 5 input.pdf image Mengekstrak gambar dari halaman 3 hingga 5
pdfimages -opw 'password' -j input.pdf image Mengekstrak gambar dari PDF yang dilindungi kata sandi pemilik

Metode ini efisien dan bekerja untuk sebagian besar PDF yang mengandung gambar yang disisipkan. Namun:

  • pdfimages hanya mengekstrak gambar dengan resolusi asli mereka.
  • Untuk mengontrol resolusi output, gunakan renderer PDF seperti PyMuPDF dan tentukan DPI yang diinginkan saat membuat gambar.

Cara menyimpan gambar dari PDF dengan resolusi tertentu.

Anda tidak dapat menentukan resolusi gambar yang diekstrak saat menggunakan pdfimages, karena alat ini mengekstrak gambar yang disisipkan dalam format dan resolusi asli mereka tanpa resampling atau mengubah kualitas. Resolusi ditentukan oleh cara gambar disimpan dalam PDF, dan pdfimages tidak menyediakan opsi untuk meng upscale atau downscale saat ekstraksi.

Jika Anda ingin mengekstrak gambar dengan resolusi tertentu (misalnya, merender halaman atau bagian dari halaman sebagai gambar dengan DPI yang dipilih), Anda perlu menggunakan perpustakaan atau alat rendering PDF seperti PyMuPDF (fitz). Dengan PyMuPDF, Anda dapat menentukan resolusi yang diinginkan menggunakan parameter dpi saat merender halaman ke gambar:

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0)  # halaman pertama
pix = page.get_pixmap(dpi=300)  # render dengan 300 DPI
pix.save("output.png")

Pendekatan ini menciptakan gambar raster dari halaman dengan DPI yang ditentukan, bukan mengekstrak gambar yang disisipkan asli.

Alat lain yang mengekstrak gambar dari PDF

Perangkat lunak terbaik untuk mengekstrak gambar dari PDF tanpa kehilangan resolusi adalah alat yang mengekstrak gambar yang disisipkan asli secara langsung, bukan merender atau meresample mereka. Pilihan teratas meliputi:

  • Adobe Acrobat Pro: Menyediakan fitur khusus “Export All Images”, yang mengekstrak gambar dalam kualitas dan format asli mereka sebagai file terpisah. Metode ini sangat andal dan mempertahankan resolusi dan kualitas gambar persis seperti yang disimpan dalam PDF.

  • pdfimages (dari [XPDF/Poppler suite(https://www.glukhov.org/id/post/2025/04/ubuntu-poppler/ “Alat manipulasi PDF di Ubuntu - Poppler”)): Alat baris perintah gratis dan open-source yang tersedia di Linux dan platform lainnya. pdfimages mengekstrak semua gambar dari PDF dalam format dan resolusi asli mereka, termasuk dukungan untuk JPEG, JPEG2000, dan format lainnya. Alat ini sangat direkomendasikan untuk pengguna yang mencari proses ekstraksi tanpa biaya dengan kualitas tinggi.

  • Alat online (misalnya, PDF24 Tools, PDFCandy, pdfforge): Layanan ini memungkinkan Anda mengunggah PDF dan mengunduh gambar yang diekstrak, mempertahankan resolusi asli. Mereka sangat praktis untuk tugas cepat dan tidak memerlukan instalasi, tetapi mungkin menimbulkan kekhawatiran privasi untuk dokumen sensitif.

Tabel Ringkasan

Perangkat Lunak/Alat Platform Pertahankan Resolusi Asli Catatan
Adobe Acrobat Pro Windows/Mac Ya Berbayar, profesional, sangat andal
pdfimages (Poppler) Linux/Windows Ya Gratis, open-source, utilitas baris perintah
PDF24 Tools, PDFCandy Berbasis Web Ya Gratis, mudah digunakan, pertimbangkan privasi

Poin Penting:
Selalu gunakan alat yang mengekstrak (bukan merender atau screenshot) gambar. Kedua Adobe Acrobat Pro dan pdfimages adalah standar industri untuk tujuan ini, memastikan gambar disimpan persis seperti yang ada di PDF, tanpa kehilangan resolusi.

Opsi baris perintah pdfutils

Ketika menjalankan pdfimages /help akan mencetak sesuatu seperti:

$ pdfimages /help
pdfimages versi 24.02.0
Hak cipta 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Hak cipta 1996-2011, 2022 Glyph & Cog, LLC
Penggunaan: pdfimages [opsi] <PDF-file> <image-root>
  -f <int>       : halaman pertama yang dikonversi
  -l <int>       : halaman terakhir yang dikonversi
  -png           : ubah format output default ke PNG
  -tiff          : ubah format output default ke TIFF
  -j             : tulis gambar JPEG sebagai file JPEG
  -jp2           : tulis gambar JPEG2000 sebagai file JP2
  -jbig2         : tulis gambar JBIG2 sebagai file JBIG2
  -ccitt         : tulis gambar CCITT sebagai file CCITT
  -all           : setara dengan -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : cetak daftar gambar bukan menyimpan
  -opw <string>  : kata sandi pemilik (untuk file terenkripsi)
  -upw <string>  : kata sandi pengguna (untuk file terenkripsi)
  -p             : sertakan nomor halaman dalam nama file output
  -q             : jangan cetak pesan atau kesalahan apa pun
  -v             : cetak informasi hak cipta dan versi
  -h             : cetak informasi penggunaan
  -help          : cetak informasi penggunaan
  --help         : cetak informasi penggunaan
  -?             : cetak informasi penggunaan

Tautan yang Berguna