File PDF Kadang Menyebalkan

by dalimun

Bagi jurnalis dan peneliti, data mentah (termasuk format file-nya) tentu lebih menarik daripada data “jadi”. Sayang, banyak instansi memilih format file *.pdf (malah ada juga yang di-scan jadi *.jpg agar lebih menarik *-_-) yang justru merepotkan untuk mengolahnya. Pernyataan ini mungkin by case, tapi di banyak case, kondisi itu sungguh tidak menarik. Format sederhana semacam *.txt, *.rtf, *.doc, atau *.csv sebenarnya lebih bermanfaat (mari ingatkan mereka untuk sadar data & format :) meski tidak mudah).

Butuh penanganan lanjut jika sedang “apes” mendapatkan data *.pdf, *.jpg etc. Terpaksa memotret lembar data karena narasumber tidak memiliki salinan masuk kategori ini (yang sangat sering dialami jurnalis). Ada banyak cara untuk meng-convert data semacam itu. Beberapa alternatif dijelaskan cukup baik dalam artikel ini:

-Jika data *.pdf —> http://datadrivenjournalism.net/resources/chapter_3_turning_pdfs_to_text

-Jika data image (*.jpg, *.png etc) —> http://www.propublica.org/nerds/item/image-to-text-ocr-and-imagemagick

Cara paling mudah memang menggunakan layanan converter online, meski beberapa justru hasilnya “amburadul”. Paling bagus mungkin dengan memanfaatkan bahasa pemrograman (usaha sedikit keras tapi sebanding hasilnya, believe me for this). Namun, untuk kasus data image, convert ke *.xls, *.txt, *.doc cara lain yang lebih mudah adalah memanfaatkan situs penyedia layanan OCR online (banyak yang free). Salah satu yang sudah saya coba adalah http://www.onlineocr.net cukup memuaskan hasilnya (hanya butuh “pembersihan” minor). Versi guest dapat digunakan maksimal 15 file image per jam dengan ukuran masing-masing file maksimal 4MB. Jika tidak puas, tentu ada banyak software berbayar yang menjanjikan hasil lebih baik (tapi saran saya mending mencari yang gratis, ada banyak, hanya butuh modifikasi).

Selamat menggali data. Semoga bermanfaat.

Advertisements