Dies Natalis UNAKI Ke-22: OCR ( Optical Character Recognition )

Pada saat proses pemindaian dokumen terutama dokumen teks, hasil output masih berupa format gambar flat sehingga teks tidak dapat diubah atau disalin secara langsung. Untuk itu diperlukan sebuah proses lagi yaitu Optical Character Recognition (OCR). Proses OCR adalah proses yang menerjemahkan gambar karakter (image character) menjadi bentuk teks dengan cara mencocokkan pola karakter per baris dengan pola yang telah tersimpan dalam database aplikasi. Hasil dari proses OCR adalah berupa teks sesuai yang tampak pada gambar output scanner dimana tingkat keakuratan penerjemahan karakter tergantung dari tingkat kejelasan gambar. Saat ini dipasaran sudah banyak tersedia perangkat lunak yang mampu menangkap output dari alat pemindai sekaligus melakukan proses OCR secara langsung dan kemudian menyimpannya dalam format yang diinginkan, misalnya Abby Fine Reader, OmniPage Pro, Adobe Acrobat 7.

Aplikasi-aplikasi yang digunakan untuk OCR
1. OCR dengan menggunakan Microsoft OneNote 2007
Untuk OCR yang dasar, karakter optik MS OneNote merupakan fitur penghemat waktu sebuah pengakuan. disebut Salin Teks dari Gambar. OneNote adalah kesederhanaan dipersonifikasikan. Jadi tidak terlalu baik untuk karakter tulisan tangan atau bahkan yang Unik. Tapi pekerjaannya cepat

2. OCR Dengan Menggunakan Microsoft Office Document Imaging
Alat lain yang digunakan termasuk dari bagian Microsoft Office. Anda dapat menemukannya dengan mengklik Start=>All Program=>Microsoft Office=>Microsoft Office Tools=>Microsoft Office Document Imaging

3. TopOCR
TopOCR, software yang memisahkan diri dari perangkat lunak OCR khas, dirancang khusus untuk kamera digital (setidaknya 3MP) dan ponsel bersama dengan scanner. Seperti SimpleOCR, ia memiliki dua jendela antarmuka – Image sumber jendela dan jendela Teks. Gambar bersumber dari kamera atau pemindai di jendela kiri akan dikonversi ke format teks dalam editor teks di sebelah kanan. Fungsi editor teks seperti WordPad dan dapat menggunakan Teks Microsoft untuk Text to Speech.

4. FreeOCR
Software OCR ini gratis, menggunakan mesin tesseract OCR. OCR tesseract kode dikembangkan di HP Labs antara tahun 1985 dan 1995 dan saat ini dengan Google. Hal ini dianggap sebagai salah satu mesin yang paling akurat OCR open source yang tersedia.
FreeOCR adalah antarmuka Windows yang sederhana untuk kode yang mendasari.

Mendukung file gambar dan file TIFF dengan multi-halaman.
Dapat menangani format PDF dan juga kompatibel dengan perangkat TWAIN seperti scanner.
FreeOCR juga memiliki antarmuka jendela ganda akrab dan mudah untuk memahami pengaturan.
Sebelum memulai proses konversi satu klik, Anda dapat menyesuaikan kontras gambar yang lebih baik untuk dibaca.

Cara melakukan OCR dan hal yang dibutuhkan untuk melakukan OCR

Untuk melakukan OCR sendiri harus memerlukan sebuah perangkat lunak dan perangkat keras. Scanner merupakan salah satu perangkat keras yang dibutuhkan. Sedangkan untuk perangkat lunaknya adalah seperti Omnipage, Abbyy FineReader, dll.
berikut adalah cara-cara melakukan OCR :
1. Simpanlah file contoh ini kedalam komputer anda. download
2. Buka Microsoft PowerPoint, dan insertkan file gambar tersebut kedalam dokumen presentasi anda.
3. Klik Kanan pada gambar, pilih Save Picture As, beri nama file dan pilih format penyimpanan menjadi TIFF.
4. Lalu buka Microsoft Office Document Imaging dari Menu Start > All Programs > Microsoft Office > Microsoft Office Tools > Microsoft Office Document Imaging.
5. Bukalah file tiff tadi melalui Microsoft Office Document Imaging.
6. Pilih Tools > Recognize Text Using OCR
7. Setelah proses konversi selesai, blok teks yang ingin diambil dengan menggunakan select tool.
8. Pilih Tools > Send Text To Word.
9. Hasil dari Konversi ditampilkan kedalam dokumen Word.

Dies Natalis UNAKI Ke-22

OCR ( Optical Character Recognition )

0 komentar:

Cari Blog Ini

Stastik

Categories

Mengenai Saya

Popular Posts

Label

Total Tayangan Halaman