Pengertian Optical Character Recognition (OCR)
OCR
adalah sebuah sistem komputer yang dapat membaca huruf, baik yang berasal dari
sebuah pencetak (printer atau mesin ketik) maupun yang berasal dari tulisan
tangan. Adanya sistem pengenal huruf ini akan meningkatkan fleksibilitas
ataupun kemampuan dan kecerdasan system komputer. Dengan adanya sistem OCR maka
user dapat lebih leluasa memasukkan data karena user tidak harus memakai papan
ketik tetapi bias menggunakan pena elektronik untuk menulis sebagaimana user
menulis di kertas. Adanya OCR juga akan memudahkan penanganan pekerjaan yang
memakai input tulisan seperti penyortiran surat di kantor pos, pemasukan data
buku di perpustakaan, dll. Adanya sistem pengenal huruf yang cerdas akan sangat
membantu usaha besar-besaran yang saat ini dilakukan banyak pihak yakni usaha
digitalisasi informasi dan pengetahuan, misalnya dalam pembuatan koleksi
pustaka digital, koleksi sastra kuno digital, dll.
OCR dapat dipandang sebagai bagian
dari pengenal otomatis yang lebih luas yakni pengenal pola otomatis (automatic
pattern recognition). Dalam pengenal pola otomatis, sistem pengenal pola
mencoba mengenali apakah citra masukan yang diterima cocok dengan salah satu
citra yang telah ditentukan. Sistem ini misalnya dipakai untuk mendeteksi sidik
jari, tanda tangan, bahkan wajah seseorang. Ada banyak pendekatan yang dapat
dipakai untuk mengembangkan pembuatan pengenal pola otomatis antara lain
memakai pendekatan numerik, statistik, sintaktik, neural dan, aturan produksi
(rule-based).
Secara
umum metode-metode tersebut dapat digolongkan menjadi dua kelompok metode yakni
metode berbasis statistik dan metode berbasis struktur. Dalam metode yang
berbasis statistik, setiap pola ditransformasi ke dalam vektor yang memakai
ukuran dan karakteristik tertentu. Karakteristik ini seringkali lebih bersifat
statistik misalnya distribusi pixel ataupun jarak pixel. Sedang dalam metode
yang berbasis struktur, setiap pola yang diproses dinyatakan sebagai gabungan
beberapa struktur elementer. Pengenalan selanjutnya dilakukan dengan
mencocokkan komposisi struktur elementer dengan struktur yang sudah disimpan
memakai aturan tertentu misalnya memakai pendekatan teori bahasa formal dan
automata. Secara umum blok diagram kerja OCR adalah sebagai berikut : dengan struktur
yang sudah disimpan memakai aturan tertentu misalnya memakai pendekatan teori
bahasa formal dan automata. Secara umum blok diagram kerja OCR adalah sebagai
berikut :
Sistem
Kerja OCR
Data Capture Data capture merupakan proses konversi
suatu dokumen (hardcopy) menjadi suatu file gambar (BMP). Preprocessing
Preprocessing merupakan suatu proses untuk
menghilangkan bagian-bagian yang tidak diperlukan pada gambar input
untuk proses selanjutnya. Beberapa contoh preprocessing adalah noise filtering.
Segmentation Segmentasi adalah proses memisahkan area pengamatan (region) pada
tiap karakter yang akan dideteksi.
Normalization
Normalization adalah proses merubah dimensi region tiap karakter dan ketebalan
karakter. Dalam OCR algoritma yang digunakan pada proses ini adalah algoritma
scaling dan thinning.
Feature Extraction Feature Extraction adalah proses untuk Recognition mengambil ciri-ciri tertentu dari karakter yang diamati. Recognition merupakan proses untuk mengenali karakter yang diamati dengan cara membandingkan ciri-ciri karakter yang diperoleh dengan ciri-ciri karakter yang ada pada database.
Postprocessing Pada umumnya proses yang dilakukan pada tahap ini adalah proses koreksi ejaan sesuai dengan bahasa yang digunakan.
Feature Extraction Feature Extraction adalah proses untuk Recognition mengambil ciri-ciri tertentu dari karakter yang diamati. Recognition merupakan proses untuk mengenali karakter yang diamati dengan cara membandingkan ciri-ciri karakter yang diperoleh dengan ciri-ciri karakter yang ada pada database.
Postprocessing Pada umumnya proses yang dilakukan pada tahap ini adalah proses koreksi ejaan sesuai dengan bahasa yang digunakan.
DEVINISI
OCR
Optical Character recognition adalah sebuah sistim
computer yang dapat membaca huruf baik yang berasal dari sebuah pencetak maupun
berasal dari tulisan tangan . Dari Wikipedia bahasa Indonesia, ensiklopedia
bebas
Rekognisi karakter optik atau pengenalan huruf optik (lebih populer
dalam istilah bahasa Inggris, optical character recognition, yang
biasa disingkat OCR) adalah alat
mekanis atau elektronika yang digunakan untuk menerjemahkan menerjemahkan
tulisan tangan ataupun naskah ketikan (biasanya dipindai menggunakan pemindai) menjadi teks yang dapat diedit dengan suatu aplikasi
komputer.
No comments:
Post a Comment
silahkan kirim komentar anda