OCR kitapçığını Pdf formatında görmek için tıklayınız.

Transkript

OCR kitapçığını Pdf formatında görmek için tıklayınız.
C M Y K
C M Y K
OCR
OPTICAL CHARACTER RECOGNATION
OPT‹K KARAKTER TANIMA
•
•
•
•
OCR TEKNOLOJ‹S‹
ABBYY FINEREADER
ICR TEKNOLOJ‹S‹
ABBYY FORMREADER
Bu ek KETS’in katk›lar›yla haz›rlanm›flt›r.
C M Y K
C M Y K
OCR • OCR • OCR •
OCR TEKNOLOJ‹S‹:
ir scanner, yani taray›c› cihaz› sat›n almak için hemen
herkes ortak nedenlerle yola koyulur. Bu nedenler
genellikle kiflisel foto¤raflar› say›sal ortama aktararak
paylafl›lmas›n› ve saklanmas›n› kolaylaflt›rmak, Web siteleri
için bas›l› dokümanlardan resim temin etmek gibi genel
amaçlar›n gerçeklefltirilmesinden ibarettir.
Bununla beraber di¤er bilgisayar çevre birimleriyle karfl›laflt›r›ld›¤›nda günlük hayatta nispeten az kullan›lan bu cihazlar, ayn› zamanda OCR (Optical Character Recognition=Optik Karakter Tan›ma) isimli bir teknolojinin donan›m
aya¤›n› olufltururlar. Bir taray›c› ve bir de OCR yaz›l›m›na ihtiyaç duyan bu teknoloji, ka¤›da bas›lm›fl yaz›l› dokümanlar›n içeri¤ini bilgisayar›n›zdaki herhangi bir kelime ifllem yaz›l›m›n›n anlayabilece¤i ve üzerinde de¤ifliklikler yapabilece-
B
Bilgisayar›n›z yazabiliyor,
peki okuyabiliyor mu?
Optik karakter tan›ma (OCR) ve
forma bilgi girifli otomasyonu (ICR)
hakk›nda bilmek istediginiz
herfleyi bu ekte bulacaksiniz.
tekrar yazmakla vakit kaybetmeyin!
siz taray›n,
bilgisayar›n›z okusun
3
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
¤i flekle dönüfltürebilir. Bu sayede herhangi
bir yaz›l› belgedeki metni bilgisayara aktarmak için ka¤›da bakarak tek tek klavyeden
Bir taray›c›ya sahipseniz, birçok
yazma zorunlulu¤unuzu ortadan kald›r›r, kaülkenin biliflim yay›nlar› taraf›n¤›t üzerindeki tablolar› Excel’e kolayca aktadan ödüle lay›k görülen FineRerabilmenizi sa¤lar ya da güzel bir bas›l› sayader 5’i, üstelik özellikleri geniflletilmifl Office sürümüyle
fay› resim ve yaz›lar›n› ay›rarak ayn› flekliybizzat kendiniz de deneyebilirle Web sayfas› haline dönüfltürebilmenize
siniz. Deneme sürümünüz,
olanak verir. ‹flte, taray›c›n›z› kullanarak baTürkçe karakter tan›ma dosyas›l› dokümanlardaki metinlerin kelime ifllemlar›yla birlikte bu ayki CD’mizin
cinize aktar›lmas›na ve bu sayede bilgisayar
OCR klasöründe bulunuyor.
üzerindeki hemen her platformda kullan›labilmesine olanak veren OCR teknolojisinin ayr›nt›l› bir incelemesi bu ekin konusunu oluflturuyor.
OCR konusunda merak etti¤iniz tüm konulara aç›kl›k getirmesi aç›s›ndan faydal› olaca¤›na inand›¤›m›z bu ekte sadece OCR iflleminin temellerini de¤il; ayn› zamanda ABBYY firmas›n›n genifl özelliklere sahip ve optik karakter alg›lamada
%99,8 gibi yüksek baflar›lara imza atan OCR çözümü FineReader 5.0 ve form okuma çözümü olan Form Reader ürünleri hakk›nda bilgiler de bulacaks›n›z.
FineReader 5 Office
Deneme Sürümü CD’mizde!
➔
4
OCR ‹fiLEM‹N‹N MANTI⁄I
Dilerseniz merak edenler için ilk olarak OCR teknolojisinin
iflleyifl mant›¤›n› aç›klayarak bafllayal›m. OCR, yaz›l› dokümanlar›n görüntülerinin bir taray›c› sayesinde al›n›p içerdi¤i
metnin bilgisayar›n anlad›¤› dile çevrilebilmesini sa¤layan bir
teknolojidir.
Bu sayede metni elle yazmaya gerek kalmadan bilgisayar üzerinde yeniden düzenlenebilir ve birçok programla
paylafl›ml› olarak kullan›labilir hale getirebilirsiniz..
Bu sayfalarda taranm›fl bir gazete kupürü göreceksiniz.
Üzerindeki yaz›lar son derece rahat okunabiliyor olmakla be-
raber asl›nda bu görüntü bir resimden
ibaret ve bilgisayar›n›z için bu resmin sizin vesikal›k resminizden hiç bir fark›
yok. ‹flte bu aflamada o karakterleri anlamland›rmak için OCR yaz›l›m› devreye
girer. OCR yaz›l›mlar›n›n karakter tan›mlamas› için temel olarak kulland›klar› üç yöntem mevcut:
➦ Matrix Matching (Matris Eflleme): Bu yöntemde OCR yaz›l›m›, karfl›laflmas› muhtemel tüm karakterlerin görüntüsünü içeri¤inde tutar. Daha sonra
taranm›fl dokümandaki karakterleri bir
bir bu kütüphanedeki flekillerle eflleyerek hangisine uygun oldu¤unu bulmaya çal›fl›r. Ucuz ve h›zl› çal›flan bir yöntemdir, ancak okunacak fontun flekli biraz
olsun de¤iflti¤inde hassasiyeti kaybolur.
➦ Feature Analysis (‹çerik Analizi): Bu yöntemdeyse yaz›l›m karakterlerin görüntüsünü de¤il, tan›mlar›n› akl›nda tutar. Yani karakteri tan›mak için bir çok özelli¤ine bakar: Kaç tane düz çizgi var, bunlar›n kaç› dikey kaç› yatay,
yuvarlak köflelerin konumlar› neler, karakterde delikler var
m› vesaire gibi. Tan›mlama kriterleri böyle her karakter için
al›fl›ld›k olunca, genel kural›na uygun yaz›lm›fl hemen her
karakterin tan›nmas› mümkün hale gelir. Bu durumda karakterin flekli genel karakter kurallar›na uydu¤u sürece karakter tan›mlama için fontlar›n önemi yoktur.
➦ Self-Assertion (Özgün Tan›mlama): Bu da yukar›daki iki yöntemin birleflmesidir. Önce doküman içerik analizi yöntemiyle taranarak genel bir tablo oluflturulur ve bu
sayede kesinli¤i yüksek karakterler bir kenara ayr›larak
bunlardan bir matris oluflturulur. Daha sonra bu kez emin
olmayan karakterler, bu yeni elde edilen matristeki karakter
Bir gazete
kupüründen
taranm›fl
haber. Ancak
bilgisayar›n›z›n bunu sizin
yapt›¤›n›z gibi
gördü¤ü anda
okumas›n›
beklemeyin.
5
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
tablolar›yla karfl›laflt›r›larak "benzetilmeye" çal›fl›l›r. Yani sistem önce içerik analiziyle kesinlikle A oldu¤una emin oldu¤u
bir A yakalayarak bunun foto¤raf›n› çeker. Daha sonra da bu
A harfinin görüntüsünü A oldu¤undan emin olamad›¤›, fakat
A’ya benzedi¤ini düflündü¤ü karakterlerle karfl›laflt›r›p ortak
noktalar›na bakarak gerçekten A olup olmad›¤›na karar verir.
Bu karar verme aflamalar› tamamen yaz›l›m taraf›ndan
iflletilen bir süreçtir ve ço¤u zaman en uygun yöntemin hangisi oldu¤una yaz›l›m karar vererek uygular. Dolay›s›yla bu
aflamada sizin yapabilece¤iniz pek bir fley yok, karakterleri
baflar›l› bir flekilde tan›ma yüzdesi sadece OCR yaz›l›m›n›n
kulland›¤› yöntemlerin baflar›s›na kal›yor.
Ancak siz de OCR ifllemi öncesinde yapaca¤›n›z baz› haz›rl›klarla bu ifllemin do¤rulu¤unun artmas›na katk›da bulunabilirsiniz. Bunun için yapabilece¤iniz iki fley var: Birincisi
taray›c›n›z›n ayarlar› sayesinde harfleri mümkün olan en net
ve en kolay alg›lanabilir flekilde tarayarak programa iletmek,
ikincisi de OCR yaz›l›m›n›n fonksiyonlar› üzerinde esasl› bir
hakimiyet kurmak.
➔
6
TARAYICIDAN UYGUN
GÖRÜNTÜ ALINMASI
Dilerseniz önce iflin en temelinden bafllayarak, yaz›l›ma aktar›lacak görüntünün elde edilmesi ile bafllayal›m. OCR teknolojisi, baflta vurgulad›¤›m›z üzere taray›c› taraf›ndan metnin say›sal ortama aktar›lan foto¤raf› üzerindeki harflerin ve
sembollerin önceden belirlenmifl bir tak›m karakter bilgileriyle efllefltirilmesi temeline dayan›yor. Yani elde edilen görüntüdeki örne¤in bir B harfinin, yaz›l›m taraf›ndan mevcut
karakter haritalar›yla ya da tan›mlar›yla efllenerek B olup olmad›¤›na karar verilmesi laz›m. ‹flte burada OCR yaz›l›m›n›n
eflleme ve do¤ru karar verebilme yetene¤i kadar bizim de
ona "ne kadar B’ye benzeyen
bir B" vermifl oldu¤umuzun da
büyük önemi var.
Normalde bir metni taramak için üç yol kullanabilirsiniz:
Renkli, gri tonlama (grayscale)
ve sadece siyah-beyaz (lineart).
Grayscale taramada 256 gri tonundan oluflan bir siyah beyaz
görüntü elde ederken, lineart
taramada ara tonlar olmaks›z›n
sadece siyah ve beyaz renklerden oluflan bir sonuca ulafl›rs›n›z.
Karmafl›k resimlerle dolu bir doküman› oldu¤u gibi aktarmak ve resimleri de kaybetmemek için renkli tarama
yapmaktan baflka seçene¤iniz yok. Fakat OCR iflleminde
amac›n›z sadece yaz›lar› tan›mlamaksa ve sayfa düzenindeki resimlerle u¤raflmay› planlam›yorsan›z, lineart ve grayscale aras›ndan bir seçim yapmak sizi daha do¤ru sonuçlara
götürecektir. Peki bu ikisinden hangisi OCR için daha uygun? Bu sorunun cevab›n› vermek için her iki tarama yönteminin ayr›nt›l› tan›mlar›na bir göz atmakta fayda var.
➦ LINEART: Öncelikle lineart moduna bir göz atal›m.
Lineart, pikselleri sadece siyah ve beyaz olarak tan›mlayabilen bir format oldu¤u için görüntü üzerinde oynayabilece¤iniz sadece bir tek parametreye sahip. Bu yegane parametre threshold, yani alg›lama efli¤i ad›n› tafl›yor. Alg›lama
efli¤ini, taray›c›n›n taramakta oldu¤u metin üzerinde bir pikselle karfl›laflt›¤›nda bunun siyah m›, yoksa beyaz m› olaca¤›na dair verdi¤i karar› etkileyen bir de¤er olarak düflünebilirsiniz. Kolay anlayabilmek için bunu bir metni okumak için
üzerine tuttu¤unuz ›fl›¤›n fliddeti gibi de düflünebilirsiniz.
E¤er hiç ›fl›k kullanmaz veya çok az ›fl›k kullan›rsan›z, metni
Threshold
ayar›.
Dik ç›kan
bölümler
beyazdan
siyaha yo¤un
geçifl
noktalar›n›
belirtiyor.
7
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
Threshold
de¤eri
yüksek bir
tarama ifllemi
sonucu
karakterler
birbiri içine
geçmifl ve
ortal›kta
bolca fazla
piksel var.
Burada da
threshold
de¤eri biraz
fazla düflük
oldu¤undan
kimi
karakterlerin
s›n›rlar›
incelmifl
ya da
kaybolmufl.
‹flte OCR
ifllemi için
ideal bir
threshold
ayar›.
8
karanl›ktan ay›rmakta zorlan›rs›n›z
ve bütün metin siyaha döner. Aksini yap›p çok fazla ›fl›k tutarsan›z,
bu durumda da ka¤›t ›fl›ktan dolay›
bembeyaz olur, bu kez hiçbir fley
göremezsiniz. ‹flte, 0-255 Aras›nda de¤iflen ve orijinali 128
olan threshold de¤erinin 0’a yaklaflmas› okunan piksellerin
renginin siyah ya da beyaz olufluna dair verilen karar›n beyaza do¤ru, 255’e yaklaflmas› ise siyaha do¤ru kaymas›na
neden olur. Bu nedenle threshold de¤erini 255’e yaklaflt›rd›kça tamamen siyah, 0’a yaklaflt›rd›kça tamamen beyaz bir
sayfan›n önünüzde belirdi¤ini görürsünüz. Threshold ayar›na
baz› taray›c› yaz›l›mlar›nda günefl
ya da ayd›nl›k-parlakl›k simgesi
olarak rastlayabilirsiniz.
OCR yaz›l›m› da karakterleri
adam gibi tan›yabilmek için karakter s›n›rlar›n›n iyi ve temiz
belirlenmifl olmas›n› ister ki, gördü¤ü harfi referanslar›yla
karfl›laflt›rd›¤›nda do¤ru sonuca ulaflabilsin. Haliyle ortada
karakteri tan›mas›n› zorlaflt›racak kadar yabanc› piksel varsa, karakterler birbiri içine geçmiflse ya da karakterlerin s›n›rlar›n› oluflturan pikseller efllefltirmeyi zorlaflt›racak denli
kaybolmuflsa, OCR yaz›l›m› bunlar› bir fleye benzetemeyecek
ve baflar› oran› düflecektir. Dolay›s›yla bu threshold de¤eri
öyle bir ayarlanmal› ki, ne çok koyu olup karakterlerin iyice
birbirine geçmesine sebep olsun,
ne de çok aç›k olup karakterlerin
s›n›rlar›n›n kaybolmas›na yol açs›n.
‹flte OCR iflleminin baflar›s› aç›s›ndan bu dengeyi sa¤lamak son derece önemli. Bununla birlikte OCR’a uygun threshold dengesini kurmak asl›nda çok zor bir ifl de¤il ve bir kez al›flt›ktan
sonra ço¤u zaman ikinci bir kez denemeye bile gerek kalma-
dan bu dengeyi kuracak deneyimi kazanmak mümkün.
Bu bilgiler ›fl›¤›nda lineart’›n avantajlar›n› flöyle s›ralamak mümkün: Birincisi, lineart taramada elde edilen her bir
piksel sadece 1 bitlik (siyah veya beyaz) renk bilgisi içerdi¤inden, dosya boyutu 8 bitlik renk verisi tafl›yan grayscale
moduna göre 8 kat daha az ve tarama ifllemi için gereken
süre de grayscale taraman›n dörtte biri civar›nda. Lineart
tarama iflleminin di¤er yöntemlere oranla h›zl› ve oluflan
dosyalar›n boyutunun küçük olmas›, özellikle dokümanlar›
toplu olarak tararken zaman ve disk alan› kazand›r›yor. Ancak bu flekilde taranm›fl görüntülere keskinlefltirme ya da
otomatik ayd›nl›k seviyesi belirleme gibi grayscale taraman›n getirdi¤i baz› avantajlar uygulanam›yor. Ayr›ca güzel bir
threshold dengesi tutturmak da grayscale ile karfl›laflt›r›l›nca daha zahmetli.
➦ GRAYSCALE: Grayscale modunda her piksel için
256 gri tonu (8 bit) tan›mlamas› yap›labiliyor ve haliyle sahip oldu¤u parametrelerle özellefltirme imkanlar› daha fazla. Bu formattaki bir görüntüye sadece parlakl›k ayar› de¤il,
keskinlefltirme gibi OCR ifllemini kolaylaflt›ran efektler de
eklenebiliyor. Parlakl›k de¤erinin OCR ifllemi için ne çeflit bir
öneme sahip oldu¤undan lineart k›sm›nda bahsettim, burada da bu konuda de¤iflen bir fley yok ve iyi bir sonuç için
parlakl›k de¤erinin iyi ayarlanm›fl olmas› gerekli.
Bununla birlikte hem taray›c›lara ait sürücüler ve kontrol arabirimlerinin, hem de FineReader’in grayscale resimlerin parlakl›k ayar›n› en uygun biçimde ayarlayabilme fonksiyonuyla beraber geliyor oluflu iflleri önemli ölçüde kolaylaflt›r›yor.
Grayscale bir çok doküman için OCR amaçl›
tavsiye edilen en uygun
tarama flekli, ancak bir-
Grayscale
alt›nda
karakterler
gayet düzgün
görünüyor.
FineReader
da böyle
düflünüyor
olmal›.
9
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
10
KAÇ DPI TARAYALIM?
Amaç taranan dokümandaki karakterlerin maksimum okunabilirli¤ini sa¤lamak oldu¤unda, elde edilen görüntünün
kalitesi ve parlakl›¤› kadar boyutu da önem kazan›yor. Bu
nedenle biraz da dpi (dots per inch-inç bafl›na düflen nokta
say›s›) fleklinde tabir edilen çözünürlük olay›ndan bahsetmekte fayda var.
OCR ifllemi için kabul edilen standart tarama çözünürlü¤ü genel olarak 300 dpi ve en iyi baflar› bu çözünürlükle
sa¤lanabiliyor. Ancak karakter boyu 9 puntonun alt›na inerse, okuma iflleminin sa¤l›kl› yürümesi aç›s›ndan 400 ve 600
dpi tarama yapman›z gerekebiliyor. Çünkü çözünürlük artt›kça görüntünün boyutu da büyüyor ve böylece ufak karakterler yaz›l›m›n gözüne daha büyük görünerek do¤abilecek
kar›fl›kl›klar›n biraz olsun önüne geçilmifl oluyor.
Ancak bu yüksek tarama çözünürlükleri, normal boydaki karakterler için önerilen rakamlar de¤il. Neden peki, mant›k olarak daha yüksek çözünürlük daha fazla detay demek
de¤il midir? Asl›nda öyle, ancak bu durumu normal boyuttaki karakterlere uygulamaya yeltendi¤inizde yüksek çözünürlüklü karakterlerin ayn› zamanda boylar› da gere¤inden fazla büyümüfl oldu¤undan karakter efllemede problemler ç›kabiliyor.
Di¤er bir deyiflle, grafik üzerinde bekledi¤inden daha
büyük bir karakter boyuyla karfl›laflan yaz›l›m, bu kocaman
cisimleri harfe benzetmekte biraz daha zorlan›yor ve do¤ruluk pay› düflüyor.
Art›k OCR iflleminin temellerini ve yaz›l›m›n becerisini
artt›rmak için kendi çaban›zla neler yapabilece¤inizi, nelere
dikkat etmeniz gerekti¤ini biliyorsunuz. Yaz›n›n bundan sonraki k›sm›nda yaz›l›ma özel faktörler üzerinde de nas›l hakimiyet kurulaca¤›n› anlayabilmek ve OCR yaz›l›mlar›n›n geldikleri noktay› daha iyi görebilmek için ABBYY firmas›n›n Fi-
➔
Resimde 300
dpi (üstte)
ve 600 dpi
(altta)
taraman›n
fark›n›
görüyorsunuz.
kaç ufak kusuru da yok de¤il. Birincisi, grayscale modunda
resim tarand›¤›nda arka plan hafif gri bir renge bürünüyor
ve bu da lineart’›n keskin siyah-beyaz ayr›mlar›yla karfl›laflt›r›ld›¤›nda karakter tan›mlama yetene¤ine az da olsa etki
edebilecek bir faktör. ‹kincisi, taranan görüntünün dosya
boyu lineart efliyle karfl›laflt›r›ld›¤›nda 8 kat daha fazla,
üçüncüsü bu flekilde bir görüntüyü taramak lineart’a göre
daha uzun süre al›yor.
Gelelim gerçekte hangisinin OCR için ideal oldu¤u sorusunun cevab›na. Asl›nda seçim yapt›¤›n›z iflin ihtiyaçlar›na
göre de¤ifliyor.
FineReader ›srarla OCR için grayscale isterim derken,
taray›c› yaz›l›mlar›n›n neredeyse tamam› yard›m dosyalar›nda ideal OCR taramas› için lineart modunu adres gösteriyorlar. Haliyle ortada bir karmafla var ve bu karmaflay› aflman›n en iyi yolu deneyerek k›yaslamak.
Ben de bu amaçla tamamen ayn› doküman›n ayn› bölgesindeki metinleri her iki yolla da tarayarak birbiriyle k›yaslad›m. Denemelerimde threshold de¤eri iyi dengelenmifl bir
lineart görüntüyle, ayn› görüntünün parlakl›k ayarlar› program›n inisiyatifine b›rak›lm›fl grayscale halini FineReader ile
OCR iflleminden geçirdi¤imde her ikisinde de benzer baflar›lar yakalad›¤›m›, ancak her ikisinde de alg›lama hatas› yaflanan yerlerin farkl› bölgelerde oldu¤unu gözlemledim.
Demek ki ikisinin de OCR aç›s›ndan iyi ve kötü yönleri
var. Bu durumda yer ve zaman k›tl›¤› çekiyorsan›z lineart,
böyle sorunlar›n›z yoksa ve imaj seçeneklerini otomati¤e
ba¤lay›p yine de tatminkar sonuçlar almak peflindeyseniz
grayscale düflünebilirsiniz. Bir
fley düflünecek halde de¤ilim
derseniz o zaman tercihinizi
nispeten daha zahmetsiz olan
grayscale yönünde kullan›n.
11
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
neReader 5 Pro ve Form Reader ürünleri üzerine bir incelemeyle devam edece¤iz.
➔
FINEREADER 5.0 - B‹R OCR USTASI
fiimdi, bu program üzerinde gerçeklefltirece¤imiz incelemeler s›ras›nda bir OCR yaz›l›m›n›n karakter tan›ma yan›nda
neler yapabilece¤ini de bir bir anlataca¤›z. Bir arada oldukça fl›k bir biçimde paketlenmifl yaz›l›m, bir disket ve bir
CD’den olufluyor. Direkt CD’den yükleme yapmak isterseniz,
yaz›l›m bu flekilde yüklendi¤inde sadece deneme sürümü
olarak kullan›labilece¤i konusunda sizi uyar›yor. Program›
tam sürüm yüklemek için CD’yi tak›p, sonra disketi yerlefltirerek disketteki Setup dosyas›n› çal›flt›rman›z› istiyor. Bunu
takip eden kurulum ifllemi s›ras›ndaysa normal bir kurulum
seyri gerçeklefltiriyor ve diledi¤iniz dil paketlerini yahut baz›
özellikleri dilerseniz bu aflamada ekleyip ç›karabiliyorsunuz.
FineReader 5.0 tarama ve tan›ma ifllerini toplam dört
aflamada gerçeklefltiriyor: Scan (tarama), Read (okuma),
Check (kontrol) ve Save (kaydetme). Program ilk çal›flt›r›ld›¤›nda sizi iki seçenekli bir menüyle karfl›l›yor: Scan&Read
Wizard ve Document Tutorial. Scan&Read Wizard baflta sayd›¤›m›z dört aflamay› s›ras›yla sizi yönlendirerek tamamlama
ve bu sayede iflinizi mümkün oldu¤unca k›sa sürede bitirme
amac›nda olan bir özellik. Document Tutorial ise Help dos-
FINEREADER 5 OFFICE S‹STEM GEREKS‹N‹MLER‹
‹flletim Sistemi: Windows 95/98/ME Windows NT 4(En az SP3)/2000.
Windows XP için www.kets.com adresimizi ziyaret ediniz.
‹fllemci: Pentium 133 ve üstü
Bellek: En az 32MB, eklenen her ifllemci gücü için 16MB ekstra.
Sabit Disk Alan›: 40MB minimum kurulum için, 50MB bofl alan program›n
çal›flabilmesi için.
Di¤er Donan›mlar: TWAIN uyumlu taray›c›, fare, CDROM, disket sürücü,
VGA Monitor (en az 800x600 çözünürlük destekli)
12
yas› üzerinde de¤iflik doküman gruplar›
için yap›lmas› gereken ayarlardan bahsedilen bir bölüme gitmenizi sa¤l›yor.
Gelelim bir doküman›n OCR yaz›l›m›
taraf›ndan tabi tutuldu¤u bu dört aflamada nelerin gerçekleflti¤ine...
1
GÖRÜNTÜNÜN YAZILIMA
AKTARILMASI (SCAN)
‹lk aç›ld›¤›nda FineReader arabirimi oldukça bofl ve anlams›z görünüyor, ancak
bu durum sadece programa OCR iflleminden geçirmek üzere bir doküman
yükleyene kadar geçerli. FineReader’e OCR ifllemine tabi tutulacak doküman görüntüsünü iki flekilde verebilmek mümkün: Taray›c›dan o anda taratmak, ya da daha önce taranm›fl bir görüntüyü dosyadan yüklemek.
fiimdi, e¤er Scan Image diyerek taray›c›dan görüntü almay› hedefliyorsan›z önünüzde yine iki seçenek var: Kendi
taray›c›n›z›n TWAIN arabirimini kullanmak ya da FineReader
ile gelen arabirimi kullanmak.
Bu ayr›m› resimde Scan butonunun yan›ndaki oka bast›¤›n›zda altta aç›lan ufak menüden Options bölümüne girerek yapabiliyorsunuz. Burada sizi genel opsiyonlar›n taray›c› seçimiyle ilgili bölümleri karfl›l›yor ve en üstte Use FineReader Interface ile Use TWAIN-Source Interface olarak iki
seçenek buluyorsunuz..
Bu ikisinin fark› flu: Twain-Source Interface dedi¤i fley
asl›nda taray›c›n›z›n sürücülerini yükledikten sonra bir resim
taramak istedi¤inizde karfl›n›za ç›kan kendine özgü arabirimin ta kendisi.
Bu arabirim hemen her taray›c› modeline göre de¤iflen
görünüm ve özelliklere sahip, ayr›ca taray›c›n›n özelliklerine
Elimdeki
taray›c›n›n
sürücüleriyle
gelen TWAIN
arabirimi
karfl›laflt›rmal› efekt
uygulamas›n›
bile
destekliyor.
13
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
Bu da
FineReader
taray›c›
arabirimi.
ve yeteneklerine uygun bir tak›m ayarlara eriflmenize de olanak sa¤l›yor. Bu
ayarlar aras›nda tarama iflleminin kalitesinin belirlenebilmesinden hassas parlakl›k ayarlar›na, hatta görüntü keskinlefltirme gibi özel fonksiyonlara kadar bir
çok fley bulmak mümkün. Yine taray›c›ya özel arabirimler taranacak görüntünün bir ön görüntüsünü kullan›c›ya göstererek bütün bir
sayfa yerine sadece belli bir alan›n taranabilmesine de olanak sa¤l›yorlar. Böylece görüntü üzerinde genifl özellefltirme
seçenekleri kullanabiliyor ve FineReader’e göndermeden önce nas›l bir fley olaca¤›n› görüp gerekirse üzerinde düzeltmeler yapabiliyorsunuz.
FineReader arabirimine gelince... Bu arabirim biraz daha kolay gibi görünmekle beraber fazla bir özellefltirmeye
olanak sa¤lam›yor. Asl›nda en büyük handikap› da taranacak
görüntünün ön izlemeye tabi tutulamamas›. Bunu kulland›¤›n›z anda doküman taray›c›dan "gel sen buraya" denip kula¤›ndan tutularak pald›r küldür taran›yor.
Yine de FineReader arabiriminin iki güzel taraf› var: Birincisi, bu arabirimi kullanarak grayscale modunda tarama
yaparsan›z parlakl›k ayar›n› FineReader kendi ihtiyaçlar›na
uygun biçimde otomatik olarak ayarl›yor. Bunu sa¤lamak
için Brightness ayar›n› FineReader konumunda b›rakman›z
yeterli. ‹kincisi de bu arabirimin yüksek miktarda doküman
taramak için özelleflmifl fonksiyonlar› var. ADF (Automatic
Document Feeder-Otomatik Doküman Besleyici) özelli¤i
olan bir taray›c› kullan›yorsan›z, t›pk› yaz›c›dan sayfalar› art
arda bast›¤›n›z gibi sayfalar› taray›c›dan ard› ard›na taratabiliyorsunuz.
K›saca FineReader arabirimi bu ifller için özelleflmifl arabirimi olmayan taray›c› cihazlar için düflünülmüfl.
Daha önceden taranm›fl bir görüntüyü yaz›l›ma aktarmak için kullanaca¤›n›z Open Image seçene¤inin ise özel veya anlafl›lmayacak bir yönü yok. Bildi¤iniz gibi taray›c›dan
ç›kan resimleri hemen her tarz görüntü format›na çevirip
saklamak mümkün.
Bu flekilde taray›c›dan görüntüyü al›p sonradan OCR ifllemine koyacaksan›z, ya da "a¤ üzerinde bir baflkas› görüntüyü taras›n benim bilgisayar›mda bunu iflleyelim" gibi planlar›n›z varsa bu özelli¤i kullanabilirsiniz.
2
OKUMA (READ)
Yaz›y› tarad›n›z, FineReader’e aktard›n›z. Bu bölümde verece¤imiz bilgiler özellikle sayfa formunun oldu¤u gibi korunmas› aç›s›ndan gayet önemli. Biz de bu bölümü genel olarak
iki k›s›mda inceleyece¤iz: Sayfa formlar›n›n sa¤l›kl› bir flekilde aktar›lmas› için uygulanmas› gereken püf
noktalar› ve iflin as›l ilginç k›sm› olan ö¤renPÜF NOKTASI
me bölümü.
➔
SAYFA DÜZEN‹N‹N BEL‹RLENMES‹
Sayfay› okutup buraya geldi¤inizde yaz›l›m›n
ayarlar›yla oynamad›ysan›z ekran›n dörde
ayr›lm›fl oldu¤unu göreceksiniz: Yüklenmifl
sayfalar›n ufak resimlerinin oldu¤u bölüm
(en sol), taranm›fl sayfan›n görüntüsünün
yer ald›¤› sol üst pencere, okutma ifllemini
yapt›¤›m›zda okuma sonucunun yer alaca¤›
sa¤ üst pencere ve altta da yaz› içindeki
harflerin piksel ayr›nt›lar›n› gösteren büyüteç penceresi.
Bu pencere sayesinde tan›ma ifllemi için
iyi bir görüntü yakalay›p yakalamad›¤›n›z›
bir kez daha gözleyebilirsiniz.
READ bölümü daha çok sayfa
düzeniyle u¤rafl›yor olmas›na
ra¤men, bu noktada OCR ifllemine tabi tutulacak görüntü
üzerinde son bir iyilefltirme
yapma flans›n›z var. O da Image
menüsünden
"Despeckle
Image" fonksiyonunu çal›flt›rmak. Bu fonksiyonun yapt›¤› ifl
kabaca fazladan oldu¤u düflünülen pikselleri ortamdan yok
etmek. Bu fonksiyon özellikle
arka plan› gri olarak belirlenmifl
tablo hücrelerinin ya da koyu
renkli arka plana sahip dokümanlar›n gri alanlar›n›n karakterlerle kar›flarak yanl›fl okumalara engel olmas›nda çok ifle
yar›yor.
14
15
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
‹flte
FineReader
alt›nda
sayfam›z›
yükledik ve
okutmak için
haz›r›z.
‹flte elle
yap›lm›fl iyi
bir sayfa
analizi.
Bu ifl için
yuvarla¤a
al›nm›fl araç
çubu¤u
kullan›l›yor.
16
Karakterlerle bir sorununuz
yoksa, s›ra de¤iflik sayfa düzenlerinin tan›t›lmas› için gereken
ayarlar›n yap›lmas›na gelmifl demektir. Ortal›kta bildi¤iniz gibi
yal›n dokümanlardan kompleks
magazin sayfalar›na, karmafl›k
tablolara kadar bir çok bas›l›
sayfa flekli bulunuyor.
FineReader ile gelen sayfa
analizcisi basit dokümanlar›n
formlar›n› tan›mlamakta pek zorlanmazken, karmafl›k dokümanlarda dikkat edilmesi gereken bir tak›m noktalar beliriyor.
Ama bunlara girmeden öncelikle sayfa düzeninin oturtulmas›ndan bahsedelim. Sayfa üzerindeki nesneler üçe ayr›l›yor: Yaz›, resim ve tablo. FineReader analizcisi bunlar› gerekti¤i gibi ay›ramam›flsa ufak birkaç hareketle bu durumu
halletmek mümkün.
Bak›n›z, bu amaçla bizim derginin Eylül 2000 say›s›ndan
ald›¤›m bir sayfan›n taranm›fl görüntüsünü FineReader alt›nda di¤er pencereleri kapatarak iyice belirgin hale getirdim.
Sayfa düzenleme araçlar›n› da yuvarlak içine ald›m. Burada
yeflil dörtgenler yaz› alanlar›n›,
k›rm›z›lar resim alanlar›n› ve
mavi olan dörtgen de tablo alan›n› temsil ediyor.
Tablo derken flu Excel ve
Word alt›nda sayfa düzeni içinde kulland›¤›n›z bilindik tablolardan bahsediyorum. Ha o mavinin içi bofl derseniz do¤rudur,
sadece rengini göresiniz diye
kafadan çizdim.
Sayfa düzeninin nas›l
yerleflti¤ine dikkat edin. Asl›nda FineReader sayfa analizcisi bana bu konuda bafltan
bir hayli yard›mc› oldu ama
sonradan baz› yerlere el atmak zorunda kald›m. Sayfa
düzenine bakarsan›z bu sayfa
üç sütun yaz›dan olufluyor.
‹flte bu üç sütunu birbirinden
ay›rmak için ayr› ayr› iflaretlemek gerekiyor.
Zira tüm sütunlar› tek bir yaz› alan› olarak tan›mlarsan›z, bu kez bütün formasyonu koruyarak doküman› Word’e
aktarmak istedi¤inizde düzenleme olay› boflluk ve tablarla
yapmaya çal›fl›l›yor ve haliyle doküman›n fele¤i flafl›yor. Eflatun renkli elipsin içindeki simgeler de bu kutular› oluflturdu¤unuz araçlardan baflka bir fley de¤il. Simgelerin üzerine
fareyi getirip biraz tutarsan›z ne ifle yarad›klar› hemen tepesinde beliriveriyor. Farz› misal simge üzerinde tutunca Draw
Text Block mu yazd›? Demek ki bununla metinleri iflaretliyorsunuz.
Bazen de FineReader baz› bölümlerde ay›r›m yapamay›p
yaz›lar› resim gibi iflaretleyebiliyor. Bu durumda da Delete
Block ile yanl›fl iflaretli kutuyu silerek do¤ru biçimde tan›mlaman›z mümkün. Ancak ilginçtir, FineReader kulland›kça bu
metinleri ne flekilde iflaretledi¤inizi ufaktan ö¤renmeye bafllad›¤› gibi bir his olufltu bende.
Bu araç çubu¤unun alt›nda yer alan k›s›mlar ise tablolar›n çubuklar›n› yerlefltirmekle ilgili. Elinizdeki doküman bir
tablo içeriyorsa ve FineReader buna ait baz› sat›rlar› ›srarla
tablo sat›r› olarak tan›mlamak istemiyorsa, tablo s›n›rlar›n›
siz koyabiliyorsunuz.
Bu da az
önce
iflaretledi¤imiz
doküman›n
Word’e
aktar›lm›fl
hali.
Neredeyse
hiç fark yok.
17
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
➔
FARKLI YAZI ST‹LLER‹N‹ TANITMAK
ö¤renen program
Bir gazete ya da dergide kullan›lan fontlar belli, Times
New Roman ya da Arial gibi Bunlar son derece düzgün sonuç veren ve kolay okunan fontlardan seçiliyor. Peki ya Monotype Corsiva gibi artistik bir fontla ve de¤iflik bir stille yaz›lm›fl dokümanlar› ne yapacaks›n›z? Tabii ki ö¤reteceksiniz.
Program›n en ilginç fonksiyonlar›ndan biri olan bu özellik,
ayn› zamanda çok düzgün bir el yaz›s›na sahipseniz el yaz›-
OKUMA ÜZER‹NE ‹NCE AYARLAR
FineReader oldukça ak›ll› bir yaz›l›m ve okuma s›ras›nda
bir tak›m eksik yönlerle karfl›lafl›rsa, sadece hatal› okuma
ya da kuru hata mesajlar› sunmuyor. Tak›ld›¤› yeri size
söyleyerek yön gösteriyor. Mesela OCR dili olarak Türkçe seçip ‹ngilizce bir doküman m› okutmaya u¤rafl›yorsunuz? Hemen yaz›yor "Check the recognition language".
Ya da harfler ufak m› taranm›fl? "Check the character size" önünüze diziliyor. Ayd›nl›k ayar›nda sorun mu var, az
ya da çok mu kaçm›fl? "Check the document brightness"
uyar›s› karfl›n›zda bitiveriyor. Haliyle karfl›n›za böyle bir
uyar› ç›karsa sorunu gidermek için tavsiyelerine kulak verin. Doküman› 300 dpi yerine 600 dpi taray›n, taray›c› ayd›nl›k ayar›n› yap›n, dili düzeltin, k›saca ne gerekiyorsa
yap›n. Bu yönü hayli hofl, çok takdir ettim.
Bu kez de tarad›¤›n›z doküman formunu adam gibi alg›lamad›¤›ndan m› flikayetçi oldunuz? O zaman genelde
karfl›lafl›lan doküman gruplar› için afla¤›daki tavsiyeleri
uygulayabilirsiniz. Gerçi Tutorial k›sm›nda yaz›yor bunlar
ama bizler k›saca önemlilere de¤inelim istedik. Unutmadan, burada bahsedece¤imiz ayarlar› genelde Tools-Opti-
18
n›z› elektronik ortama aktarmak için de kullan›labilir.
Fakat bu ifllem çok zahmetli ve oldukça da uzun sürüyor. ‹flte bu nedenle harcayaca¤›n›z vaktin ancak flu üç durumda anlaml› olabilece¤i vurgulan›yor:
1- Bilgisayar kaynakl› ve tüm karakterlerin standart oldu¤u dekoratif fontlarla yaz›lm›fl yaz›lar›n okunmas›,
2- Özel matematik ya da mesleki semboller içeren dokümanlar,
ons-Recognition bölümünde ya da civar›nda bulunuyor.
➊
Tam Kolon Dokü-
man: Baz› dokümanlar›n
flekilleri Tab kullan›larak
ayarlan›r. Ancak FineReader bunlar› iki sütun olarak
alg›lamaya çal›fl›yor ve doküman›n flekli bozuluyor.
Çözüm: Doküman›
tek kolon olarak alg›lamas› için üzerinde bask› kurun. Recognition
‹flte FineReader ince ayarlar›n›n
menüsüne gidin ve
döndü¤ü yer buras›.
orada Document Type
yazan bafll›kta Single Column bölümünü iflaretleyin. Böylece Tab boflluklar›n›n kolon olarak alg›lanmas›n›n önüne geçeceksiniz.
19
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
3- Çok yüksek hacimli dokümanlar›n taranmas› gereken durumlar (100 sayfa ve daha fazla).
Bu ifllemi göze ald›ysan›z sistemi çal›flt›rmak için öncelikle bir tak›m ayarlar› aktif hale geçirmek
gerekiyor. Bunun için önce ToolsOptions-Recognition menüsüne giFineReader
alt›nda bu
de¤iflik
karakter
setiyle
yaz›lm›fl
metni
ö¤retmeden
okutursan›z
bolca
düzeltmeyle
karfl›laflabilirsiniz.
20
➋ Program Kodlar›: Özellikle bilgisayar programc›l›¤›yla ilgili sayfalarda ço¤u zaman bas›l› örnek kodlar görürsünüz. Hani sat›r sat›r kod ve aç›klamas›nda da genellikle "bunu yaz›n compile edin ekrana saat ç›kacak kufl
ç›kacak" gibi fleyler yazar. Güzel, ama o kadar fleyi flafl›rmadan yazmak zor. OCR bu ifl için kullan›lamaz m›?
Çözüm: FineReader ile sayfalara bas›l› kodlar›n bilgisayara aktar›lmas› mümkün, aç›kças›
düflünenlerin de ellerine sa¤l›k. Yapman›z gereken ilk fley, Recognition menüsünden yine Document Type alt›ndan Plain text formatted with
spaces seçene¤ini seçmek. Böylece doküman›n
boflluklar›n›n boflluk tuflu vurufluyla k›yaslanarak tam olarak hesaplanmas›n› ve tüm paragraflar›n alt alta olmas› gereklili¤ini ortadan kald›r›yorsunuz. Bu bir, daha bitmedi...
‹kincisi, yukar›daki Recognition Language
menüsünün afla¤› kayan bir menü oldu¤u dikkatinizi çekmifltir. Hatta bu menüye program›n ana
ekran›ndan da bir referans var. ‹flte onu çekin-
diyor ve en afla¤›dan Train User Pattern seçene¤ini iflaretli
hale getiriyorsunuz.
Daha sonra bu menüyü kapat›p normal Read ifllemini
bafllat›yorsunuz. Bu aflamada olay farkl› ifllemeye bafll›yor:
FineReader doküman› okurken anlamad›¤› bir karakterle
karfl›laflt›¤› anda karakteri alg›layabildi¤i kadar iflaretleyerek
sizden yard›m istiyor.
fiimdi burada uygulaman›z gereken iki fley var: Öncelikle karakterin s›n›rlar›n›n do¤ru belirlenip belirlenmedi¤ini
ce bir miktar ana dil ç›k›yor karfl›n›za. Bunlar›
seçmek yerine oradan Choose more language
diyorsunuz ve C/C++ dilini seçiyorsunuz. Ne
mutlu ki bu dili de tan›nan dillere eklemifller. Abhazca, ‹talyanca, Rusça, Türkçe, ‹ngilizce derken C/C++, Cobol gibi dilleri de görmek cidden
hofl. ‹flte flimdi kodlar› okutmaya haz›rs›n›z. Ha,
umar›m ilk kurulum s›ras›nda bu dilleri eklemeyi ihmal etmemiflsinizdir. Deneme sürümünde
bu dillerin baz›lar› olmayabilir.
➌
Birden Fazla Dilde Dokümanlar: Olur ya, bir
doküman geçer elinize üstte ‹ngilizce metin altta Türkçe
çevirisi. Nas›l olacak? Yani ‹ngilizce’deki Q, W ile Türkçe’deki ⁄, fi nas›l kaynaflacak?
Çözüm: Elbette ki birden fazla dili seçerek.
Yine Recognition menüsünde Recognition Language bölümünü afla¤› do¤ru çekin, bu kez Select multiple languages’i iflaretleyin. Karfl›n›za
birden fazla dile iflaret koyabilece¤iniz bir menü
21
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
kontrol ediyorsunuz. Mesela bir "b" harfinin yuvarlak karn›n›n biraz ayr›k oldu¤unu düflünün. FineReader bunu l ve o olarak alg›lamak üzere birbirinde ay›rd›ysa,
karakteri çevreleyen dörtgeni tutarak karakterin tamam›n› bu dörtgene alman›z
laz›m. Daha sonra afla¤›daki bölüme de
karakterin ad› olan "b"yi yaz›yorsunuz ve
böyle bir fleyle yeniden karfl›laflt›¤›nda
FineReader
yeni bir
karakteri
ö¤renirken
karakterin
tamam›n›n
yeflil
kutu içinde
olmas›na
mutlaka
özen
gösterin.
ç›kacak. OCR ifllemi için kullan›lmas›n› istedi¤iniz dilleri iflaretleyin ve onaylay›n. Yaln›z burada
her eklenen dil alg›lama baflar›s›n› düflürüyor ve
tavsiye edilen rakam en fazla üç.
olay›n bütününe bak›p b oldu¤unu alg›layabilmeyi ö¤retiyorsunuz. Ancak yaz›n›n do¤as› gere¤i baz› karakterler bu
çeflit bir s›n›rla ayr›lamayacak denli bir
araya gelmiflse bu durumda birkaç harfi bir arada iflaretleyerek bir heceyle
eflleyebilmeniz de mümkün.
Bütün bu ifllemler bittikten sonra
da son olarak Use user pattern seçene-
siyonu iflaretledi¤inizde FineReader bu doküman› iki sayfa halinde alg›layacak ve gerekeni de
bu yönde yapacakt›r.
Karakterler
birbirinden
ayr›lamayacak gibiyse,
harfleri
birlefltirerek
hece
olarak da
alg›latabilirsiniz.
➍ ‹kili Sayfa: Bir kitab› taratt›¤›n›z› varsay›n. Kitap
bu, aç›k durunca taray›c›dan adam gibi taranmaz, havalanan ördek gibi bir kanad› sa¤a, di¤eri sola do¤ru aç›lan›r. Normalde FineReader sayfa yerleflim aç›s›n› karakterlerin konum ve durufluna bakarak ayarlayabiliyor,
ama tek bir resim üzerinde farkl› aç›lanm›fl iki farkl› sayfa görürse bunlar› ne tarafa çevirecek? Sa¤a m› yoksa
sola m›?
Çözüm: En güzeli tahmin etti¤iniz gibi bunlar› ikiye ay›r›p ikisini de gerekti¤i aç›yla çevirmek. Ancak bunun ayar›n› bulmak için ToolsOptions k›sm›na girerek bu kez Scan/Open Image bölümüne yönelmeniz laz›m. Burada Split
dual pages diye bir opsiyon göreceksiniz. Bu op-
22
‹flte taranm›fl bir kitap sayfas›. FineReader bu siyam ikizlerini sizin yerinize
ay›rabiliyor.
23
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
Yeni karakter
tan›mlaman›z› farkl›
bir isimle
kaydettiyseniz, önce
bunu aktif
hale
getirmeniz
laz›m.
¤ini seçerek yeni tan›tt›¤›n›z karakter setinin doküman alg›lamas› için
kullan›lmas›n› sa¤l›yorsunuz. Özel
bir ayar yapmad›ysan›z bu yeni set
Default ad›yla kaydedilir. Ama siz
yeni karakter setinizi farkl› bir isimle
kaydettiyseniz, bu durumda Pattern
Editor alt›ndan bunu Set Active komutuyla aktif hale getirmeniz gerekiyor.
Peki ya arada bir hata yapt›ysan›z? Yani normalde bir karakter iki
nokta üst üste iken FineReader bunu
›srarla "i" olarak tan›yorsa?
Bu durumda olay› düzeltmek
için yine Pattern Editor alt›nda yaratt›¤›n›z karakter tan›m›n› seçerek
ilgili karakteri bulmak için Edit komutunu veriyorsunuz. Burada hangi sembollerin hangi karakterlerle efllendi¤ini gösteren bir liste karfl›n›za geliyor. Buradan dilerseniz karakter
ç›karabilir ya da daha önce tan›mlanm›fl bir karakterin eflini
de¤ifltirebilirsiniz.
3 KONTROL (CHECK SPELLING)
Yaz›y› taratt›n›z, okuttunuz, tan›tt›n›z ve flimdi de s›ra kontrol etmeye geldi. Okuma s›ras›nda FineReader’in baz› kelime ve harflere renkli iflaretler koydu¤u dikkatinizi çekmifltir.
‹flte bu iflaretler tam olarak emin olamad›¤› ya da bünyesindeki sözlükte karfl›l›¤›n› bulamad›¤› harf ve kelimeleri içeriyor.
FineReader çok güçlü bir OCR yaz›l›m›, ama hata yapabilece¤inin ve kafas›n› kar›flt›rabilecek durumlar›n olabilece¤inin de fark›nda. ‹flte bu nedenle yaz›l›m bir de Spell Chec-
24
ker, yani harf kontrolcüsü
içeriyor. Aralar›nda Türkçe
de bulunan bir çok dilde kelime kontrolü yapabilen yaz›l›m›n kulland›¤› mant›k flu: Bir
harften emin de¤ilse kelime
yanl›fl yaz›lacakt›r, emin olamad›¤› ya da yanl›fl yaz›lan
kelimeleri de bir flekilde kullan›c›ya dan›fl›rsa yapt›¤›m
ufak tefek hatalar da ortadan
kalkar. Bu zaten bir çok kelime ifllemci taraf›ndan kullan›lan bir özellik. Ancak sonucu
kelime ifllemciye göndermeden bir düzeltme yapmak istiyorsan›z ya da kelime ifllemciniz doküman›n yaz›l› oldu¤u dilde
kelime do¤rulu¤u kontrolü yapam›yorsa bu bölüm ayr› bir
de¤er kazan›yor.
Bu bölümü kullanmak da çok basit; tam bir kelime ifllemci gibi çal›fl›yor. Yanl›fl yaz›lm›fl oldu¤unu düflündü¤ünüz
bir kelimeyle karfl›laflt›¤›n›zda ya sözlü¤e ekliyor, ya do¤rusunu listeden seçiyor ya da do¤rusunu yaz›ya yaz›veriyorsunuz.
Ayr›ca Options bölümünde hata alg›lama veya duraklama seviyelerini belirlemek üzere birkaç tane ayar mevcut.
K›saca yaz›n›n üzerinden geçmek için güzel düflünülmüfl bir
eklenti. Kullan›m› da son derece kolay. %99.8 do¤rulukta
çal›flmas›na ra¤men yapt›¤› hatalar› da telafi etmekten geri
kalmayan bir yaz›l›m FineReader.
Karakterler
ve karfl›l›¤›
olarak
alg›lanan
resimlere
Pattern
Editor
alt›ndan
eriflerek
de¤ifliklik
yapabilirsiniz.
4
KAYIT (SAVE)
Yüzdük yüzdük kuyru¤una geldik. Tarad›k, tan›tt›k formatlar›n› ayarlad›k, icab›nda da ö¤rettik derken sonunda s›ra
geldi bunlar› anlaml› bir flekilde saklamaya. Bu aflama OCR
25
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
26
diyelim ki Word seçtiniz,
bilgisayar›n›zda
Word
yüklüyse hemen Word
aç›l›p okutulmufl sayfa
oraya yönlendiriliveriyor.
Ya da Web Browser seçiyorsunuz, yaz› taray›c›n›zda beliriyor. Clipboard
seçerseniz de herhangi
bir bofl belgeye CTRL+V
(Paste) ifllemi yapt›¤›n›zda hop FineReader’den gelen doküman aktar›l›veriyor.
Ama kendi denemelerimde özellikle Word ve Excel alt›-
FineReader 5.0’›n Pro d›fl›nda özellikle ofis ihtiyaçlar›na cevap vermek üzere gelifltirilmifl Office
adl› bir di¤er sürümü daha mevcut. E¤er doküman tan›ma ifllemleri iflinizin yo¤un bir k›sm›n›
oluflturuyorsa ve bu ifle derinlemesine dalma ihtiyac› hissediyorsan›z bu durumda ofis sürümünün avantajlar›n› gözden geçirebilirsiniz. ‹flte Office sürümünün getirdikleri:
2000 ve NT gibi platformlarda bu gücü kullanarak ORC iflleminin h›z›n› artt›rabiliyor.
Fazla miktardaki dokümanlar›n OCR iflleminden geçirilmesine daha uygun ve bu
yönde iyilefltirmeler içeriyor.
ODMA olarak k›salt›lan Open Document
Management Access, yani harici doküman
iflleme cihazlar›yla uyumlulu¤u belirten standarda tam destek veriyor.
1
2
A¤ ortam›na uyumlu, a¤ üzerinden OCR
ifllemi yapman›za izin veriyor.
3
Çoklu ifllemci deste¤i var. Bu sayede birden fazla ifllemcinin tak›l› oldu¤u Windows
Pro versiyonundan farkl› olarak barkod
okuyup tan›mlayabiliyor ve yeni diller yaratman›za izin veriyor. fiirketinizin kendine has
terimleri ya da sembolleri varsa bunun için uygun olabilir.
4
5
Bofl bir formu taray›c›n›zdan aktararak elektronik ortamda doldurup an›nda yaz›c›n›zdan doldurulmufl halini ç›karabilmenizi sa¤layan
Formulator adl› kullan›fll› bir fonksiyonu içeriyor.
6
Save Wizard
alt›nda
desteklenen
her dosya
türü, ayr›ca
kendine has
özellefltirmeler içeriyor.
5.0 office
FineReader
Spell Check
bölümü
bu basit
ekrandan
ibaret.
iflleminin son aya¤›n› oluflturuyor.
FineReader’›n kay›t için
seçene¤i ve opsiyonu bol, ama
ben direkt Save Wizard’› anlatmak istiyorum. Zira tek ekranda
ihtiyac›n›z olan tüm seçenekleri
size sunuyor. Save Wizard’a
bast›¤›n›zda Save to File, Word,
Excel, Send by e-mail, Copy to
Clipboard ve Web Browser gibi
seçenekler görüyorsunuz. Bu seçeneklerin tamam› ilgili yaz›l›ma tan›t›lm›fl sayfay› an›nda yönlendirmeye yar›yor. Yani
27
C M Y K
C M Y K
OCR • OCR • OCR • OCR • OCR • OCR
28
FORM B‹LG‹ G‹R‹fi‹ OTOMASYONU:
ABBYY FORM READER
‹fl dünyas›n›n ka¤›t üzerindeki dokümantasyonunun önemli
bir k›sm›n› da formlar oluflturuyor. Bugünün dijital ifl dünyas›nda ka¤›t dokümanlar›n kontrolü için ifl gücü ve maddi
harcamalar›n minimuma indirilmeye çal›fl›ld›¤› bir gerçek.
Bu durumda ICR teknolojisi sayesinde pekala form otomasyonu ile ihtiyaçlar için karmafl›k olmayan, kullan›c› dostu ve
k›sa sürede geri dönüflüm sa¤layan bir yap› sunmak mümkün. ‹flte ABBYY FormReader, bu iflte uzmanlaflm›fl ve ka¤›t
formlardan veritabanlar›na veri aktar›m otomasyonunu gerçeklefltiren bir ürün.
➔
Karmafl›k
yap›daki bir
sayfay› al›p
iki dakikada
taray›p
okutarak Web
sayfas› haline
getirmek bile
mümkün.
‹flte buyurun,
sonuç böyle.
na dosya aktar›rken bunun bir
tak›m sorunlara neden oldu¤unu
ve do¤ru çal›flmad›¤›n› gördüm.
Benim bilgisayar bunu bir becerip iki becerip sonras›nda OLE
ba¤lant›s› kuramad›¤› için a¤lamaya bafll›yor.
O nedenle bunun ifle yaramad›¤› durumlarda Save to File
seçene¤ini kullanman›z› öneriyorum. Bu seçenek an›nda bir
Word açarak doküman› yönlendirmek yerine, doküman› diledi¤iniz isimle DOC olarak kaydedip sonradan Word ile açman›za olanak sa¤l›yor. Kesinlikle daha sorunsuz bir yöntem. Tabii verdi¤im bu örnek PDF, XLS, HTML gibi her formata da uyarlanabiliyor.
Bu aflamada sayfa düzeniyle ilgili birkaç tane de seçene¤iniz var: Aktarma yapaca¤›n›z ortam sayfa düzeni aktar›m›n› destekliyorsa (Word, Acrobat Reader, HTML, Excel gibi dosyalar›) yaz›n›n hangi formatlar›n›n aktar›laca¤›n› burada seçebiliyorsunuz. Seçenekleriniz de yukar›dan afla¤›ya
do¤ru Retain Full Page Layout (sayfa düzenini oldu¤u gibi
koru), Retain Font and Font Size (sadece font flekil ve boylar›n› koru) ve Remove All Formatting (sayfa düzenini hiç ifle
kar›flt›rma) olarak s›ralan›yorlar. Ayr›ca Keep pictures bölümüne bir iflaret koyarak sayfadaki resimleri de oldu¤u gibi
aktarabiliyorsunuz.
Ve son olarak, Formats Settings butonlar›yla da her
dosya türünün kendi karakteri olan bir tak›m özellikleri iflin
içine kat›flt›rabiliyorsunuz. Word’e özel olan karakterlerin
renginin de korunmas›, PDF’e özel olan emin olunamayan
karakterlerin resim olarak aktar›lmas› ve HTML’e özel Code
page opsiyonu bunlara örnek.
ABBYY FormReader Nedir?
ABBYY FormReader, bas›l› formlardaki bilgilerin taranmas›, bilgilerin okunmas›, veritabanlar› ve di¤er sistemlere
aktar›lmas›n› sa¤layan ve FineReader’in ödüllü OCR teknolojisini kullanan bir yaz›l›m. Dolay›s›yla T›pk› FineReader gibi makine ve düzgün el yaz›lar›n› okuyabilme yetene¤ine sahip. Ancak uzmanlaflt›¤› alan, daha çok formlardan toplan›lan verilerin veritabanlar›na aktarmas› üzerine.
Form Reader ile veri toplama ifllemi üç ad›mda gerçeklefliyor:
➊ fiablon yarat›m›
➋ Birden fazla formun okunmas› için sistem tasar›m›
➌ Form iflleme
FORMREADER S‹STEM GEREKS‹N‹MLER‹
‹flletim Sistemi: Windows 95/98/ME Windows NT 4(En az SP3)/2000
‹fllemci: Pentium 133 ve üstü
Bellek: En az 16MB
Sabit Disk Alan›: 94MB minimum, tam kurulum için 150MB.
Di¤er Donan›mlar: TWAIN uyumlu taray›c›, fare, CDROM, VGA Monitor
(en az 800x600 çözünürlük destekli), USB veya LPT port.
29
C M Y K
C M Y K
OCR • OCR • OCR •
Form Reader
ile flablon
tan›tma
iflleminin
arabirimi
oldukça
anlafl›l›r ve
sade.
Karakter
do¤rulama
ekran›.
Grup
do¤rulama
ifllemi
(Verification).
30
a. Tarama
b. Tan›ma
c. Veri Do¤rulama
d. Veritabanlar›na veri Aktar›m› (MS
Excel vs...)
ABBYY Form Reader, bu ifllemleri otomatik olarak yapmak yoluyla kullan›c›lar›
en çok zaman alan ad›m olan elle veri giriflinden kurtar›yor.
Hangi Formlar ABBYY FormReader ile ‹fllenebilir?
FormReader ile baflvuru formlar›, anket formlar›, garanti kartlar›, çekler, faturalar ve bunlar gibi birçok form tipi ifllenebiliyor. FormReader ile günlük 100 ile
1000 aras›nda formun ifllenmesi mümkün. Daha fazla say›da form ifllemek için
sunucu bazl› çal›flan ABBYY Enterprise
Forms kullanmak daha uygun.
ABBYY Form Reader Formlar› Nas›l ‹fller?
ABBYY Form Reader ile formlar iki ad›mda iflleniyor: ‹lk
ad›mda ABBYY FormReader ekran›nda yeni bir y›¤›n yarat›l›yor, bu y›¤›nda tan›nacak form flablonlar›
seçiliyor, taray›c› özellikleri ve tan›ma
özellikleri ayarlan›yor.
Bir sonraki ad›mda, formlar tarama
iflleminden geçiriliyor, tan›ma ifllemi otomatik olarak gerçeklefliyor ve formlar
do¤rulamaya haz›r hale geliyor. Do¤rulama ekran›nda yanl›fl tan›nan karakterlerin
düzeltilmesi sa¤lan›yor ve son olarak "export" butonuna bas›larak bilgiler veritabanlar›na, doküman
yönetim sistemlerine ve ifl ak›fllar›na gönderiliyor.