OCR kitapçığını Pdf formatında görmek için tıklayınız.
Transkript
OCR kitapçığını Pdf formatında görmek için tıklayınız.
C M Y K C M Y K OCR OPTICAL CHARACTER RECOGNATION OPT‹K KARAKTER TANIMA • • • • OCR TEKNOLOJ‹S‹ ABBYY FINEREADER ICR TEKNOLOJ‹S‹ ABBYY FORMREADER Bu ek KETS’in katk›lar›yla haz›rlanm›flt›r. C M Y K C M Y K OCR • OCR • OCR • OCR TEKNOLOJ‹S‹: ir scanner, yani taray›c› cihaz› sat›n almak için hemen herkes ortak nedenlerle yola koyulur. Bu nedenler genellikle kiflisel foto¤raflar› say›sal ortama aktararak paylafl›lmas›n› ve saklanmas›n› kolaylaflt›rmak, Web siteleri için bas›l› dokümanlardan resim temin etmek gibi genel amaçlar›n gerçeklefltirilmesinden ibarettir. Bununla beraber di¤er bilgisayar çevre birimleriyle karfl›laflt›r›ld›¤›nda günlük hayatta nispeten az kullan›lan bu cihazlar, ayn› zamanda OCR (Optical Character Recognition=Optik Karakter Tan›ma) isimli bir teknolojinin donan›m aya¤›n› olufltururlar. Bir taray›c› ve bir de OCR yaz›l›m›na ihtiyaç duyan bu teknoloji, ka¤›da bas›lm›fl yaz›l› dokümanlar›n içeri¤ini bilgisayar›n›zdaki herhangi bir kelime ifllem yaz›l›m›n›n anlayabilece¤i ve üzerinde de¤ifliklikler yapabilece- B Bilgisayar›n›z yazabiliyor, peki okuyabiliyor mu? Optik karakter tan›ma (OCR) ve forma bilgi girifli otomasyonu (ICR) hakk›nda bilmek istediginiz herfleyi bu ekte bulacaksiniz. tekrar yazmakla vakit kaybetmeyin! siz taray›n, bilgisayar›n›z okusun 3 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR ¤i flekle dönüfltürebilir. Bu sayede herhangi bir yaz›l› belgedeki metni bilgisayara aktarmak için ka¤›da bakarak tek tek klavyeden Bir taray›c›ya sahipseniz, birçok yazma zorunlulu¤unuzu ortadan kald›r›r, kaülkenin biliflim yay›nlar› taraf›n¤›t üzerindeki tablolar› Excel’e kolayca aktadan ödüle lay›k görülen FineRerabilmenizi sa¤lar ya da güzel bir bas›l› sayader 5’i, üstelik özellikleri geniflletilmifl Office sürümüyle fay› resim ve yaz›lar›n› ay›rarak ayn› flekliybizzat kendiniz de deneyebilirle Web sayfas› haline dönüfltürebilmenize siniz. Deneme sürümünüz, olanak verir. ‹flte, taray›c›n›z› kullanarak baTürkçe karakter tan›ma dosyas›l› dokümanlardaki metinlerin kelime ifllemlar›yla birlikte bu ayki CD’mizin cinize aktar›lmas›na ve bu sayede bilgisayar OCR klasöründe bulunuyor. üzerindeki hemen her platformda kullan›labilmesine olanak veren OCR teknolojisinin ayr›nt›l› bir incelemesi bu ekin konusunu oluflturuyor. OCR konusunda merak etti¤iniz tüm konulara aç›kl›k getirmesi aç›s›ndan faydal› olaca¤›na inand›¤›m›z bu ekte sadece OCR iflleminin temellerini de¤il; ayn› zamanda ABBYY firmas›n›n genifl özelliklere sahip ve optik karakter alg›lamada %99,8 gibi yüksek baflar›lara imza atan OCR çözümü FineReader 5.0 ve form okuma çözümü olan Form Reader ürünleri hakk›nda bilgiler de bulacaks›n›z. FineReader 5 Office Deneme Sürümü CD’mizde! ➔ 4 OCR ‹fiLEM‹N‹N MANTI⁄I Dilerseniz merak edenler için ilk olarak OCR teknolojisinin iflleyifl mant›¤›n› aç›klayarak bafllayal›m. OCR, yaz›l› dokümanlar›n görüntülerinin bir taray›c› sayesinde al›n›p içerdi¤i metnin bilgisayar›n anlad›¤› dile çevrilebilmesini sa¤layan bir teknolojidir. Bu sayede metni elle yazmaya gerek kalmadan bilgisayar üzerinde yeniden düzenlenebilir ve birçok programla paylafl›ml› olarak kullan›labilir hale getirebilirsiniz.. Bu sayfalarda taranm›fl bir gazete kupürü göreceksiniz. Üzerindeki yaz›lar son derece rahat okunabiliyor olmakla be- raber asl›nda bu görüntü bir resimden ibaret ve bilgisayar›n›z için bu resmin sizin vesikal›k resminizden hiç bir fark› yok. ‹flte bu aflamada o karakterleri anlamland›rmak için OCR yaz›l›m› devreye girer. OCR yaz›l›mlar›n›n karakter tan›mlamas› için temel olarak kulland›klar› üç yöntem mevcut: ➦ Matrix Matching (Matris Eflleme): Bu yöntemde OCR yaz›l›m›, karfl›laflmas› muhtemel tüm karakterlerin görüntüsünü içeri¤inde tutar. Daha sonra taranm›fl dokümandaki karakterleri bir bir bu kütüphanedeki flekillerle eflleyerek hangisine uygun oldu¤unu bulmaya çal›fl›r. Ucuz ve h›zl› çal›flan bir yöntemdir, ancak okunacak fontun flekli biraz olsun de¤iflti¤inde hassasiyeti kaybolur. ➦ Feature Analysis (‹çerik Analizi): Bu yöntemdeyse yaz›l›m karakterlerin görüntüsünü de¤il, tan›mlar›n› akl›nda tutar. Yani karakteri tan›mak için bir çok özelli¤ine bakar: Kaç tane düz çizgi var, bunlar›n kaç› dikey kaç› yatay, yuvarlak köflelerin konumlar› neler, karakterde delikler var m› vesaire gibi. Tan›mlama kriterleri böyle her karakter için al›fl›ld›k olunca, genel kural›na uygun yaz›lm›fl hemen her karakterin tan›nmas› mümkün hale gelir. Bu durumda karakterin flekli genel karakter kurallar›na uydu¤u sürece karakter tan›mlama için fontlar›n önemi yoktur. ➦ Self-Assertion (Özgün Tan›mlama): Bu da yukar›daki iki yöntemin birleflmesidir. Önce doküman içerik analizi yöntemiyle taranarak genel bir tablo oluflturulur ve bu sayede kesinli¤i yüksek karakterler bir kenara ayr›larak bunlardan bir matris oluflturulur. Daha sonra bu kez emin olmayan karakterler, bu yeni elde edilen matristeki karakter Bir gazete kupüründen taranm›fl haber. Ancak bilgisayar›n›z›n bunu sizin yapt›¤›n›z gibi gördü¤ü anda okumas›n› beklemeyin. 5 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR tablolar›yla karfl›laflt›r›larak "benzetilmeye" çal›fl›l›r. Yani sistem önce içerik analiziyle kesinlikle A oldu¤una emin oldu¤u bir A yakalayarak bunun foto¤raf›n› çeker. Daha sonra da bu A harfinin görüntüsünü A oldu¤undan emin olamad›¤›, fakat A’ya benzedi¤ini düflündü¤ü karakterlerle karfl›laflt›r›p ortak noktalar›na bakarak gerçekten A olup olmad›¤›na karar verir. Bu karar verme aflamalar› tamamen yaz›l›m taraf›ndan iflletilen bir süreçtir ve ço¤u zaman en uygun yöntemin hangisi oldu¤una yaz›l›m karar vererek uygular. Dolay›s›yla bu aflamada sizin yapabilece¤iniz pek bir fley yok, karakterleri baflar›l› bir flekilde tan›ma yüzdesi sadece OCR yaz›l›m›n›n kulland›¤› yöntemlerin baflar›s›na kal›yor. Ancak siz de OCR ifllemi öncesinde yapaca¤›n›z baz› haz›rl›klarla bu ifllemin do¤rulu¤unun artmas›na katk›da bulunabilirsiniz. Bunun için yapabilece¤iniz iki fley var: Birincisi taray›c›n›z›n ayarlar› sayesinde harfleri mümkün olan en net ve en kolay alg›lanabilir flekilde tarayarak programa iletmek, ikincisi de OCR yaz›l›m›n›n fonksiyonlar› üzerinde esasl› bir hakimiyet kurmak. ➔ 6 TARAYICIDAN UYGUN GÖRÜNTÜ ALINMASI Dilerseniz önce iflin en temelinden bafllayarak, yaz›l›ma aktar›lacak görüntünün elde edilmesi ile bafllayal›m. OCR teknolojisi, baflta vurgulad›¤›m›z üzere taray›c› taraf›ndan metnin say›sal ortama aktar›lan foto¤raf› üzerindeki harflerin ve sembollerin önceden belirlenmifl bir tak›m karakter bilgileriyle efllefltirilmesi temeline dayan›yor. Yani elde edilen görüntüdeki örne¤in bir B harfinin, yaz›l›m taraf›ndan mevcut karakter haritalar›yla ya da tan›mlar›yla efllenerek B olup olmad›¤›na karar verilmesi laz›m. ‹flte burada OCR yaz›l›m›n›n eflleme ve do¤ru karar verebilme yetene¤i kadar bizim de ona "ne kadar B’ye benzeyen bir B" vermifl oldu¤umuzun da büyük önemi var. Normalde bir metni taramak için üç yol kullanabilirsiniz: Renkli, gri tonlama (grayscale) ve sadece siyah-beyaz (lineart). Grayscale taramada 256 gri tonundan oluflan bir siyah beyaz görüntü elde ederken, lineart taramada ara tonlar olmaks›z›n sadece siyah ve beyaz renklerden oluflan bir sonuca ulafl›rs›n›z. Karmafl›k resimlerle dolu bir doküman› oldu¤u gibi aktarmak ve resimleri de kaybetmemek için renkli tarama yapmaktan baflka seçene¤iniz yok. Fakat OCR iflleminde amac›n›z sadece yaz›lar› tan›mlamaksa ve sayfa düzenindeki resimlerle u¤raflmay› planlam›yorsan›z, lineart ve grayscale aras›ndan bir seçim yapmak sizi daha do¤ru sonuçlara götürecektir. Peki bu ikisinden hangisi OCR için daha uygun? Bu sorunun cevab›n› vermek için her iki tarama yönteminin ayr›nt›l› tan›mlar›na bir göz atmakta fayda var. ➦ LINEART: Öncelikle lineart moduna bir göz atal›m. Lineart, pikselleri sadece siyah ve beyaz olarak tan›mlayabilen bir format oldu¤u için görüntü üzerinde oynayabilece¤iniz sadece bir tek parametreye sahip. Bu yegane parametre threshold, yani alg›lama efli¤i ad›n› tafl›yor. Alg›lama efli¤ini, taray›c›n›n taramakta oldu¤u metin üzerinde bir pikselle karfl›laflt›¤›nda bunun siyah m›, yoksa beyaz m› olaca¤›na dair verdi¤i karar› etkileyen bir de¤er olarak düflünebilirsiniz. Kolay anlayabilmek için bunu bir metni okumak için üzerine tuttu¤unuz ›fl›¤›n fliddeti gibi de düflünebilirsiniz. E¤er hiç ›fl›k kullanmaz veya çok az ›fl›k kullan›rsan›z, metni Threshold ayar›. Dik ç›kan bölümler beyazdan siyaha yo¤un geçifl noktalar›n› belirtiyor. 7 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR Threshold de¤eri yüksek bir tarama ifllemi sonucu karakterler birbiri içine geçmifl ve ortal›kta bolca fazla piksel var. Burada da threshold de¤eri biraz fazla düflük oldu¤undan kimi karakterlerin s›n›rlar› incelmifl ya da kaybolmufl. ‹flte OCR ifllemi için ideal bir threshold ayar›. 8 karanl›ktan ay›rmakta zorlan›rs›n›z ve bütün metin siyaha döner. Aksini yap›p çok fazla ›fl›k tutarsan›z, bu durumda da ka¤›t ›fl›ktan dolay› bembeyaz olur, bu kez hiçbir fley göremezsiniz. ‹flte, 0-255 Aras›nda de¤iflen ve orijinali 128 olan threshold de¤erinin 0’a yaklaflmas› okunan piksellerin renginin siyah ya da beyaz olufluna dair verilen karar›n beyaza do¤ru, 255’e yaklaflmas› ise siyaha do¤ru kaymas›na neden olur. Bu nedenle threshold de¤erini 255’e yaklaflt›rd›kça tamamen siyah, 0’a yaklaflt›rd›kça tamamen beyaz bir sayfan›n önünüzde belirdi¤ini görürsünüz. Threshold ayar›na baz› taray›c› yaz›l›mlar›nda günefl ya da ayd›nl›k-parlakl›k simgesi olarak rastlayabilirsiniz. OCR yaz›l›m› da karakterleri adam gibi tan›yabilmek için karakter s›n›rlar›n›n iyi ve temiz belirlenmifl olmas›n› ister ki, gördü¤ü harfi referanslar›yla karfl›laflt›rd›¤›nda do¤ru sonuca ulaflabilsin. Haliyle ortada karakteri tan›mas›n› zorlaflt›racak kadar yabanc› piksel varsa, karakterler birbiri içine geçmiflse ya da karakterlerin s›n›rlar›n› oluflturan pikseller efllefltirmeyi zorlaflt›racak denli kaybolmuflsa, OCR yaz›l›m› bunlar› bir fleye benzetemeyecek ve baflar› oran› düflecektir. Dolay›s›yla bu threshold de¤eri öyle bir ayarlanmal› ki, ne çok koyu olup karakterlerin iyice birbirine geçmesine sebep olsun, ne de çok aç›k olup karakterlerin s›n›rlar›n›n kaybolmas›na yol açs›n. ‹flte OCR iflleminin baflar›s› aç›s›ndan bu dengeyi sa¤lamak son derece önemli. Bununla birlikte OCR’a uygun threshold dengesini kurmak asl›nda çok zor bir ifl de¤il ve bir kez al›flt›ktan sonra ço¤u zaman ikinci bir kez denemeye bile gerek kalma- dan bu dengeyi kuracak deneyimi kazanmak mümkün. Bu bilgiler ›fl›¤›nda lineart’›n avantajlar›n› flöyle s›ralamak mümkün: Birincisi, lineart taramada elde edilen her bir piksel sadece 1 bitlik (siyah veya beyaz) renk bilgisi içerdi¤inden, dosya boyutu 8 bitlik renk verisi tafl›yan grayscale moduna göre 8 kat daha az ve tarama ifllemi için gereken süre de grayscale taraman›n dörtte biri civar›nda. Lineart tarama iflleminin di¤er yöntemlere oranla h›zl› ve oluflan dosyalar›n boyutunun küçük olmas›, özellikle dokümanlar› toplu olarak tararken zaman ve disk alan› kazand›r›yor. Ancak bu flekilde taranm›fl görüntülere keskinlefltirme ya da otomatik ayd›nl›k seviyesi belirleme gibi grayscale taraman›n getirdi¤i baz› avantajlar uygulanam›yor. Ayr›ca güzel bir threshold dengesi tutturmak da grayscale ile karfl›laflt›r›l›nca daha zahmetli. ➦ GRAYSCALE: Grayscale modunda her piksel için 256 gri tonu (8 bit) tan›mlamas› yap›labiliyor ve haliyle sahip oldu¤u parametrelerle özellefltirme imkanlar› daha fazla. Bu formattaki bir görüntüye sadece parlakl›k ayar› de¤il, keskinlefltirme gibi OCR ifllemini kolaylaflt›ran efektler de eklenebiliyor. Parlakl›k de¤erinin OCR ifllemi için ne çeflit bir öneme sahip oldu¤undan lineart k›sm›nda bahsettim, burada da bu konuda de¤iflen bir fley yok ve iyi bir sonuç için parlakl›k de¤erinin iyi ayarlanm›fl olmas› gerekli. Bununla birlikte hem taray›c›lara ait sürücüler ve kontrol arabirimlerinin, hem de FineReader’in grayscale resimlerin parlakl›k ayar›n› en uygun biçimde ayarlayabilme fonksiyonuyla beraber geliyor oluflu iflleri önemli ölçüde kolaylaflt›r›yor. Grayscale bir çok doküman için OCR amaçl› tavsiye edilen en uygun tarama flekli, ancak bir- Grayscale alt›nda karakterler gayet düzgün görünüyor. FineReader da böyle düflünüyor olmal›. 9 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR 10 KAÇ DPI TARAYALIM? Amaç taranan dokümandaki karakterlerin maksimum okunabilirli¤ini sa¤lamak oldu¤unda, elde edilen görüntünün kalitesi ve parlakl›¤› kadar boyutu da önem kazan›yor. Bu nedenle biraz da dpi (dots per inch-inç bafl›na düflen nokta say›s›) fleklinde tabir edilen çözünürlük olay›ndan bahsetmekte fayda var. OCR ifllemi için kabul edilen standart tarama çözünürlü¤ü genel olarak 300 dpi ve en iyi baflar› bu çözünürlükle sa¤lanabiliyor. Ancak karakter boyu 9 puntonun alt›na inerse, okuma iflleminin sa¤l›kl› yürümesi aç›s›ndan 400 ve 600 dpi tarama yapman›z gerekebiliyor. Çünkü çözünürlük artt›kça görüntünün boyutu da büyüyor ve böylece ufak karakterler yaz›l›m›n gözüne daha büyük görünerek do¤abilecek kar›fl›kl›klar›n biraz olsun önüne geçilmifl oluyor. Ancak bu yüksek tarama çözünürlükleri, normal boydaki karakterler için önerilen rakamlar de¤il. Neden peki, mant›k olarak daha yüksek çözünürlük daha fazla detay demek de¤il midir? Asl›nda öyle, ancak bu durumu normal boyuttaki karakterlere uygulamaya yeltendi¤inizde yüksek çözünürlüklü karakterlerin ayn› zamanda boylar› da gere¤inden fazla büyümüfl oldu¤undan karakter efllemede problemler ç›kabiliyor. Di¤er bir deyiflle, grafik üzerinde bekledi¤inden daha büyük bir karakter boyuyla karfl›laflan yaz›l›m, bu kocaman cisimleri harfe benzetmekte biraz daha zorlan›yor ve do¤ruluk pay› düflüyor. Art›k OCR iflleminin temellerini ve yaz›l›m›n becerisini artt›rmak için kendi çaban›zla neler yapabilece¤inizi, nelere dikkat etmeniz gerekti¤ini biliyorsunuz. Yaz›n›n bundan sonraki k›sm›nda yaz›l›ma özel faktörler üzerinde de nas›l hakimiyet kurulaca¤›n› anlayabilmek ve OCR yaz›l›mlar›n›n geldikleri noktay› daha iyi görebilmek için ABBYY firmas›n›n Fi- ➔ Resimde 300 dpi (üstte) ve 600 dpi (altta) taraman›n fark›n› görüyorsunuz. kaç ufak kusuru da yok de¤il. Birincisi, grayscale modunda resim tarand›¤›nda arka plan hafif gri bir renge bürünüyor ve bu da lineart’›n keskin siyah-beyaz ayr›mlar›yla karfl›laflt›r›ld›¤›nda karakter tan›mlama yetene¤ine az da olsa etki edebilecek bir faktör. ‹kincisi, taranan görüntünün dosya boyu lineart efliyle karfl›laflt›r›ld›¤›nda 8 kat daha fazla, üçüncüsü bu flekilde bir görüntüyü taramak lineart’a göre daha uzun süre al›yor. Gelelim gerçekte hangisinin OCR için ideal oldu¤u sorusunun cevab›na. Asl›nda seçim yapt›¤›n›z iflin ihtiyaçlar›na göre de¤ifliyor. FineReader ›srarla OCR için grayscale isterim derken, taray›c› yaz›l›mlar›n›n neredeyse tamam› yard›m dosyalar›nda ideal OCR taramas› için lineart modunu adres gösteriyorlar. Haliyle ortada bir karmafla var ve bu karmaflay› aflman›n en iyi yolu deneyerek k›yaslamak. Ben de bu amaçla tamamen ayn› doküman›n ayn› bölgesindeki metinleri her iki yolla da tarayarak birbiriyle k›yaslad›m. Denemelerimde threshold de¤eri iyi dengelenmifl bir lineart görüntüyle, ayn› görüntünün parlakl›k ayarlar› program›n inisiyatifine b›rak›lm›fl grayscale halini FineReader ile OCR iflleminden geçirdi¤imde her ikisinde de benzer baflar›lar yakalad›¤›m›, ancak her ikisinde de alg›lama hatas› yaflanan yerlerin farkl› bölgelerde oldu¤unu gözlemledim. Demek ki ikisinin de OCR aç›s›ndan iyi ve kötü yönleri var. Bu durumda yer ve zaman k›tl›¤› çekiyorsan›z lineart, böyle sorunlar›n›z yoksa ve imaj seçeneklerini otomati¤e ba¤lay›p yine de tatminkar sonuçlar almak peflindeyseniz grayscale düflünebilirsiniz. Bir fley düflünecek halde de¤ilim derseniz o zaman tercihinizi nispeten daha zahmetsiz olan grayscale yönünde kullan›n. 11 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR neReader 5 Pro ve Form Reader ürünleri üzerine bir incelemeyle devam edece¤iz. ➔ FINEREADER 5.0 - B‹R OCR USTASI fiimdi, bu program üzerinde gerçeklefltirece¤imiz incelemeler s›ras›nda bir OCR yaz›l›m›n›n karakter tan›ma yan›nda neler yapabilece¤ini de bir bir anlataca¤›z. Bir arada oldukça fl›k bir biçimde paketlenmifl yaz›l›m, bir disket ve bir CD’den olufluyor. Direkt CD’den yükleme yapmak isterseniz, yaz›l›m bu flekilde yüklendi¤inde sadece deneme sürümü olarak kullan›labilece¤i konusunda sizi uyar›yor. Program› tam sürüm yüklemek için CD’yi tak›p, sonra disketi yerlefltirerek disketteki Setup dosyas›n› çal›flt›rman›z› istiyor. Bunu takip eden kurulum ifllemi s›ras›ndaysa normal bir kurulum seyri gerçeklefltiriyor ve diledi¤iniz dil paketlerini yahut baz› özellikleri dilerseniz bu aflamada ekleyip ç›karabiliyorsunuz. FineReader 5.0 tarama ve tan›ma ifllerini toplam dört aflamada gerçeklefltiriyor: Scan (tarama), Read (okuma), Check (kontrol) ve Save (kaydetme). Program ilk çal›flt›r›ld›¤›nda sizi iki seçenekli bir menüyle karfl›l›yor: Scan&Read Wizard ve Document Tutorial. Scan&Read Wizard baflta sayd›¤›m›z dört aflamay› s›ras›yla sizi yönlendirerek tamamlama ve bu sayede iflinizi mümkün oldu¤unca k›sa sürede bitirme amac›nda olan bir özellik. Document Tutorial ise Help dos- FINEREADER 5 OFFICE S‹STEM GEREKS‹N‹MLER‹ ‹flletim Sistemi: Windows 95/98/ME Windows NT 4(En az SP3)/2000. Windows XP için www.kets.com adresimizi ziyaret ediniz. ‹fllemci: Pentium 133 ve üstü Bellek: En az 32MB, eklenen her ifllemci gücü için 16MB ekstra. Sabit Disk Alan›: 40MB minimum kurulum için, 50MB bofl alan program›n çal›flabilmesi için. Di¤er Donan›mlar: TWAIN uyumlu taray›c›, fare, CDROM, disket sürücü, VGA Monitor (en az 800x600 çözünürlük destekli) 12 yas› üzerinde de¤iflik doküman gruplar› için yap›lmas› gereken ayarlardan bahsedilen bir bölüme gitmenizi sa¤l›yor. Gelelim bir doküman›n OCR yaz›l›m› taraf›ndan tabi tutuldu¤u bu dört aflamada nelerin gerçekleflti¤ine... 1 GÖRÜNTÜNÜN YAZILIMA AKTARILMASI (SCAN) ‹lk aç›ld›¤›nda FineReader arabirimi oldukça bofl ve anlams›z görünüyor, ancak bu durum sadece programa OCR iflleminden geçirmek üzere bir doküman yükleyene kadar geçerli. FineReader’e OCR ifllemine tabi tutulacak doküman görüntüsünü iki flekilde verebilmek mümkün: Taray›c›dan o anda taratmak, ya da daha önce taranm›fl bir görüntüyü dosyadan yüklemek. fiimdi, e¤er Scan Image diyerek taray›c›dan görüntü almay› hedefliyorsan›z önünüzde yine iki seçenek var: Kendi taray›c›n›z›n TWAIN arabirimini kullanmak ya da FineReader ile gelen arabirimi kullanmak. Bu ayr›m› resimde Scan butonunun yan›ndaki oka bast›¤›n›zda altta aç›lan ufak menüden Options bölümüne girerek yapabiliyorsunuz. Burada sizi genel opsiyonlar›n taray›c› seçimiyle ilgili bölümleri karfl›l›yor ve en üstte Use FineReader Interface ile Use TWAIN-Source Interface olarak iki seçenek buluyorsunuz.. Bu ikisinin fark› flu: Twain-Source Interface dedi¤i fley asl›nda taray›c›n›z›n sürücülerini yükledikten sonra bir resim taramak istedi¤inizde karfl›n›za ç›kan kendine özgü arabirimin ta kendisi. Bu arabirim hemen her taray›c› modeline göre de¤iflen görünüm ve özelliklere sahip, ayr›ca taray›c›n›n özelliklerine Elimdeki taray›c›n›n sürücüleriyle gelen TWAIN arabirimi karfl›laflt›rmal› efekt uygulamas›n› bile destekliyor. 13 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR Bu da FineReader taray›c› arabirimi. ve yeteneklerine uygun bir tak›m ayarlara eriflmenize de olanak sa¤l›yor. Bu ayarlar aras›nda tarama iflleminin kalitesinin belirlenebilmesinden hassas parlakl›k ayarlar›na, hatta görüntü keskinlefltirme gibi özel fonksiyonlara kadar bir çok fley bulmak mümkün. Yine taray›c›ya özel arabirimler taranacak görüntünün bir ön görüntüsünü kullan›c›ya göstererek bütün bir sayfa yerine sadece belli bir alan›n taranabilmesine de olanak sa¤l›yorlar. Böylece görüntü üzerinde genifl özellefltirme seçenekleri kullanabiliyor ve FineReader’e göndermeden önce nas›l bir fley olaca¤›n› görüp gerekirse üzerinde düzeltmeler yapabiliyorsunuz. FineReader arabirimine gelince... Bu arabirim biraz daha kolay gibi görünmekle beraber fazla bir özellefltirmeye olanak sa¤lam›yor. Asl›nda en büyük handikap› da taranacak görüntünün ön izlemeye tabi tutulamamas›. Bunu kulland›¤›n›z anda doküman taray›c›dan "gel sen buraya" denip kula¤›ndan tutularak pald›r küldür taran›yor. Yine de FineReader arabiriminin iki güzel taraf› var: Birincisi, bu arabirimi kullanarak grayscale modunda tarama yaparsan›z parlakl›k ayar›n› FineReader kendi ihtiyaçlar›na uygun biçimde otomatik olarak ayarl›yor. Bunu sa¤lamak için Brightness ayar›n› FineReader konumunda b›rakman›z yeterli. ‹kincisi de bu arabirimin yüksek miktarda doküman taramak için özelleflmifl fonksiyonlar› var. ADF (Automatic Document Feeder-Otomatik Doküman Besleyici) özelli¤i olan bir taray›c› kullan›yorsan›z, t›pk› yaz›c›dan sayfalar› art arda bast›¤›n›z gibi sayfalar› taray›c›dan ard› ard›na taratabiliyorsunuz. K›saca FineReader arabirimi bu ifller için özelleflmifl arabirimi olmayan taray›c› cihazlar için düflünülmüfl. Daha önceden taranm›fl bir görüntüyü yaz›l›ma aktarmak için kullanaca¤›n›z Open Image seçene¤inin ise özel veya anlafl›lmayacak bir yönü yok. Bildi¤iniz gibi taray›c›dan ç›kan resimleri hemen her tarz görüntü format›na çevirip saklamak mümkün. Bu flekilde taray›c›dan görüntüyü al›p sonradan OCR ifllemine koyacaksan›z, ya da "a¤ üzerinde bir baflkas› görüntüyü taras›n benim bilgisayar›mda bunu iflleyelim" gibi planlar›n›z varsa bu özelli¤i kullanabilirsiniz. 2 OKUMA (READ) Yaz›y› tarad›n›z, FineReader’e aktard›n›z. Bu bölümde verece¤imiz bilgiler özellikle sayfa formunun oldu¤u gibi korunmas› aç›s›ndan gayet önemli. Biz de bu bölümü genel olarak iki k›s›mda inceleyece¤iz: Sayfa formlar›n›n sa¤l›kl› bir flekilde aktar›lmas› için uygulanmas› gereken püf noktalar› ve iflin as›l ilginç k›sm› olan ö¤renPÜF NOKTASI me bölümü. ➔ SAYFA DÜZEN‹N‹N BEL‹RLENMES‹ Sayfay› okutup buraya geldi¤inizde yaz›l›m›n ayarlar›yla oynamad›ysan›z ekran›n dörde ayr›lm›fl oldu¤unu göreceksiniz: Yüklenmifl sayfalar›n ufak resimlerinin oldu¤u bölüm (en sol), taranm›fl sayfan›n görüntüsünün yer ald›¤› sol üst pencere, okutma ifllemini yapt›¤›m›zda okuma sonucunun yer alaca¤› sa¤ üst pencere ve altta da yaz› içindeki harflerin piksel ayr›nt›lar›n› gösteren büyüteç penceresi. Bu pencere sayesinde tan›ma ifllemi için iyi bir görüntü yakalay›p yakalamad›¤›n›z› bir kez daha gözleyebilirsiniz. READ bölümü daha çok sayfa düzeniyle u¤rafl›yor olmas›na ra¤men, bu noktada OCR ifllemine tabi tutulacak görüntü üzerinde son bir iyilefltirme yapma flans›n›z var. O da Image menüsünden "Despeckle Image" fonksiyonunu çal›flt›rmak. Bu fonksiyonun yapt›¤› ifl kabaca fazladan oldu¤u düflünülen pikselleri ortamdan yok etmek. Bu fonksiyon özellikle arka plan› gri olarak belirlenmifl tablo hücrelerinin ya da koyu renkli arka plana sahip dokümanlar›n gri alanlar›n›n karakterlerle kar›flarak yanl›fl okumalara engel olmas›nda çok ifle yar›yor. 14 15 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR ‹flte FineReader alt›nda sayfam›z› yükledik ve okutmak için haz›r›z. ‹flte elle yap›lm›fl iyi bir sayfa analizi. Bu ifl için yuvarla¤a al›nm›fl araç çubu¤u kullan›l›yor. 16 Karakterlerle bir sorununuz yoksa, s›ra de¤iflik sayfa düzenlerinin tan›t›lmas› için gereken ayarlar›n yap›lmas›na gelmifl demektir. Ortal›kta bildi¤iniz gibi yal›n dokümanlardan kompleks magazin sayfalar›na, karmafl›k tablolara kadar bir çok bas›l› sayfa flekli bulunuyor. FineReader ile gelen sayfa analizcisi basit dokümanlar›n formlar›n› tan›mlamakta pek zorlanmazken, karmafl›k dokümanlarda dikkat edilmesi gereken bir tak›m noktalar beliriyor. Ama bunlara girmeden öncelikle sayfa düzeninin oturtulmas›ndan bahsedelim. Sayfa üzerindeki nesneler üçe ayr›l›yor: Yaz›, resim ve tablo. FineReader analizcisi bunlar› gerekti¤i gibi ay›ramam›flsa ufak birkaç hareketle bu durumu halletmek mümkün. Bak›n›z, bu amaçla bizim derginin Eylül 2000 say›s›ndan ald›¤›m bir sayfan›n taranm›fl görüntüsünü FineReader alt›nda di¤er pencereleri kapatarak iyice belirgin hale getirdim. Sayfa düzenleme araçlar›n› da yuvarlak içine ald›m. Burada yeflil dörtgenler yaz› alanlar›n›, k›rm›z›lar resim alanlar›n› ve mavi olan dörtgen de tablo alan›n› temsil ediyor. Tablo derken flu Excel ve Word alt›nda sayfa düzeni içinde kulland›¤›n›z bilindik tablolardan bahsediyorum. Ha o mavinin içi bofl derseniz do¤rudur, sadece rengini göresiniz diye kafadan çizdim. Sayfa düzeninin nas›l yerleflti¤ine dikkat edin. Asl›nda FineReader sayfa analizcisi bana bu konuda bafltan bir hayli yard›mc› oldu ama sonradan baz› yerlere el atmak zorunda kald›m. Sayfa düzenine bakarsan›z bu sayfa üç sütun yaz›dan olufluyor. ‹flte bu üç sütunu birbirinden ay›rmak için ayr› ayr› iflaretlemek gerekiyor. Zira tüm sütunlar› tek bir yaz› alan› olarak tan›mlarsan›z, bu kez bütün formasyonu koruyarak doküman› Word’e aktarmak istedi¤inizde düzenleme olay› boflluk ve tablarla yapmaya çal›fl›l›yor ve haliyle doküman›n fele¤i flafl›yor. Eflatun renkli elipsin içindeki simgeler de bu kutular› oluflturdu¤unuz araçlardan baflka bir fley de¤il. Simgelerin üzerine fareyi getirip biraz tutarsan›z ne ifle yarad›klar› hemen tepesinde beliriveriyor. Farz› misal simge üzerinde tutunca Draw Text Block mu yazd›? Demek ki bununla metinleri iflaretliyorsunuz. Bazen de FineReader baz› bölümlerde ay›r›m yapamay›p yaz›lar› resim gibi iflaretleyebiliyor. Bu durumda da Delete Block ile yanl›fl iflaretli kutuyu silerek do¤ru biçimde tan›mlaman›z mümkün. Ancak ilginçtir, FineReader kulland›kça bu metinleri ne flekilde iflaretledi¤inizi ufaktan ö¤renmeye bafllad›¤› gibi bir his olufltu bende. Bu araç çubu¤unun alt›nda yer alan k›s›mlar ise tablolar›n çubuklar›n› yerlefltirmekle ilgili. Elinizdeki doküman bir tablo içeriyorsa ve FineReader buna ait baz› sat›rlar› ›srarla tablo sat›r› olarak tan›mlamak istemiyorsa, tablo s›n›rlar›n› siz koyabiliyorsunuz. Bu da az önce iflaretledi¤imiz doküman›n Word’e aktar›lm›fl hali. Neredeyse hiç fark yok. 17 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR ➔ FARKLI YAZI ST‹LLER‹N‹ TANITMAK ö¤renen program Bir gazete ya da dergide kullan›lan fontlar belli, Times New Roman ya da Arial gibi Bunlar son derece düzgün sonuç veren ve kolay okunan fontlardan seçiliyor. Peki ya Monotype Corsiva gibi artistik bir fontla ve de¤iflik bir stille yaz›lm›fl dokümanlar› ne yapacaks›n›z? Tabii ki ö¤reteceksiniz. Program›n en ilginç fonksiyonlar›ndan biri olan bu özellik, ayn› zamanda çok düzgün bir el yaz›s›na sahipseniz el yaz›- OKUMA ÜZER‹NE ‹NCE AYARLAR FineReader oldukça ak›ll› bir yaz›l›m ve okuma s›ras›nda bir tak›m eksik yönlerle karfl›lafl›rsa, sadece hatal› okuma ya da kuru hata mesajlar› sunmuyor. Tak›ld›¤› yeri size söyleyerek yön gösteriyor. Mesela OCR dili olarak Türkçe seçip ‹ngilizce bir doküman m› okutmaya u¤rafl›yorsunuz? Hemen yaz›yor "Check the recognition language". Ya da harfler ufak m› taranm›fl? "Check the character size" önünüze diziliyor. Ayd›nl›k ayar›nda sorun mu var, az ya da çok mu kaçm›fl? "Check the document brightness" uyar›s› karfl›n›zda bitiveriyor. Haliyle karfl›n›za böyle bir uyar› ç›karsa sorunu gidermek için tavsiyelerine kulak verin. Doküman› 300 dpi yerine 600 dpi taray›n, taray›c› ayd›nl›k ayar›n› yap›n, dili düzeltin, k›saca ne gerekiyorsa yap›n. Bu yönü hayli hofl, çok takdir ettim. Bu kez de tarad›¤›n›z doküman formunu adam gibi alg›lamad›¤›ndan m› flikayetçi oldunuz? O zaman genelde karfl›lafl›lan doküman gruplar› için afla¤›daki tavsiyeleri uygulayabilirsiniz. Gerçi Tutorial k›sm›nda yaz›yor bunlar ama bizler k›saca önemlilere de¤inelim istedik. Unutmadan, burada bahsedece¤imiz ayarlar› genelde Tools-Opti- 18 n›z› elektronik ortama aktarmak için de kullan›labilir. Fakat bu ifllem çok zahmetli ve oldukça da uzun sürüyor. ‹flte bu nedenle harcayaca¤›n›z vaktin ancak flu üç durumda anlaml› olabilece¤i vurgulan›yor: 1- Bilgisayar kaynakl› ve tüm karakterlerin standart oldu¤u dekoratif fontlarla yaz›lm›fl yaz›lar›n okunmas›, 2- Özel matematik ya da mesleki semboller içeren dokümanlar, ons-Recognition bölümünde ya da civar›nda bulunuyor. ➊ Tam Kolon Dokü- man: Baz› dokümanlar›n flekilleri Tab kullan›larak ayarlan›r. Ancak FineReader bunlar› iki sütun olarak alg›lamaya çal›fl›yor ve doküman›n flekli bozuluyor. Çözüm: Doküman› tek kolon olarak alg›lamas› için üzerinde bask› kurun. Recognition ‹flte FineReader ince ayarlar›n›n menüsüne gidin ve döndü¤ü yer buras›. orada Document Type yazan bafll›kta Single Column bölümünü iflaretleyin. Böylece Tab boflluklar›n›n kolon olarak alg›lanmas›n›n önüne geçeceksiniz. 19 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR 3- Çok yüksek hacimli dokümanlar›n taranmas› gereken durumlar (100 sayfa ve daha fazla). Bu ifllemi göze ald›ysan›z sistemi çal›flt›rmak için öncelikle bir tak›m ayarlar› aktif hale geçirmek gerekiyor. Bunun için önce ToolsOptions-Recognition menüsüne giFineReader alt›nda bu de¤iflik karakter setiyle yaz›lm›fl metni ö¤retmeden okutursan›z bolca düzeltmeyle karfl›laflabilirsiniz. 20 ➋ Program Kodlar›: Özellikle bilgisayar programc›l›¤›yla ilgili sayfalarda ço¤u zaman bas›l› örnek kodlar görürsünüz. Hani sat›r sat›r kod ve aç›klamas›nda da genellikle "bunu yaz›n compile edin ekrana saat ç›kacak kufl ç›kacak" gibi fleyler yazar. Güzel, ama o kadar fleyi flafl›rmadan yazmak zor. OCR bu ifl için kullan›lamaz m›? Çözüm: FineReader ile sayfalara bas›l› kodlar›n bilgisayara aktar›lmas› mümkün, aç›kças› düflünenlerin de ellerine sa¤l›k. Yapman›z gereken ilk fley, Recognition menüsünden yine Document Type alt›ndan Plain text formatted with spaces seçene¤ini seçmek. Böylece doküman›n boflluklar›n›n boflluk tuflu vurufluyla k›yaslanarak tam olarak hesaplanmas›n› ve tüm paragraflar›n alt alta olmas› gereklili¤ini ortadan kald›r›yorsunuz. Bu bir, daha bitmedi... ‹kincisi, yukar›daki Recognition Language menüsünün afla¤› kayan bir menü oldu¤u dikkatinizi çekmifltir. Hatta bu menüye program›n ana ekran›ndan da bir referans var. ‹flte onu çekin- diyor ve en afla¤›dan Train User Pattern seçene¤ini iflaretli hale getiriyorsunuz. Daha sonra bu menüyü kapat›p normal Read ifllemini bafllat›yorsunuz. Bu aflamada olay farkl› ifllemeye bafll›yor: FineReader doküman› okurken anlamad›¤› bir karakterle karfl›laflt›¤› anda karakteri alg›layabildi¤i kadar iflaretleyerek sizden yard›m istiyor. fiimdi burada uygulaman›z gereken iki fley var: Öncelikle karakterin s›n›rlar›n›n do¤ru belirlenip belirlenmedi¤ini ce bir miktar ana dil ç›k›yor karfl›n›za. Bunlar› seçmek yerine oradan Choose more language diyorsunuz ve C/C++ dilini seçiyorsunuz. Ne mutlu ki bu dili de tan›nan dillere eklemifller. Abhazca, ‹talyanca, Rusça, Türkçe, ‹ngilizce derken C/C++, Cobol gibi dilleri de görmek cidden hofl. ‹flte flimdi kodlar› okutmaya haz›rs›n›z. Ha, umar›m ilk kurulum s›ras›nda bu dilleri eklemeyi ihmal etmemiflsinizdir. Deneme sürümünde bu dillerin baz›lar› olmayabilir. ➌ Birden Fazla Dilde Dokümanlar: Olur ya, bir doküman geçer elinize üstte ‹ngilizce metin altta Türkçe çevirisi. Nas›l olacak? Yani ‹ngilizce’deki Q, W ile Türkçe’deki ⁄, fi nas›l kaynaflacak? Çözüm: Elbette ki birden fazla dili seçerek. Yine Recognition menüsünde Recognition Language bölümünü afla¤› do¤ru çekin, bu kez Select multiple languages’i iflaretleyin. Karfl›n›za birden fazla dile iflaret koyabilece¤iniz bir menü 21 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR kontrol ediyorsunuz. Mesela bir "b" harfinin yuvarlak karn›n›n biraz ayr›k oldu¤unu düflünün. FineReader bunu l ve o olarak alg›lamak üzere birbirinde ay›rd›ysa, karakteri çevreleyen dörtgeni tutarak karakterin tamam›n› bu dörtgene alman›z laz›m. Daha sonra afla¤›daki bölüme de karakterin ad› olan "b"yi yaz›yorsunuz ve böyle bir fleyle yeniden karfl›laflt›¤›nda FineReader yeni bir karakteri ö¤renirken karakterin tamam›n›n yeflil kutu içinde olmas›na mutlaka özen gösterin. ç›kacak. OCR ifllemi için kullan›lmas›n› istedi¤iniz dilleri iflaretleyin ve onaylay›n. Yaln›z burada her eklenen dil alg›lama baflar›s›n› düflürüyor ve tavsiye edilen rakam en fazla üç. olay›n bütününe bak›p b oldu¤unu alg›layabilmeyi ö¤retiyorsunuz. Ancak yaz›n›n do¤as› gere¤i baz› karakterler bu çeflit bir s›n›rla ayr›lamayacak denli bir araya gelmiflse bu durumda birkaç harfi bir arada iflaretleyerek bir heceyle eflleyebilmeniz de mümkün. Bütün bu ifllemler bittikten sonra da son olarak Use user pattern seçene- siyonu iflaretledi¤inizde FineReader bu doküman› iki sayfa halinde alg›layacak ve gerekeni de bu yönde yapacakt›r. Karakterler birbirinden ayr›lamayacak gibiyse, harfleri birlefltirerek hece olarak da alg›latabilirsiniz. ➍ ‹kili Sayfa: Bir kitab› taratt›¤›n›z› varsay›n. Kitap bu, aç›k durunca taray›c›dan adam gibi taranmaz, havalanan ördek gibi bir kanad› sa¤a, di¤eri sola do¤ru aç›lan›r. Normalde FineReader sayfa yerleflim aç›s›n› karakterlerin konum ve durufluna bakarak ayarlayabiliyor, ama tek bir resim üzerinde farkl› aç›lanm›fl iki farkl› sayfa görürse bunlar› ne tarafa çevirecek? Sa¤a m› yoksa sola m›? Çözüm: En güzeli tahmin etti¤iniz gibi bunlar› ikiye ay›r›p ikisini de gerekti¤i aç›yla çevirmek. Ancak bunun ayar›n› bulmak için ToolsOptions k›sm›na girerek bu kez Scan/Open Image bölümüne yönelmeniz laz›m. Burada Split dual pages diye bir opsiyon göreceksiniz. Bu op- 22 ‹flte taranm›fl bir kitap sayfas›. FineReader bu siyam ikizlerini sizin yerinize ay›rabiliyor. 23 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR Yeni karakter tan›mlaman›z› farkl› bir isimle kaydettiyseniz, önce bunu aktif hale getirmeniz laz›m. ¤ini seçerek yeni tan›tt›¤›n›z karakter setinin doküman alg›lamas› için kullan›lmas›n› sa¤l›yorsunuz. Özel bir ayar yapmad›ysan›z bu yeni set Default ad›yla kaydedilir. Ama siz yeni karakter setinizi farkl› bir isimle kaydettiyseniz, bu durumda Pattern Editor alt›ndan bunu Set Active komutuyla aktif hale getirmeniz gerekiyor. Peki ya arada bir hata yapt›ysan›z? Yani normalde bir karakter iki nokta üst üste iken FineReader bunu ›srarla "i" olarak tan›yorsa? Bu durumda olay› düzeltmek için yine Pattern Editor alt›nda yaratt›¤›n›z karakter tan›m›n› seçerek ilgili karakteri bulmak için Edit komutunu veriyorsunuz. Burada hangi sembollerin hangi karakterlerle efllendi¤ini gösteren bir liste karfl›n›za geliyor. Buradan dilerseniz karakter ç›karabilir ya da daha önce tan›mlanm›fl bir karakterin eflini de¤ifltirebilirsiniz. 3 KONTROL (CHECK SPELLING) Yaz›y› taratt›n›z, okuttunuz, tan›tt›n›z ve flimdi de s›ra kontrol etmeye geldi. Okuma s›ras›nda FineReader’in baz› kelime ve harflere renkli iflaretler koydu¤u dikkatinizi çekmifltir. ‹flte bu iflaretler tam olarak emin olamad›¤› ya da bünyesindeki sözlükte karfl›l›¤›n› bulamad›¤› harf ve kelimeleri içeriyor. FineReader çok güçlü bir OCR yaz›l›m›, ama hata yapabilece¤inin ve kafas›n› kar›flt›rabilecek durumlar›n olabilece¤inin de fark›nda. ‹flte bu nedenle yaz›l›m bir de Spell Chec- 24 ker, yani harf kontrolcüsü içeriyor. Aralar›nda Türkçe de bulunan bir çok dilde kelime kontrolü yapabilen yaz›l›m›n kulland›¤› mant›k flu: Bir harften emin de¤ilse kelime yanl›fl yaz›lacakt›r, emin olamad›¤› ya da yanl›fl yaz›lan kelimeleri de bir flekilde kullan›c›ya dan›fl›rsa yapt›¤›m ufak tefek hatalar da ortadan kalkar. Bu zaten bir çok kelime ifllemci taraf›ndan kullan›lan bir özellik. Ancak sonucu kelime ifllemciye göndermeden bir düzeltme yapmak istiyorsan›z ya da kelime ifllemciniz doküman›n yaz›l› oldu¤u dilde kelime do¤rulu¤u kontrolü yapam›yorsa bu bölüm ayr› bir de¤er kazan›yor. Bu bölümü kullanmak da çok basit; tam bir kelime ifllemci gibi çal›fl›yor. Yanl›fl yaz›lm›fl oldu¤unu düflündü¤ünüz bir kelimeyle karfl›laflt›¤›n›zda ya sözlü¤e ekliyor, ya do¤rusunu listeden seçiyor ya da do¤rusunu yaz›ya yaz›veriyorsunuz. Ayr›ca Options bölümünde hata alg›lama veya duraklama seviyelerini belirlemek üzere birkaç tane ayar mevcut. K›saca yaz›n›n üzerinden geçmek için güzel düflünülmüfl bir eklenti. Kullan›m› da son derece kolay. %99.8 do¤rulukta çal›flmas›na ra¤men yapt›¤› hatalar› da telafi etmekten geri kalmayan bir yaz›l›m FineReader. Karakterler ve karfl›l›¤› olarak alg›lanan resimlere Pattern Editor alt›ndan eriflerek de¤ifliklik yapabilirsiniz. 4 KAYIT (SAVE) Yüzdük yüzdük kuyru¤una geldik. Tarad›k, tan›tt›k formatlar›n› ayarlad›k, icab›nda da ö¤rettik derken sonunda s›ra geldi bunlar› anlaml› bir flekilde saklamaya. Bu aflama OCR 25 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR 26 diyelim ki Word seçtiniz, bilgisayar›n›zda Word yüklüyse hemen Word aç›l›p okutulmufl sayfa oraya yönlendiriliveriyor. Ya da Web Browser seçiyorsunuz, yaz› taray›c›n›zda beliriyor. Clipboard seçerseniz de herhangi bir bofl belgeye CTRL+V (Paste) ifllemi yapt›¤›n›zda hop FineReader’den gelen doküman aktar›l›veriyor. Ama kendi denemelerimde özellikle Word ve Excel alt›- FineReader 5.0’›n Pro d›fl›nda özellikle ofis ihtiyaçlar›na cevap vermek üzere gelifltirilmifl Office adl› bir di¤er sürümü daha mevcut. E¤er doküman tan›ma ifllemleri iflinizin yo¤un bir k›sm›n› oluflturuyorsa ve bu ifle derinlemesine dalma ihtiyac› hissediyorsan›z bu durumda ofis sürümünün avantajlar›n› gözden geçirebilirsiniz. ‹flte Office sürümünün getirdikleri: 2000 ve NT gibi platformlarda bu gücü kullanarak ORC iflleminin h›z›n› artt›rabiliyor. Fazla miktardaki dokümanlar›n OCR iflleminden geçirilmesine daha uygun ve bu yönde iyilefltirmeler içeriyor. ODMA olarak k›salt›lan Open Document Management Access, yani harici doküman iflleme cihazlar›yla uyumlulu¤u belirten standarda tam destek veriyor. 1 2 A¤ ortam›na uyumlu, a¤ üzerinden OCR ifllemi yapman›za izin veriyor. 3 Çoklu ifllemci deste¤i var. Bu sayede birden fazla ifllemcinin tak›l› oldu¤u Windows Pro versiyonundan farkl› olarak barkod okuyup tan›mlayabiliyor ve yeni diller yaratman›za izin veriyor. fiirketinizin kendine has terimleri ya da sembolleri varsa bunun için uygun olabilir. 4 5 Bofl bir formu taray›c›n›zdan aktararak elektronik ortamda doldurup an›nda yaz›c›n›zdan doldurulmufl halini ç›karabilmenizi sa¤layan Formulator adl› kullan›fll› bir fonksiyonu içeriyor. 6 Save Wizard alt›nda desteklenen her dosya türü, ayr›ca kendine has özellefltirmeler içeriyor. 5.0 office FineReader Spell Check bölümü bu basit ekrandan ibaret. iflleminin son aya¤›n› oluflturuyor. FineReader’›n kay›t için seçene¤i ve opsiyonu bol, ama ben direkt Save Wizard’› anlatmak istiyorum. Zira tek ekranda ihtiyac›n›z olan tüm seçenekleri size sunuyor. Save Wizard’a bast›¤›n›zda Save to File, Word, Excel, Send by e-mail, Copy to Clipboard ve Web Browser gibi seçenekler görüyorsunuz. Bu seçeneklerin tamam› ilgili yaz›l›ma tan›t›lm›fl sayfay› an›nda yönlendirmeye yar›yor. Yani 27 C M Y K C M Y K OCR • OCR • OCR • OCR • OCR • OCR 28 FORM B‹LG‹ G‹R‹fi‹ OTOMASYONU: ABBYY FORM READER ‹fl dünyas›n›n ka¤›t üzerindeki dokümantasyonunun önemli bir k›sm›n› da formlar oluflturuyor. Bugünün dijital ifl dünyas›nda ka¤›t dokümanlar›n kontrolü için ifl gücü ve maddi harcamalar›n minimuma indirilmeye çal›fl›ld›¤› bir gerçek. Bu durumda ICR teknolojisi sayesinde pekala form otomasyonu ile ihtiyaçlar için karmafl›k olmayan, kullan›c› dostu ve k›sa sürede geri dönüflüm sa¤layan bir yap› sunmak mümkün. ‹flte ABBYY FormReader, bu iflte uzmanlaflm›fl ve ka¤›t formlardan veritabanlar›na veri aktar›m otomasyonunu gerçeklefltiren bir ürün. ➔ Karmafl›k yap›daki bir sayfay› al›p iki dakikada taray›p okutarak Web sayfas› haline getirmek bile mümkün. ‹flte buyurun, sonuç böyle. na dosya aktar›rken bunun bir tak›m sorunlara neden oldu¤unu ve do¤ru çal›flmad›¤›n› gördüm. Benim bilgisayar bunu bir becerip iki becerip sonras›nda OLE ba¤lant›s› kuramad›¤› için a¤lamaya bafll›yor. O nedenle bunun ifle yaramad›¤› durumlarda Save to File seçene¤ini kullanman›z› öneriyorum. Bu seçenek an›nda bir Word açarak doküman› yönlendirmek yerine, doküman› diledi¤iniz isimle DOC olarak kaydedip sonradan Word ile açman›za olanak sa¤l›yor. Kesinlikle daha sorunsuz bir yöntem. Tabii verdi¤im bu örnek PDF, XLS, HTML gibi her formata da uyarlanabiliyor. Bu aflamada sayfa düzeniyle ilgili birkaç tane de seçene¤iniz var: Aktarma yapaca¤›n›z ortam sayfa düzeni aktar›m›n› destekliyorsa (Word, Acrobat Reader, HTML, Excel gibi dosyalar›) yaz›n›n hangi formatlar›n›n aktar›laca¤›n› burada seçebiliyorsunuz. Seçenekleriniz de yukar›dan afla¤›ya do¤ru Retain Full Page Layout (sayfa düzenini oldu¤u gibi koru), Retain Font and Font Size (sadece font flekil ve boylar›n› koru) ve Remove All Formatting (sayfa düzenini hiç ifle kar›flt›rma) olarak s›ralan›yorlar. Ayr›ca Keep pictures bölümüne bir iflaret koyarak sayfadaki resimleri de oldu¤u gibi aktarabiliyorsunuz. Ve son olarak, Formats Settings butonlar›yla da her dosya türünün kendi karakteri olan bir tak›m özellikleri iflin içine kat›flt›rabiliyorsunuz. Word’e özel olan karakterlerin renginin de korunmas›, PDF’e özel olan emin olunamayan karakterlerin resim olarak aktar›lmas› ve HTML’e özel Code page opsiyonu bunlara örnek. ABBYY FormReader Nedir? ABBYY FormReader, bas›l› formlardaki bilgilerin taranmas›, bilgilerin okunmas›, veritabanlar› ve di¤er sistemlere aktar›lmas›n› sa¤layan ve FineReader’in ödüllü OCR teknolojisini kullanan bir yaz›l›m. Dolay›s›yla T›pk› FineReader gibi makine ve düzgün el yaz›lar›n› okuyabilme yetene¤ine sahip. Ancak uzmanlaflt›¤› alan, daha çok formlardan toplan›lan verilerin veritabanlar›na aktarmas› üzerine. Form Reader ile veri toplama ifllemi üç ad›mda gerçeklefliyor: ➊ fiablon yarat›m› ➋ Birden fazla formun okunmas› için sistem tasar›m› ➌ Form iflleme FORMREADER S‹STEM GEREKS‹N‹MLER‹ ‹flletim Sistemi: Windows 95/98/ME Windows NT 4(En az SP3)/2000 ‹fllemci: Pentium 133 ve üstü Bellek: En az 16MB Sabit Disk Alan›: 94MB minimum, tam kurulum için 150MB. Di¤er Donan›mlar: TWAIN uyumlu taray›c›, fare, CDROM, VGA Monitor (en az 800x600 çözünürlük destekli), USB veya LPT port. 29 C M Y K C M Y K OCR • OCR • OCR • Form Reader ile flablon tan›tma iflleminin arabirimi oldukça anlafl›l›r ve sade. Karakter do¤rulama ekran›. Grup do¤rulama ifllemi (Verification). 30 a. Tarama b. Tan›ma c. Veri Do¤rulama d. Veritabanlar›na veri Aktar›m› (MS Excel vs...) ABBYY Form Reader, bu ifllemleri otomatik olarak yapmak yoluyla kullan›c›lar› en çok zaman alan ad›m olan elle veri giriflinden kurtar›yor. Hangi Formlar ABBYY FormReader ile ‹fllenebilir? FormReader ile baflvuru formlar›, anket formlar›, garanti kartlar›, çekler, faturalar ve bunlar gibi birçok form tipi ifllenebiliyor. FormReader ile günlük 100 ile 1000 aras›nda formun ifllenmesi mümkün. Daha fazla say›da form ifllemek için sunucu bazl› çal›flan ABBYY Enterprise Forms kullanmak daha uygun. ABBYY Form Reader Formlar› Nas›l ‹fller? ABBYY Form Reader ile formlar iki ad›mda iflleniyor: ‹lk ad›mda ABBYY FormReader ekran›nda yeni bir y›¤›n yarat›l›yor, bu y›¤›nda tan›nacak form flablonlar› seçiliyor, taray›c› özellikleri ve tan›ma özellikleri ayarlan›yor. Bir sonraki ad›mda, formlar tarama iflleminden geçiriliyor, tan›ma ifllemi otomatik olarak gerçeklefliyor ve formlar do¤rulamaya haz›r hale geliyor. Do¤rulama ekran›nda yanl›fl tan›nan karakterlerin düzeltilmesi sa¤lan›yor ve son olarak "export" butonuna bas›larak bilgiler veritabanlar›na, doküman yönetim sistemlerine ve ifl ak›fllar›na gönderiliyor.