Maksim Bychkov, Grigorij Kudryavcev. Noyabr'skie tezisy o skanirovanii
---------------------------------------------------------------
Email: bmn@gosreg.adm.yar.ru
Date: 10 Nov 2000
---------------------------------------------------------------
Materialy etoj stranicy budut regulyarno popolnyat'sya. Opytom OCR
delyatsya Maksim Bychikov i Grigorij Kudryavcev, u nih na schetu - PSS SHekspira,
Stejnbeka, Dikkens, ... vsego okolo 60Mb podgotovlennyh i vychitannyh
elektronnyh tekstov.
Ustanovki skanera po yarkosti
Esli material predstavlen v vide kachestvennoj (zhelatel'no vysokoj)
pechati shriftom 10 i bolee punktov, to skanirovanie v razreshenii 300 tochek s
ruchnoj ustanovkoj yarkosti daet bolee chem priemlemye rezul'taty. Kolichestvo
oshibok na list A4 stremitsya k nulyu i kolebletsya v rajone 1-5 nepravil'no
raspoznannyh znakov. Ustanovku yarkosti mozhno podobrat' opytnym putem, svodya
k minimumu pomehi v vide rassypannoj po listu "sypi", no v osnovnom, yarkost'
na urovne 42-45% obespechivaet horoshee kachestvo raspoznavaniya.
Osobo sleduet otmetit' situaciyu pri skanirovanii nekotoryh pechatnyh
izdanij izdannyh v 40-e-60-e gody, v chastnosti eto kasaetsya mnogih sobranij
sochinenij izdannyh v eto vremya. Nesmotrya na kachestvennuyu pechat',
ispol'zovanie slozhnyh "mnogozavitushechnyh" shriftov vvodit programmu
raspoznavaniya v iskus pridumat' kakoe-to svoe tolkovanie nekotoryh znakov,
chto sushchestvenno snizhaet kachestvo poluchaemogo teksta. CHastichno razreshit'
problemu pozvolyaet povyshenie razresheniya do 400 tochek na dyujm - oshibok
stanovit'sya zametno men'she. Odnako dal'nejshee uvelichenie razresheniya ne daet
prirosta tochnosti raspoznavaniya. (Mozhno porobovat' raspoznavanie s
obucheniem, no eto vo pervyh dolgo i mutorno, a vo vtoryh, sub®ektivno, ne
daet zametnogo uvelicheniya kachestva raspoznavaniya)
Pri skanirovanii knig s nebol'shim vnutrennim polem i "ne raskryvayushchihsya
do konca" v kleenom pereplete prihodit'sya ispol'zovat' avtomaticheskij podbor
yarkosti chtoby izbezhat' zatemneniya v oblasti perepleta. Odnako avtopodbor
yarkosti snizhaet skorost' prohoda skanera i otnyud' ne sposobstvuet luchshemu
raspoznavaniyu oblastej teksta ne lezhashchih v zatemnennoj chasti, poetomu luchshe
izbegat' skanirovaniya s avtomaticheskim podborom, krome samyh krajnih sluchaev
(osoboj cennosti izdaniya, i osoboj uzosti vnutrennih polej). (Knizhka obychno
posle etogo stanovitsya zagublennoj.)
K skanirovaniyu s razresheniem 600 tochek na dyujm sleduet pribegat' tol'ko
v sluchayah esli original napechatan shriftom 9 i men'she punktov.
Maxim mailto:bmn@gosreg.adm.yar.ru
Skanner Fujitsu M4097D. 30-40 stranic v minutu na avtopodache. Stoit okolo $10k
http://www.fcpa.com/product/prd_product_frame.html
http://www.banctec.com/Products.CFM?Products__IDNumber=36
* ISPOLXZOVALISX V RABOTE SKANERY MODELEJ: *
HP ScanJet 4c
Ispol'zuyutsya v nastoyashchee vremya:
Mustek 12000 SP Plus
Acer ScanPrisa 640
Umax PowerLook II
Dostoinstva:
Vysokaya skorost' skanirovaniya (18-22 sek ch/b A4), bystryj otkat, lampa
pri otkate otklyuchaetsya.
Nedostatki:
Pri rabote zabiraet vse resursy mashiny, podveshivaya vse parallel'no
rabotayushchie prilozheniya. Snyat s proizvodstva.
Dostoinstva:
Podderzhivaetsya avtomaticheskaya nastrojka yarkosti, udobno realizovan
dialog twain-drajvera skanera. Pri rabote ne trebovatelen k mobilizacii
resursov sistemy, pozvolyaet odnovremenno rabotat' drugim prilozheniyam.
Edinstvennyj dopuskaet parallel'no so skanirovaniem proslushivat' mp3 s
lyubym bitrejtom.
Nedostatki:
Otnositel'no nizkaya skorost' skanirovaniya (30-35 sek ch/b - pri rabote
cherez twain-dialog, 40-45 sek pri avtomaticheskoj yarkosti).
Medlennyj otkat. Lampa gorit postoyanno.
Otsutstvuet knopka "Power". Nenadezhnoe kreplenie kryshki (tonkie
plastmassovye petli).
Dostoinstva:
Otnositel'no vysokaya skorost' skanirovaniya (25-30 sek ch/b A4 - pri
rabote cherez twain-dialog, 35-38 sek pri avtomaticheskoj yarkosti), bystryj
otkat. Udachno realizovano kreplenie kryshki, predusmotrena vozmozhnost' s®ema
onoj. Na nash vzglyad - luchshij skaner dlya raboty s tekstom v cenovom diapazone
do 200$.
Nedostatki:
Lampa gorit postoyanno.
Dlya skanirovaniya tekstov ne podhodit naproch', po prichine zatochennosti
pod vysokokachestvennoe skanirovanie grafiki. Imeet opticheskoe razreshenie do
1200. Na skanirovanie lista formata A4 zatrachivaetsya 60 sek., kuda vhodit 5
sekundnoe progrevanie lampy dlya bolee tochnoj cvetoperedachi.
* RABOTA S TEKSTOM-"SYRCOM" *
Iz vseh vozmozhnyh sposobov sohranit' raspoznannyj material v FR 4.0
rassmotrim dva naibolee udobnyh dlya obrabotki teksta otskanirovannoj knigi:
sohranenie teksta s "chastichnym sohraneniem maketa s pomoshch'yu probelov" i
"sohranenie teksta bez formatirovaniya". Sleduet otmetit', chto kazhdyj iz
ukazannyh sposobov obladaet svoej specifikoj pri dal'nejshej obrabotke
teksta.
(pered raspoznavaniem v FR 4.0 neobhodimo ubedit'sya chto v "opcii" -
"formatirovanie" - "formaty" - "tekst" marker "sohranyat' razdelenie na
stroki" snyat, a "razdelyat' abzacy pustymi strokami" - stoit.
Sohranenie teksta bez formatirovaniya.
Naibolee optimal'nyj, na nash vzglyad, variant sohraneniya teksta,
poskol'ku FineReader ne pytaetsya rulit' sam, a sohranyaet kak est'.
Abzacy vydelyayutsya dvumya vozvratami karetki.
Odin iz nas nichtozhe sumnyashesya zapuskaet makros, kotoryj zamenyaet < na
", > na ", .- na . - , ,- na , - , !- na ! - , ?- na ? - , "- na " - , )- na
) - , dva vozvrata karetki na odin i pyat' probelov. Posle chego zapuskaetsya
programma textform (prilagaetsya), kotoraya vyravnivaet pravuyu granicu poputno
udalyaya perenosy i defisy, kotorye ona schitaet takovymi :(, obrazuya
konstrukcii tipa - kaknibud' i pr., a takzhe udalyaya tire v dialogah. CHastichno
eto lechitsya global'noj zamenoj slova nibud' na -nibud', s posleduyushchej
zamenoj -- na -. Ostal'nye udalennye tire i defisy prihoditsya vstavlyat'
vruchnuyu, no eto uzhe ne tak strashno, kak udalyat' vruchnuyu perenosy.
Drugoj ispol'zuet bolee hitruyu zamenu.
Poryadok podgotovitel'nyh zamen:
{<} i {>} zamenit' na {kavychki}
ubrat' perenosy - {defis} {vozvrat karetki} zamenit' na "pusto"
{zapyataya} zamenit' na {zapyataya} {probel}
{zapyataya} {probel} {probel} zamenit' na {zapyataya} {probel}
Privodim v poryadok abzacy:
{tochka} {vozvrat karetki} {vozvrat karetki} zamenit' na {%%%}
{vosklicatel'nyj znak} {vozvrat karetki} zamenit' na {$$$}
{voprositel'nyj znak} {vozvrat karetki} zamenit' na {###}
{vozvrat karetki} zamenit' na {probel}
{%%%} zamenit' na {tochka} {vozvrat karetki}
{probel}{probel}{probel}{probel}{probel}
{$$$} zamenit' na {vosklicatel'nyj znak} {vozvrat karetki}
{probel}{probel}{probel}{probel}{probel}
{###} {voprositel'nyj znak} {vozvrat karetki}
{probel}{probel}{probel}{probel}{probel}
Poluchaem podgotovlennyj k vychitke polufabrikat teksta s abzacnym
otstupom pyat' probelov, kotoryj progonyaem cherez textform, s polucheniem vseh
vysheukazannyh glyukov. :)
ocr_bychkov_textfmt.rar
Rezhimy formatirovaniya: !!!!!
Vklyuchit' formatirovanie probelami.
Sohranyat' v txt-win formate.
Komanda: Razmetit' vse bloki
Ruchnoj prosmotr vseh blokov po tifam, i korektirovka blokov.
Paketnyj raspoznavatel'.
Master sohranenie: Postranichno - sohranyat' v txt-win formate.
Skleivaem s numeratorom stranic.
Multiedit: Perekodirovka v dos, paketnye makrosy - perekodirovka simvolov.
Dlinnoe tire... Tablica prilagaetsya.
1. Pervichnaya obrabotka. Mezhstranichnye razdeliteli, Numiratory...
Sbitaya tabulyaciya... Lechim abzacem. Pozicionirovanie po podozritel'nym
mestam.
2. Po bumazhnomu tekstu - stilevoe vydelenie.
3. Tipovye oshibki. Poisk makrosami...
Spellchek, dosovskij DC-1991.
Last-modified: Sat, 23 Dec 2000 12:14:13 GMT