Ocenite etot tekst:


---------------------------------------------------------------
     Email: bmn@gosreg.adm.yar.ru
     Date: 10 Nov 2000
---------------------------------------------------------------

     Materialy  etoj  stranicy  budut  regulyarno  popolnyat'sya.   Opytom  OCR
delyatsya Maksim Bychikov i Grigorij Kudryavcev, u nih na schetu - PSS  SHekspira,
Stejnbeka,  Dikkens,  ...  vsego  okolo  60Mb  podgotovlennyh  i  vychitannyh
elektronnyh tekstov.



     Esli  material  predstavlen v  vide  kachestvennoj (zhelatel'no  vysokoj)
pechati shriftom 10 i bolee punktov, to  skanirovanie v razreshenii 300 tochek s
ruchnoj ustanovkoj yarkosti  daet bolee chem priemlemye rezul'taty.  Kolichestvo
oshibok na list  A4 stremitsya k nulyu  i kolebletsya  v rajone  1-5 nepravil'no
raspoznannyh znakov. Ustanovku  yarkosti mozhno podobrat' opytnym putem, svodya
k minimumu pomehi v vide rassypannoj po listu "sypi", no v osnovnom, yarkost'
na urovne 42-45% obespechivaet horoshee kachestvo raspoznavaniya.

     Osobo sleduet  otmetit' situaciyu  pri skanirovanii  nekotoryh  pechatnyh
izdanij izdannyh v 40-e-60-e gody, v chastnosti  eto kasaetsya mnogih sobranij
sochinenij  izdannyh  v   eto   vremya.  Nesmotrya  na   kachestvennuyu   pechat',
ispol'zovanie   slozhnyh   "mnogozavitushechnyh"   shriftov   vvodit   programmu
raspoznavaniya v iskus  pridumat' kakoe-to svoe tolkovanie nekotoryh  znakov,
chto  sushchestvenno snizhaet kachestvo  poluchaemogo  teksta.  CHastichno  razreshit'
problemu pozvolyaet  povyshenie  razresheniya do  400  tochek  na  dyujm  - oshibok
stanovit'sya zametno men'she. Odnako  dal'nejshee uvelichenie razresheniya ne daet
prirosta   tochnosti  raspoznavaniya.   (Mozhno   porobovat'   raspoznavanie  s
obucheniem, no  eto vo pervyh dolgo  i mutorno,  a vo vtoryh, sub®ektivno, ne
daet zametnogo uvelicheniya kachestva raspoznavaniya)

     Pri skanirovanii knig s nebol'shim vnutrennim polem i "ne raskryvayushchihsya
do konca" v kleenom pereplete prihodit'sya ispol'zovat' avtomaticheskij podbor
yarkosti chtoby  izbezhat'  zatemneniya v  oblasti perepleta. Odnako  avtopodbor
yarkosti snizhaet skorost'  prohoda  skanera i  otnyud' ne sposobstvuet luchshemu
raspoznavaniyu oblastej teksta ne lezhashchih v zatemnennoj  chasti, poetomu luchshe
izbegat' skanirovaniya s avtomaticheskim podborom, krome samyh krajnih sluchaev
(osoboj cennosti izdaniya, i osoboj uzosti vnutrennih polej).  (Knizhka obychno
posle etogo stanovitsya zagublennoj.)

     K skanirovaniyu s razresheniem 600 tochek na dyujm sleduet pribegat' tol'ko
v sluchayah esli original napechatan shriftom 9 i men'she punktov.


     Maxim mailto:bmn@gosreg.adm.yar.ru







Skanner Fujitsu M4097D. 30-40 stranic v minutu na avtopodache. Stoit okolo $10k
http://www.fcpa.com/product/prd_product_frame.html
http://www.banctec.com/Products.CFM?Products__IDNumber=36



     HP ScanJet 4c
     Ispol'zuyutsya v nastoyashchee vremya:
     Mustek 12000 SP Plus
     Acer ScanPrisa 640
     Umax PowerLook II




     Dostoinstva:
     Vysokaya skorost' skanirovaniya (18-22 sek ch/b A4), bystryj otkat,  lampa
pri otkate otklyuchaetsya.

     Nedostatki:
     Pri  rabote zabiraet vse resursy  mashiny,  podveshivaya  vse  parallel'no
rabotayushchie prilozheniya. Snyat s proizvodstva.




     Dostoinstva:
     Podderzhivaetsya  avtomaticheskaya  nastrojka  yarkosti,  udobno  realizovan
dialog twain-drajvera  skanera. Pri rabote  ne  trebovatelen  k  mobilizacii
resursov sistemy, pozvolyaet odnovremenno rabotat' drugim prilozheniyam.
     Edinstvennyj dopuskaet parallel'no so  skanirovaniem proslushivat' mp3 s
lyubym bitrejtom.

     Nedostatki:
     Otnositel'no nizkaya skorost' skanirovaniya (30-35 sek ch/b  - pri  rabote
cherez twain-dialog, 40-45 sek pri avtomaticheskoj yarkosti).
     Medlennyj otkat. Lampa gorit postoyanno.
     Otsutstvuet  knopka   "Power".  Nenadezhnoe  kreplenie  kryshki   (tonkie
plastmassovye petli).




     Dostoinstva:
     Otnositel'no  vysokaya skorost'  skanirovaniya  (25-30 sek ch/b  A4 -  pri
rabote cherez  twain-dialog, 35-38 sek pri avtomaticheskoj  yarkosti),  bystryj
otkat. Udachno realizovano kreplenie  kryshki, predusmotrena vozmozhnost' s®ema
onoj. Na nash vzglyad - luchshij skaner dlya raboty s tekstom v cenovom diapazone
do 200$.

     Nedostatki:
     Lampa gorit postoyanno.





     Dlya  skanirovaniya tekstov ne podhodit  naproch', po prichine zatochennosti
pod vysokokachestvennoe skanirovanie grafiki.  Imeet opticheskoe razreshenie do
1200. Na skanirovanie lista formata A4 zatrachivaetsya 60 sek., kuda  vhodit 5
sekundnoe progrevanie lampy dlya bolee tochnoj cvetoperedachi.





     Iz  vseh  vozmozhnyh sposobov  sohranit' raspoznannyj material  v FR 4.0
rassmotrim dva naibolee udobnyh dlya obrabotki teksta  otskanirovannoj knigi:
sohranenie teksta s  "chastichnym  sohraneniem maketa  s  pomoshch'yu probelov"  i
"sohranenie teksta bez  formatirovaniya".  Sleduet  otmetit', chto  kazhdyj  iz
ukazannyh  sposobov  obladaet  svoej  specifikoj  pri  dal'nejshej  obrabotke
teksta.

     (pered raspoznavaniem  v FR 4.0  neobhodimo  ubedit'sya chto v "opcii"  -
"formatirovanie"  -  "formaty" -  "tekst"  marker  "sohranyat' razdelenie  na
stroki" snyat, a "razdelyat' abzacy pustymi strokami" - stoit.


     Sohranenie teksta bez formatirovaniya.

     Naibolee   optimal'nyj,  na  nash  vzglyad,  variant  sohraneniya  teksta,
poskol'ku FineReader ne pytaetsya rulit' sam, a sohranyaet kak est'.

     Abzacy vydelyayutsya dvumya vozvratami karetki.


     Odin iz nas nichtozhe sumnyashesya  zapuskaet makros, kotoryj zamenyaet  < na
", > na ", .- na . - , ,- na , - , !- na ! - , ?- na ? - , "- na " - , )- na
) - ,  dva vozvrata karetki  na odin i pyat' probelov. Posle chego zapuskaetsya
programma textform (prilagaetsya), kotoraya vyravnivaet pravuyu granicu poputno
udalyaya  perenosy  i  defisy,  kotorye  ona   schitaet  takovymi  :(,  obrazuya
konstrukcii tipa - kaknibud' i pr., a takzhe udalyaya tire v dialogah. CHastichno
eto  lechitsya  global'noj  zamenoj  slova  nibud' na -nibud',  s  posleduyushchej
zamenoj  -- na -. Ostal'nye  udalennye  tire  i defisy  prihoditsya vstavlyat'
vruchnuyu, no eto uzhe ne tak strashno, kak udalyat' vruchnuyu perenosy.


     Drugoj ispol'zuet bolee hitruyu zamenu.

     Poryadok podgotovitel'nyh zamen:

     {<} i {>} zamenit' na {kavychki}

     ubrat' perenosy - {defis} {vozvrat karetki} zamenit' na "pusto"

     {zapyataya} zamenit' na {zapyataya} {probel}

     {zapyataya} {probel} {probel} zamenit' na {zapyataya} {probel}

     Privodim v poryadok abzacy:

     {tochka} {vozvrat karetki} {vozvrat karetki} zamenit' na {%%%}

     {vosklicatel'nyj znak} {vozvrat karetki} zamenit' na {$$$}

     {voprositel'nyj znak} {vozvrat karetki} zamenit' na {###}

     {vozvrat karetki} zamenit' na {probel}

     {%%%}       zamenit'      na      {tochka}       {vozvrat       karetki}
{probel}{probel}{probel}{probel}{probel}

     {$$$}   zamenit'   na   {vosklicatel'nyj    znak}   {vozvrat   karetki}
{probel}{probel}{probel}{probel}{probel}

     {###}       {voprositel'nyj       znak}        {vozvrat        karetki}
{probel}{probel}{probel}{probel}{probel}

     Poluchaem  podgotovlennyj  k  vychitke  polufabrikat  teksta  s  abzacnym
otstupom pyat'  probelov, kotoryj progonyaem cherez textform, s polucheniem vseh
vysheukazannyh glyukov. :)

ocr_bychkov_textfmt.rar





  Rezhimy formatirovaniya:    !!!!!
  Vklyuchit' formatirovanie probelami.
  Sohranyat' v txt-win formate.

Komanda: Razmetit' vse bloki

Ruchnoj prosmotr vseh blokov po tifam, i korektirovka blokov.

Paketnyj raspoznavatel'.

Master sohranenie: Postranichno -  sohranyat' v txt-win formate.

Skleivaem s numeratorom stranic.

Multiedit: Perekodirovka v dos, paketnye makrosy - perekodirovka simvolov.
Dlinnoe tire... Tablica prilagaetsya.

1. Pervichnaya obrabotka. Mezhstranichnye razdeliteli, Numiratory...

Sbitaya   tabulyaciya...  Lechim  abzacem.  Pozicionirovanie  po  podozritel'nym
mestam.

2. Po bumazhnomu tekstu - stilevoe vydelenie.

3. Tipovye oshibki. Poisk makrosami...

Spellchek, dosovskij DC-1991.

Last-modified: Sat, 23 Dec 2000 12:14:13 GMT
Ocenite etot tekst: