Digitalizace textu pomocí online nástroje
Každý potřebuje občas bez námahy zdigitalizovat nějaký text z tištěné předlohy. K tomu slouží OCR aplikace, které mají většinou u sebe dnes k sobě přibalené tiskárny, nebo skenery. Potíž je v tom, že v českém prostředí dávají často neuspokojivé výsledky. Koupil jsem si nedávno nový skener a zkoušel, zda si přiložené OCR poradí s textem knihy, kterou jsem se chystal zdigitalizovat. Text byl psaný obyčejným fontem, kontrast dostatečný. Výsledek byl zklamáním a proto jsem se vrátil ke svému osvědčenému online OCR, který naleznete na stránce PDF to Word .
Aplikace na stránce www.onlineocr.net umožňuje nastavit si jazykové prostředí a pak stačí jen uploadovat naskenovanou stránku v některém běžném formátu (jpg, tif, pdf …) a zkonvertovat. Na výběr je několik textových formátů, které lze ihned po konverzi stáhnout. Výsledek je překvapující, protože převedený text má správnou diakritiku a chyb není mnoho. Většina lze odstranit hromadným nahrazením, nebo postupně pomocí vyhledání a nahrazení. Hromadné nahrazení se nejvíce uplatní pochopitelně ve vícestránkovém textu, který je možné nahrát v placené verzi. Typicky je to vícestránkové pdf. Na konci textu uvedu některé nahrazující vzory.
Tento online OCR je nejlepší volbou, kterou jsem našel. Jako jediný nemá žádný problém s českými znaky a jsem si téměř jist, že používá nějaký slovník, který eliminuje nesmyslná slova a dává, s přihlédnutím k variabilitě českého jazyka se svými předponami a příponami, velice solidní výsledky.
Některé nahrazovací vzory
Úplné | Postupné |
---|---|
¬ > null | pin > pln (piné) |
“ > ” | tornu > tomu |
d’in > ďm | – > null (dělení slov) |
d‘ > ď | |
t‘ > ť | |
ěi > či |