LinuxHint už publikoval návod, ktorý vysvetľuje, ako nainštalovať a pochopiť školenie spoločnosti Tesseract.
Tento výukový program ukazuje proces inštalácie Tesseractu v systémoch Debian / Ubuntu, ale nerozšíri sa o tréningové funkcie, ak nie ste oboznámení s týmto softvérom, prečítanie spomínaného článku môže byť dobrým úvodom. Potom vám ukážeme, ako spracovať obrázok GIF pomocou Tesseractu, aby ste z neho dostali text.
Inštalácia Tesseract:
Spustiť:
apt nainštalovať tesseract-ocr
Teraz musíte nainštalovať imagemagick, ktorý je prevádzačom obrázkov.
Po nainštalovaní už môžeme testovať Tesseract, aby som ho otestoval, našiel som gif s licenciou na opätovné použitie.
Teraz sa pozrime, čo sa stane, keď spustíme tesseract na obrázku gif:
tesseract 2002NY40.gif 1výsledok
Teraz urobte „menej“ na 1 výsledok.TXT
menej 1výsledok.TXT
Tu je obrázok s textom:
V tomto prípade sú predvolené nastavenia Tesseractu dosť presné, zvyčajne na získanie takej presnosti je potrebné zaškolenie. Vyskúšajme ďalší bezplatný obrázok, ktorý som našiel na Wiki Commons, po stiahnutí spustiť:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2výsledok
Teraz skontrolujte obsah súboru.
menej 2výsledok.TXT
To bol výsledok, zatiaľ čo obsah pôvodného obrázka bol:
Aby sme vylepšili rozpoznávanie znakov, máme veľa možností a krokov, ktoré treba dodržať a ktoré sme podrobne opísali v našom predchádzajúcom výučbe: odstránenie okrajov, odstránenie šumu, optimalizácia veľkosti a rotácia stránky medzi ďalšími funkciami, ako je orezanie.
Pre tento tutoriál použijeme textcleaner, skript vyvinutý Fredom ImageMagick Script.
Stiahnite si skript a spustite:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.test gif.gif
Poznámka: pred spustením skriptu mu dajte povolenia na vykonávanie spustením „chmod + x textový čistič”Ako root alebo s sudo predpona.
Kde:
textový čistič: zavolá program
-g: Prevedie obrázok v odtieňoch sivej
-e: enache
-f: filtrovať
-s: sharpamt, množstvo zaostrenia pixelov, ktoré sa má použiť na výsledok.
Informácie a príklady použitia s textovým čističom nájdete na adrese http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Ako vidíte, program Textcleaner zmenil farbu pozadia a zvýšil tak kontrast medzi písmom a pozadím.
Ak spustíme tesseract, pravdepodobne bude výsledok iný:
tesseract test.testovací výstup gifmenší testovací výkon
Ako vidíte, výsledok sa skutočne zlepšil, aj keď nie je úplne presný.
Príkaz konvertovať poskytované programom imagemagick nám umožňuje extrahovať rámce z obrázkov gif, aby ich neskôr spracoval Tesseract, je to užitočné, ak sa v rôznych rámcoch obrázka gif nachádza extrahovateľný obsah.
Syntax je jednoduchá:
konvertovaťVýsledok sa vygeneruje ako počet súborov ako rámcov v gife, v uvedenom príklade by boli výsledky: výstup-0.jpg, výstup-1.jpg, výstup-2.jpg, atď.
Potom ich môžete spracovať pomocou programu tesseract a dať mu pokyn na spracovanie všetkých súborov so zástupným znakom a uloženie výsledku do jedného súboru spustením:
pre i vo výstupe *; urobiť tesseract $ i výstupný výsledok; hotový;Program Imagemagick má obrovskú škálu možností na optimalizáciu obrázkov a neexistuje všeobecný režim, pre každý druh scenára by ste si mali prečítať manuálovú stránku príkazu convert.
Dúfam, že vám tento návod na tému Tesseract vyšiel užitočný.