OCR tehnologija za skenirani PDF

Izvor: ITsvet.com, 05.Nov.2008, 16:37   (ažurirano 02.Apr.2020.)

OCR tehnologija za skenirani PDF

Kompanija Google već nekoliko godina površno radi na OCR tehnologijama bez nekih većih rezultata a ovih dana Google je i zvanično predstavio svoj sledeći pokušaj da se na tržištu bolje kotira po tom pitanju. Kompanija sada vrši OCR na dokumentima koji označeni i koji se identifikuju kao skenirani PDF fajlovi ali problem je to što se postojeći tekst na dokumentima skladišti u vidu slika. Google je odlučio da je open-source OCRopus tehnologija koja je bazirana na softveru koji nosi naziv „Tesseract“ i koja je razvijena od strane kompanije HP dorasla tom zadatku i da će obezbediti označavanje skeniranih dokumenata koji sadrže kombinaciju teksta i slika.

Nastavak na ITsvet.com...






Napomena: Ova vest je automatizovano (softverski) preuzeta sa sajta ITsvet.com. Nije preneta ručno, niti proverena od strane uredništva portala "Vesti.rs", već je preneta automatski, računajući na savesnost i dobru nameru sajta ITsvet.com. Ukoliko vest (članak) sadrži netačne navode, vređa nekog, ili krši nečija autorska prava - molimo Vas da nas o tome ODMAH obavestite obavestite kako bismo uklonili sporni sadržaj.