Izvor: ITsvet.com, 05.Nov.2008, 16:37 (ažurirano 02.Apr.2020.)
OCR tehnologija za skenirani PDF
Kompanija Google već nekoliko godina površno radi na OCR tehnologijama bez nekih većih rezultata a ovih dana Google je i zvanično predstavio svoj sledeći pokušaj da se na tržištu bolje kotira po tom pitanju. Kompanija sada vrši OCR na dokumentima koji označeni i koji se identifikuju kao skenirani PDF fajlovi ali problem je to što se postojeći tekst na dokumentima skladišti u vidu slika. Google je odlučio da je open-source OCRopus tehnologija koja je bazirana na softveru koji nosi naziv „Tesseract“ i koja je razvijena od strane kompanije HP dorasla tom zadatku i da će obezbediti označavanje skeniranih dokumenata koji sadrže kombinaciju teksta i slika.