Google a donc ressorti une version, en open source bien entendu, d’un logiciel de reconnaissance optique de caractères (OCR). Il s'agit d'un programme initialement appelé Tesseract qui avait été développé par HP entre 1985 et 1995.

Dans un communiqué, Google a déclaré que ce projet s’intégrait parfaitement à la stratégie du groupe qui consiste à fournir des informations en ligne, anticipant ainsi les doutes que pourraient avoir certains sur le bien-fondé d’une telle initiative.
Google justifie cette mise à jour par le fait que l'OCR s'intègre dans leur stratégie consistant à fournir de l'information à la disposition des utilisateurs. "Lorsque ces informations sont uniquement disponibles au format papier, l’OCR est l’unique moyen de convertir les pages du document en texte exploitable pour l’indexation", écrit Eric Case. "Nous avons corrigé les défauts les plus évidents et avons décidé il y a quelques mois que le programme OCR Tesseract était suffisamment stable pour être republié en open source."
Google pensait rester discret à propos de cette sortie, pour finalement la divulguer en invitant ses ingénieurs à collaborer.
Le logiciel est actuellement uniquement disponible en anglais et ne répond pas aux critères de précision des meilleurs programmes OCR actuellement présents dans le commerce. "Mais pour autant que l’on sache, Tesseract est de loin le plus précis des programmes OCR open source actuels, et ce en dépit de ses lacunes", conclut Eric Case.
Aucun commentaire:
Enregistrer un commentaire