indexGUI

indexGUI est un petit outil écrit en python (because python, like bow tie, is cool) permettant d'indexer des documents. Il est principalement conçu pour les enseignants mais il peut être adapté pour d'autres utilisations.

Attention : ce programme est codé avec les pieds. Il constitue mon deuxième essai de plus de 20 lignes en python. ... mais j'apprends.

A partir d'une simple ligne de commande, il est possible d'extraire et d'indexer le texte de plusieurs types de documents :

  • images png, tiff, jpg ou bmp (en utilisant tesseract-ocr)
  • documents pdf (en utilisant slate qui utilise pdfminer)
  • documents texte

Utilisation :

Ajout d'un document :

./indexGUI --cmd add /path/to/my/document

Recherche d'un document contenant le terme coucou :

./indexGUI --cmd find --content coucou /path/to/my/document

Pour peu que wxPython soit installé, il y a aussi une GUI :

Add panel Find panel Find results

Une aide en ligne façon svn est fournie (merci argparse) :

./indexGUI.py --cmd add --help

ou bien

./indexGUI.py --cmd find --help

Installation indexGUI utilise de nombreuses bibliothèques et programmes externes. Il vous faudra installer les logiciels suivant :

  • whoosh
  • pyPdf
  • P.I.L.
  • wxPython
  • tesseract-ocr

Les autres bibliothèques non installables par un simple apt-get install sont incluses dans les sources. Pour plus d'information sur les versions utilisées, reportez vous à la documentation (section download juste en dessous).

Downloads :

Remerciements

indexGUI utilise de nombreuses bibliothèques python. Merci à ces projets :