Utilisation de l’Intelligence Artificielle pour traiter automatiquement les documents numérisés.

Depuis quelques temps, nous utilisons l’IA pour accélérer très fortement notre capacité de traitement en particulier pour les documents brefs ( coupures de presse, fiches). Nous effectuons des traitements par lots.

Les étapes clé sont

  • Reconnaissance de caractères
  • Analyse et extraction d’information, dont le résumé
  • Renommage des fichiers
  • Création de tableaux triés par date
  • Mise en ligne préliminaire
  • Corrections manuelles (dès que possible)

Les IA font encore beaucoup d’erreurs d’interprétation. Il est nécessaire de bien vérifier le document d’origine.
Les documents mal traités ont tendance à être en début et fin de tableau car il arrive que la date soit mal identifiée et très éloignée de la vérité. Les causes sont multiples :

  • scan de mauvaise qualité
  • document très abimé
  • mauvaise reconnaissance de caractères
  • ambiguité dans le texte
  • absence de la date dans le document (hallucination)
  • date cachée par un repli du papier au moment du scan (hallucination)
  • page volante esseulée (hallucination)
  • mauvaise interprétation du texte
  • annotations manuscrites sauvages qui perturbent l’interprétation

Voici les résultats de ces traitements

Voici les étapes du traitement si vous voulez tous les détails.