Archives de catégorie : Nouvelles

Utilisation de l’Intelligence Artificielle pour traiter automatiquement les documents numérisés.

Depuis quelques temps, nous utilisons l’IA pour accélérer très fortement notre capacité de traitement en particulier pour les documents brefs ( coupures de presse, fiches). Nous effectuons des traitements par lots.

Les étapes clé sont

  • Reconnaissance de caractères
  • Analyse et extraction d’information, dont le résumé
  • Renommage des fichiers
  • Création de tableaux triés par date
  • Mise en ligne préliminaire
  • Corrections manuelles (dès que possible)

Les IA font encore beaucoup d’erreurs d’interprétation. Il est nécessaire de bien vérifier le document d’origine.
Les documents mal traités ont tendance à être en début et fin de tableau car il arrive que la date soit mal identifiée et très éloignée de la vérité. Les causes sont multiples :

  • scan de mauvaise qualité
  • document très abimé
  • mauvaise reconnaissance de caractères
  • ambiguité dans le texte
  • absence de la date dans le document (hallucination)
  • date cachée par un repli du papier au moment du scan (hallucination)
  • page volante esseulée (hallucination)
  • mauvaise interprétation du texte
  • annotations manuscrites sauvages qui perturbent l’interprétation

Voici les résultats de ces traitements

Voici les étapes du traitement si vous voulez tous les détails.