Depuis quelques temps, nous utilisons l’IA pour accélérer très fortement notre capacité de traitement en particulier pour les documents brefs ( coupures de presse, fiches). Nous effectuons des traitements par lots.
Les étapes clé sont
- Reconnaissance de caractères
- Analyse et extraction d’information, dont le résumé
- Renommage des fichiers
- Création de tableaux triés par date
- Mise en ligne préliminaire
- Corrections manuelles (dès que possible)
Les IA font encore beaucoup d’erreurs d’interprétation. Il est nécessaire de bien vérifier le document d’origine.
Les documents mal traités ont tendance à être en début et fin de tableau car il arrive que la date soit mal identifiée et très éloignée de la vérité. Les causes sont multiples :
- scan de mauvaise qualité
- document très abimé
- mauvaise reconnaissance de caractères
- ambiguité dans le texte
- absence de la date dans le document (hallucination)
- date cachée par un repli du papier au moment du scan (hallucination)
- page volante esseulée (hallucination)
- mauvaise interprétation du texte
- annotations manuscrites sauvages qui perturbent l’interprétation
Voici les résultats de ces traitements
Voici les étapes du traitement si vous voulez tous les détails.