Utilisation de l’Intelligence Artificielle pour traiter automatiquement les documents numérisés.

Depuis quelques temps, nous utilisons l’IA pour accélérer très fortement notre capacité de traitement en particulier pour les documents brefs ( coupures de presse, fiches). Nous effectuons des traitements par lots.

Les étapes clé sont

Reconnaissance de caractères
Analyse et extraction d’information, dont le résumé
Renommage des fichiers
Création de tableaux triés par date
Mise en ligne préliminaire
Corrections manuelles (dès que possible)

Les IA font encore beaucoup d’erreurs d’interprétation. Il est nécessaire de bien vérifier le document d’origine.
Les documents mal traités ont tendance à être en début et fin de tableau car il arrive que la date soit mal identifiée et très éloignée de la vérité. Les causes sont multiples :

scan de mauvaise qualité
document très abimé
mauvaise reconnaissance de caractères (mauvais scan, texte manuscrit, texte du verso visible en transparence, mélange entre des colonnes trop proches, etc… )
ambiguïté dans le texte
absence de la date dans le document (hallucination)
date cachée par un repli du papier au moment du scan (hallucination)
page volante esseulée (hallucination)
mauvaise interprétation du texte
annotations manuscrites sauvages qui perturbent l’interprétation
mauvais ordonnancement des pages

Voici les résultats de ces traitements

Voici les étapes du traitement si vous voulez tous les détails.

Sceau / Archives OVNI

Utilisation de l’Intelligence Artificielle pour traiter automatiquement les documents numérisés.

Sauvegarde et Conservation des Etudes et Archives Ufologiques