Doxallia et le Datalab expérimentent l’IA pour l’extraction de données documentaires

  • Dox'Alliance

Entretien avec Yasser Aidarous de l’équipe Extraction et Enrichissement, de la Squad Dématérialisation des Processus.

Entretien avec Yasser Aidarous de l’équipe Extraction et Enrichissement, de la Squad Dématérialisation des Processus.

"NOUS AVONS AMÉLIORÉ LA RECONNAISSANCE ET L’EXTRACTION AUTOMATIQUE DES CONTENUS DOCUMENTAIRES GRÂCE À L’IA."

Peux-tu nous expliquer l’origine de ce projet ?

L’origine de ce projet remonte à la solution FACDEB, développée par Doxallia il y a plusieurs années pour faciliter le déblocage de crédits basés sur des factures de travaux immobiliers. Cette solution reposait sur un système de RAD/LAD (ADDOC) sans intelligence artificielle. Toutefois, ses performances, notamment en termes de reconnaissance initiale automatisée, n’étaient plus satisfaisantes.
Nous avons donc identifié un besoin critique d’amélioration pour renforcer la reconnaissance automatique et l’extraction du contenu des documents, en s’appuyant sur l’IA. Pour cela, l’équipe Extraction/Enrichissement s’est rapprochée du DataLab Groupe afin de développer une solution IA spécifique.

Quels étaient les principaux défis ou problèmes à résoudre avec ce POC ?

Le premier défi était de convaincre et d’obtenir l’autorisation de trois Caisses Régionales (CA Atlantique Vendée, CA Centre Est et CA Centre France) pour utiliser des documents issus de la production afin de constituer une base d’apprentissage représentative.
Ensuite, il était nécessaire de construire cette base documentaire, en incluant des dizaines de milliers de documents, afin d’assurer un apprentissage robuste. Les objectifs clés incluaient :
• Améliorer les performances de reconnaissance de +30 % grâce à l’IA.
• Augmenter la qualité des valeurs reconnues.
• Réduire les tâches de saisie manuelle pour permettre aux opérateurs de se concentrer sur le contrôle.

Quelle méthodologie avez-vous adoptée pour ce POC ?

Le projet a été organisé en deux étapes principales :

1. Une première phase de validation sur un échantillon restreint de 327 documents,
afin d’évaluer la pertinence du modèle cible.

2. Une mise à l’échelle sur une base beaucoup plus large de 13 000 documents pour tester la robustesse et l’adaptabilité du modèle.

Quelles technologies ont été déployées, et quel a été le rôle du DataLab Groupe ?

Nous avons utilisé le modèle d’extraction G3, qui repose sur une approche end-to-end sans OCR, permettant de réduire les coûts d’annotation et d’augmenter la robustesse face aux variations des templates. Ce modèle utilise uniquement des paires clés/valeurs pour l’apprentissage, ce qui simplifie considérablement les processus précédents.

Le DataLab a été un partenaire stratégique. Il a mobilisé des compétences en data science et en ingénierie ML pour développer et calibrer le modèle. Leur travail a permis d’obtenir des résultats préliminaires convaincants, avec un taux d’extraction correcte de 77,4 % sur l’échantillon initial.

Quels ont été les résultats obtenus ?

Le POC a dépassé nos attentes initiales. Nous avons observé une nette amélioration des performances grâce à l’intégration de l’IA. Le modèle G3 s’est montré capable de gérer efficacement les variations dans les templates de factures et a fourni des résultats stables dans un environnement limité.

Quels sont les principaux bénéfices de ce projet ?

Pour l’entreprise, ce projet a permis une réduction significative des coûts opérationnels en diminuant le besoin d’annotations complexes. Le traitement des factures est plus rapide et précis, ce qui augmente globalement l’efficacité des processus.

Pour les utilisateurs finaux, notamment les opérateurs, le projet a permis de réduire la charge de travail liée à la saisie manuelle, leur donnant plus de temps pour se concentrer sur des contrôles à plus forte valeur ajoutée.

"LE PROJET OFFRE DES OPPORTUNITÉS POUR DIGITALISER ET OPTIMISER LES PROCESSUS DOCUMENTAIRES, AVEC UN POTENTIEL RÉPLICABLE À DE NOMBREUX AUTRES TYPES DE DOCUMENTS."

Quelles leçons tirez-vous de cette expérience, et quelles sont les prochaines étapes ?

Ce projet a mis en évidence l’importance d’une collaboration fluide entre les équipes techniques et métiers. L’intégration de l’IA, lorsqu’elle est ciblée sur un besoin précis, peut transformer significativement des processus complexes.

Les prochaines étapes incluent des tests sur des données de production afin de valider la scalabilité du modèle. De plus, nous explorons la possibilité d’étendre cette solution à d’autres types de documents comme les bons de commande ou les tickets de caisse.

Ce projet ouvre des perspectives prometteuses pour la digitalisation et l’optimisation des processus documentaires. Cette expérience peut être répliquée sur d’autres usages du traitement documentaire.

Le projet IA 3G Facdeb a été rendu possible grâce à une collaboration étroite des équipes de Doxallia et du DataLab Groupe.