En 2019, seul un tiers des cabinets utilisait de manière significative l’extraction des pièces comptables par OCR* (reconnaissance optique des caractères).

L’usage de l’OCR consiste à la mise en place de gabarits à partir desquels les données des factures sont récupérées : pour chaque champ utile de la facture, des zones géographiques sont définies, et tous les mots qui entrent dans ces zones sont stockés avec une signification correspondant à la zone en question. Ainsi, par exemple, pour une facture particulière, un rectangle en bas à droite va être défini, et le système d’OCR ira systématiquement récupérer les caractères qui sont dans ce rectangle, et c’est ce qui sera interprété comme étant le montant Total HT de la facture.

Alors comment expliquer cette très lente progression de l’utilisation de l’OCR dans la saisie comptable ?  

Au travers des observations de nos data scientists, nous nous attaquons à une première idée reçue sur les factures : elles suivraient des formats standards, faciles à décrire et donc à figer dans l’espace, permettant ainsi à des systèmes déterministes à base d’OCR de récupérer les données de factures. Nous allons voir que la réalité est bien plus hétérogène, complexe et variable.

Où se trouvent les données ?

La détection de l’émetteur et du destinataire des factures est critique pour distinguer une facture d’achat d’une facture de vente, mais également pour affecter la dépense ou la vente au bon compte de tiers, réaliser le lettrage des écritures de banque.
Plusieurs éléments dans la facture permettent de détecter le tiers, il s’agit du nom de la société, une adresse, un RIB ou un SIREN. Nos observations ont été réalisées sur 200 000 factures contenant 20 000 fournisseurs, avec un mélange de factures d’achat et de vente (80%-20%), des factures (80%), des facturettes (13%), des factures manuscrites (5%), des avoirs (2%).

Comme le montre l’image suivante où chaque point correspondant à un exemple réel de positionnement de l’émetteur (en vert) et du destinataire (en rouge), Il en ressort que l’émetteur se trouve en partie haute ou en partie basse de la facture et que le destinataire est majoritairement en partie haute, mais aucun des deux n’est systématiquement "latéralisé", on les trouve sur toute la largeur de la facture. On constate également que la superficie de superposition des deux champs est importante, de l’ordre de 25% de la facture.

Répartition des SIRENs sur une facture

Cette première image illustre la grande difficulté du travail qui consisterait à isoler pour chaque type de facture la zone correspondant à l’émetteur et celle qui correspondant au destinataire (c’est ce que requiert les systèmes à base d’OCR).

On comprend bien avec cette illustration qu’une très grande quantité de gabarits serait nécessaire pour couvrir l’intégralité des cas représentés.

En réalité, nous retrouvons cette très grande hétérogénéité pour tous les champs utiles de la facture. Les images suivantes l’illustrent pour les dates de la facture, numéros de facture, montants HT d’une ligne et montants totaux HT. On peut constater que les dates et numéros de facture se trouvent principalement dans la partie haute de la facture, mais de nombreuses exceptions existent représentées par tous les points rouges et verts qui se détachent. Quant au montant HT des lignes il se trouve naturellement sur la partie de  droite, mais réparti sur toute la hauteur de la facture. En effet, les factures peuvent comporter plusieurs pages, les lignes articles ne se retrouvent donc pas uniquement en milieu de facture. Le Total HT est pour sa part plutôt en bas de facture, sur toute la largeur, mais compte tenu de la remarque précédente, on le retrouve également réparti sur la hauteur.

Position des données de la facture

Que conclure ?

Alors que peut-on conclure de ces observations ? Que la position géographique dans la facture n’est pas un critère suffisant pour déterminer la nature d’un mot, et que la lecture d’une facture ne consiste donc pas seulement à récupérer des mots dans des emplacements définis au préalable.  Lire une facture requiert une intelligence d’analyse capable de compiler un ensemble de paramètres tels que la position relative, les mots clés environnant, la taille de la police… en plus de la position géographique.

C’est ce qui est mis en oeuvre par les solutions à base d'Intelligence Artificielle, comme Conciliator Expert, et qui amènent aujourd’hui une véritable rupture technologique et permettent de lire tout type de facture, même des factures jamais vues auparavant.

Idée reçue sur les factures #1 : les factures ont des formats standards - LE MONDE DU CHIFFRE : le magazine de la profession comptable
Une tribune de Xavier Gaulle, VP Products chez Dhatim.

* Etude La Profession Comptable 2019 : l’extraction des pièces comptables par OCR est utilisée dans seulement un tiers des cabinets sur plus de 50% des dossiers.