Plateforme PaaS des hyperscalers versus plateforme PaaS BTP (ex SCP) de SAP, que choisir ?
Ces dernières années ont vu émerger les plateforme Paas généralistes telles qu’AWS, Azure, Google et plus récemment les plateforme Paas des grands éditeurs de progiciels tels que SAP.
A cela se rajoute une offre très abondante de briques Open Source.
Cela offre aux entreprises un choix très vaste pour répondre à leurs besoins d’applications spécifiques mais complique aussi leurs choix et nous constatons que face à la pression des fournisseurs qui cherchent à mettre en avant leurs solutions les DSI ont du mal à y voir clair.
A travers un service particulier proposé par ces plates-formes : la reconnaissance de caractère (OCR), l’objectif de cet article est de mettre en évidence les principales caractéristiques de 3 approches et de montrer que le choix entre elles relève finalement d’une alternative « make or buy ».
Les Plateformes Paas généralistes (OCR cloud d’extraction des données brutes)
Cette solution génère un fichier .Json, plus précis que le fichier texte, ce qui en fait un outil beaucoup plus précis que l’OCR local, avec de bonnes performances même en cas de documents flous ou mal scannés. Il s’agit d’un outil distant, qui demande une connexion vers le cloud. Le document scanné est envoyé à l’OCR cloud, qui répond par un fichier .Json. Ce type de fichier a comme avantage d’être plus précis qu’un fichier texte, car il contient en plus des caractères, des informations de position du texte dans la page sous forme de boîtes englobantes, ce qui permet d’en manipuler les coordonnées. Certaines versions mettent à disposition une autre information utile : un indice de confiance dans la détection des caractères, qui permet de juger de la probabilité d’erreur. Les informations relatives à la disposition des éléments dans la page sont hiérarchisées selon différents niveaux de précision : paragraphe, ligne, mot, et caractère par exemple. Il existe plusieurs API pour implémenter cette solution, comme G vision et MS Azure. Elles offrent toutes deux un bon niveau de performance, avec une extraction de la donnée en moins de 5 secondes. D’autres API comme Recognition par Amazon sont moins performantes.
Plateformes Paas des éditeurs de progiciels. (OCR cloud clé en main)
Les OCR cloud clef en main eux, ne demandent pas cette première étape. Ils se charge de réaliser tout le le travail de la chaîne et restitue directement les informations des champs demandés.
2) Analyse sémantique du fichier généré pour identifier les champs pertinents
-
- Les OCR Open Source :
Pour cette solution, pour une moindre performance, le seul coût est fixe : un coût d’intégration non négligeable afin d’écrire le fichier template de récupération des données souhaitées. Cette solution est la moins performante, mais dès lors qu’on atteint un volume pour lequel son coût d’intégration est inférieur à la facturation de la plateforme Paas des éditeurs de progiciels, elle est la moins chère de toutes.
-
- Les Plateformes Paas généralistes (OCR cloud d’extraction des données brutes)
Pour cette solution, il y a un coût fixe d’intégration non négligeable afin de développer le script maison de récupération des données souhaitées, et un coût variable de facturation du service cloud, en fonction du nombre de documents traités (relativement accessible : environ 1$50 les 1000 documents scannés).
Ainsi, quand le volume de documents est important, elle est moins chère que la solution des plateformes Paas des éditeurs de progiciels, pour une performance équivalente.
-
- Plateformes Paas des éditeurs de progiciels. (OCR cloud clé en main)
Pour cette solution, en l’absence d’effort d’intégration, le seul coût est celui de la facturation, en fonction du nombre de documents traités.
Ainsi, pour un volume faible, la Plateforme Pass des éditeurs de progiciels est à la fois la moins chère et la plus performante des solutions. En revanche, pour un volume élevé, elle est la plus chère de toutes.
A noter par ailleurs que si l’utilisation attendue sort du champ pour laquelle la plate-forme a été conçue, la valeur ajoutée apportée par l’analyse sémantique proposée par l’éditeur devient sans intérêt et la plate-forme perd de son intérêt par rapport aux plateformes Paas généralistes. Ainsi une telle plate-forme peut faire gagner beaucoup de temps à l’entreprise pour de la reconnaissance de facture fournisseur si elle a été prévue pour cela mais perdra de son intérêt si l’entreprise veut l’utiliser pour reconnaitre des tickets de caisses si la plate-forme n’a pas prévu ce cas de figure.
Que choisir ?
POUR UN VOLUME FAIBLE ou un besoin assez standard
Assez faible pour que le coût facturé de la solution Paas des éditeurs de progiciels descende en dessous du coût d’intégration supérieur de la solution Paas généraliste, voire de la solution OCR Open Source.
POUR UN VOLUME ELEVE ou des besoins très spécifiques
Assez élevé pour que le coût facturé de la solution Paas des éditeurs de progiciels soit supérieur au coût d’intégration de la solution Paas généraliste et de la solution OCR Open Source.