Synthèse du projet
Extraction automatique du tableau des filiales et participations des comptes sociaux des entreprises | |
---|---|
Détail du projet | Une expérimentation autour de l’extraction automatisée du tableau des filiales et participations des comptes sociaux des entreprises a été démarrée en 2022 à la suite d’un stage dans la division PTGU. Ce tableau est exploité à la main au cours des opérations de profilage des entreprises, ce qui constitue un travail fastidieux. L’expérimentation a été menée avec la Banque de France qui est intéressé par le même cas d’usage que l’Insee, avec deux objectifs principaux : - développer un prototype d’application permettant à des utilisateurs de récupérer un tableau des filiales et participations automatiquement pour un numéro Siren et une année donnés ; - comparer les performances de différentes méthodes d’extraction automatique de tableaux, basées d’une part sur des outils open-source et d’autre part sur des solutions commerciales. |
Acteurs | Insee (DSE), Inpi, Banque de France |
Résultats du projet | - Une API expérimentale et une interface expérimentale ont été mises en place pour répondre au besoin métier. - Le projet a par ailleurs été présenté le 27 juin 2024 à un séminaire interne Insee slides |
Code du projet | - https://github.com/InseeFrLab/ca-document-querier/ : wrapper Python autour de l’API entreprises de l’Inpi - https://github.com/InseeFrLab/extraction-comptes-sociaux : dépôt « core » où se trouvent les éléments pour la détection de page/extraction de tableaux - https://github.com/InseeFrLab/extract-table-ui : dépôt de code de l’interface expérimentale - https://github.com/InseeFrLab/extraction-comptes-sociaux-llm : code source de l’architecture globale, comprenant des microservices conteneurisés et orchestrés par Kubernetes. Il combine des appels à des API externes (INPI), le traitement de PDF, et l’utilisation de modèles de langage (LLM) pour l’analyse et l’extraction de données. |