Comment avoir une vue exhaustive de toutes les données présentes dans mon entreprise ?

par | 14 mai 2024 | Data

Comment avoir une vue exhaustive de toutes les données présentes dans mon entreprise ?

Avez-vous parfois l’impression que votre entreprise est confrontée à un véritable déluge de données ? Pas d’inquiétude, vous n’êtes pas seul. Selon une étude Oracle, 86% des responsables IT au niveau mondial, cette augmentation du volume de données rend la prise de décisions bien plus compliquée. Pour relever ce défi, il faut réussir à « digérer » efficacement cette masse d’informations. Car si la digitalisation des services internes est un vrai facteur clé de performance, il n’en reste pas moins indispensable de cartographier et de comprendre votre patrimoine data dans son intégralité.

Oui, les volumes de données ont explosé, mais les sources se sont aussi multipliées, et sont loin d’être toutes connues

L’explosion des volumes de données (le fameux Big Data) est aujourd’hui un phénomène bien connu et documenté. Cependant, ce qui est souvent négligé, c’est la prolifération des sources de données au sein des entreprises, même de petite taille. Chaque nouveau système, application ou service déployé apporte son lot de données, de manière plus ou moins inattendue et plus ou moins maîtrisée.

Le Shadow IT est particulièrement préoccupant à cet égard. Il fait référence à l’utilisation d’applications, de services ou de solutions informatiques non approuvées par les équipes informatiques de l’entreprise. Ces initiatives, bien que souvent motivées par des besoins légitimes de certains salariés, échappent au contrôle et à la supervision des équipes compétentes, créant ainsi des « poches » de données inconnues et non répertoriées, tout en augmentant de manière anarchique la surface d’attaque de l’entreprise.

Ex : un service marketing décide d’utiliser un outil en ligne pour gérer ses campagnes promotionnelles. Bien que pratique, cette solution non validée par les équipes IT peut entraîner la création d’une base de données contenant des informations sensibles sur les clients, sans que personne n’en ait connaissance au niveau de l’entreprise… Pour le respect de la RGPD on repassera.

La Business Intelligence pour consolider et visualiser… mais encore faut-il savoir où sont mes données !

La Business Intelligence est souvent présentée comme la panacée pour exploiter au mieux les données de l’entreprise. Certes elle promet de consolider ces données, de les rendre accessibles et compréhensibles grâce à des outils de visualisation puissants.

Cependant, avant même de pouvoir mettre en œuvre ces solutions, une étape fondamentale s’impose : identifier et comprendre l’ensemble des sources de données présentes dans l’entreprise, condition sine qua non pour en tirer des insights pertinents et fiables.

Sans cette connaissance préalable, il est impossible de garantir que les analyses et les rapports fournis par les outils de BI soient complets et représentatifs de la réalité de l’entreprise.

Imaginez que vous ne disposiez que d’une partie des pièces d’un puzzle : vous auriez beau les assembler avec soin, l’image finale resterait incomplète et donc trompeuse !

Connaitre son patrimoine de données implique de le cartographier sur l’ensemble du Système d’Information

On ne va pas vous mentir, cartographier son patrimoine de données n’est pas une tâche aisée, malgré tout, il s’agit d’une étape indispensable pour avoir une vision d’ensemble de vos « actifs informationnels ». Cela implique de passer en revue l’ensemble de votre SI, en identifiant toutes les sources de données potentielles, qu’elles soient structurées…ou non. Pour rappel :

  • Données structurées : Il s’agit des données stockées dans des bases de données relationnelles, des entrepôts de données ou des data lakes. Ces données sont généralement bien connues et documentées, car elles sont utilisées par les applications métier critiques de l’entreprise.
  • Données non structurées : Cette catégorie englobe les données stockées sous forme de fichiers (documents, feuilles de calcul, présentations, etc.), de courriels, de contenus multimédia ou encore de flux de données provenant d’objets connectés (IoT). Ces données sont souvent négligées, car elles sont perçues (à tort) comme moins importantes ou moins exploitables que les données structurées.

Petit aparté, on parle ici également de Data Discovery, ou l’art de découvrir, classifier et simplifier ses données, pour justement améliorer la cartographie de ces dernières. A ce sujet, vous pourrez découvrir dans cet article des conseils pour mettre en place une démarche de Data Discovery.

Bref, vous l’aurez compris, ignorer ces données non structurées serait une erreur majeure. Elles peuvent contenir des informations précieuses pour votre entreprise, que ce soient des connaissances métier, des insights clients ou des données opérationnelles critiques.

Une fois toutes ces sources identifiées, il est essentiel de les documenter et de les comprendre en profondeur. Cela implique de répondre à des questions telles que :

  • Quelles sont les entités métier représentées par ces données ?
  • Quelle est la qualité de ces données (complétude, cohérence, intégrité, etc.) ?
  • Quelles sont les règles métier et les contraintes associées à ces données ?
  • Qui sont les propriétaires et les utilisateurs de ces données ?

 

Le traitement de tout ce patrimoine ne vient qu’ensuite : les solutions

Une fois que vous avez réalisé votre cartographie data, vous pouvez entamer les étapes suivantes visant à exploiter ces données de manière optimale à l’aide de solutions type MDM ou référentiel de données.

MDM

L’objectif d’une solution MDM (Master Data Management) est d’assurer la cohérence, la qualité et la fiabilité des données clés de votre entreprise, telles que les données clients, produits, fournisseurs, etc.

Vous pouvez ainsi :

  • Consolider et dédupliquer les données maîtres provenant de différentes sources
  • Appliquer des règles de qualité et de gouvernance sur ces données
  • Fournir une vue unifiée et à jour de ces données à l’ensemble de votre entreprise

Référentiels de données

Les référentiels de données sont des sources centralisées qui stockent et gèrent les définitions, les règles et les métadonnées associées à vos données. Ils jouent un rôle majeur dans la compréhension et l’exploitation de votre patrimoine de données.

En créant un (ou des) référentiel(s) de données, vous pourrez :

  • Documenter de manière centralisée toutes les entités métier, leurs attributs et leurs relations
  • Définir et appliquer des règles de qualité, de sécurité et de gouvernance sur ces données
  • Faciliter la collaboration et la communication autour de ces données entre les différentes équipes de l’entreprise

La mise en place de politiques de gouvernance pour assurer la cohérence et la complétude des données

Dernière étape de la démarche : la gouvernance des données, ensemble de processus, de politiques et de contrôles visant à assurer la qualité, la sécurité, la conformité et l’utilisation appropriée des données au sein de votre entreprise.

Pour vous permettre d’y voir plus clair, voici quelques exemples de politiques de gouvernance des données que vous pourriez mettre en place :

Qualité des données

Ces politiques définissent les règles et les processus pour garantir la qualité des données, telles que la complétude, la cohérence, la précision et l’intégrité. Elles peuvent inclure des contrôles automatisés, des processus de validation et de correction, ainsi que des indicateurs de qualité à suivre.

Sécurité et de confidentialité des données

Ces politiques visent ici à protéger la confidentialité, l’intégrité et la disponibilité de vos données sensibles. Elles peuvent inclure des mesures de contrôle d’accès, de chiffrement, de journalisation, ainsi que des processus de gestion des incidents de sécurité.

Gestion du cycle de vie des données

L’objectif est ici de définir les règles et les processus pour gérer le cycle de vie complet de vos données, de leur création à leur archivage ou leur suppression. Elles peuvent inclure des règles de rétention, d’archivage, de sauvegarde et de restauration des données.

Partage et d’utilisation des données

Ces politiques régissent la manière dont les données peuvent être partagées et utilisées au sein de votre entreprise, ainsi qu’avec des parties externes. Elles peuvent inclure des règles d’accès, des processus d’approbation, des accords de partage de données et des formations sur l’utilisation éthique et responsable des données.