Introduction .............................................................................................................................................. 1Le capital de l’entreprise.......................................................................................................................... 2Le coût de la non-qualité...................................................................................................................... 2Saisir des données de qualité .......................................................................................................... 3Exploiter des données de qualité ..................................................................................................... 4Analyser des données de qualité ..................................................................................................... 5Un enjeu stratégique ............................................................................................................................... 6Un enjeu de l’informatique seulement ? ........................................................................................... 6L’initiative Qualité des Données .............................................................................................................. 7La méthode .......................................................................................................................................... 7Définir la qualité ? ................................................................................................................................ 8Données, informations et connaissances ........................................................................................ 8Qualité des données ........................................................................................................................ 9Indicateurs et Mesures ................................................................................................................... 10La gouvernance ................................................................................................................................. 11Rôles de la direction générale et des directions opérationnelles................................................... 11Le comité Qualité des Données ..................................................................................................... 11Le socle technologique .......................................................................................................................... 12Les fonctions des outils...................................................................................................................... 12Une infrastructure de qualité.............................................................................................................. 14Scénarios de mise en œuvre......................... ........................................................................................ 15Business intelligence & Data Warehouse ...................................................................................... 15Conformité réglementaire............................................................................................................... 16Données de référence (Master Data)............................................................................................. 17Service aux clients ......................................................................................................................... 17Consolidation et intégration............................................................................................................ 17L’offre Qualité de Données d’Informatica .............................................................................................. 19Informatica Data Explorer .................................................................................................................. 20Analyser..........................................................................................................................................20Aligner ............................................................................................................................................ 20Informatica Data Quality .................................................................................................................... 20Nettoyer..........................................................................................................................................20Maintenir.........................................................................................................................................20Services ............................................................................................................................................. 21Méthodologie..................................................................................................................................21Offres de services .......................................................................................................................... 21Conclusion ............................................................................................................................................. 22
i
Table des figures
Figure 1 - Saisir des données de qualité.. . 3 Figure 2 - Valeur de la qualité dans une campagne marketing............................................................... 4Figure 3 - Exemples de famille de données ............................................................................................ 8Figure 4 - Les dimensions de la qualité des données ............................................................................. 9Figure 5 - Exemples d'indicateurs de qualité ........................................................................................ 10Figure 6 - Mesures d’un indicateur ........................................................................................................ 10Figure 7 - Comité Qualité des Données ............................................................................................... 11Figure 8 - Un processus de qualité ....................................................................................................... 13Figure 9 - Les services de qualité des données.................................................................................... 14Figure 10 - Le processus de gestion de la qualité des données d'Informatica ..................................... 19
ii
Introduction
Dans un contexte où les défis des entreprises et administrations sont de plus en plus nombreux, disposer d’un capital de données de qualité devient une nécessité incontournable. Déferlement d’informations sans précédent, pressions réglementaires, exigences de contrôle interne, cohérence des échanges avec les partenaires, satisfaction des clients sont autant de défis à relever par les entreprises. La maîtrise de la qualité des données est désormais un enjeu important. Il s'agit de fournir des données correctes, complètes, à jour et cohérentes tout en mettant en place des indicateurs compréhensibles, faciles à communiquer, peu coûteux et simples à calculer. La direction générale et ses directions métiers doivent disposer d'une vision unifiée et exploitable des informations, afin de prendre les bonnes décisions au moment opportun. Pourtant, la gestion de la qualité des données reste essentiellement du domaine de la direction informatique. Historiquement, les systèmes d’informations ont conçu des applications pour traiter les données élémentaires de l’entreprise. Aujourd’hui, les directions métiers demandent à l’informatique de leur mettre à disposition des tableaux et indicateurs basés sur ces traitements et ces applications. Mais que se passe-t-il si les données issues des applications sont erronées, tronquées ou redondantes ? La direction informatique peut-elle connaître les règles métiers associés au domaine fonctionnel ? Une réponse technologique n’est pas suffisante et il est clair que les directions métiers doivent aussi s’impliquer fortement dans cette gestion. Les responsables fonctionnels et les équipes de la direction informatique doivent mettre leur force en commun pour développer un programme de gestion de la qualité des données. Mais avant de se lancer dans l'aventure, plusieurs questions se posent. Comment réaliser des référentiels au service de la qualité des données clients, fournisseurs et partenaires ? Quelles sont les bonnes pratiques en matière de gestion des données ? Ce livre blanc décrit la problématique de la qualité des données du point de vue des directions métiers. Au-delà de la simple vue informatique, il explicite l’impact métier d’un manque de données de qualité. Il décrit des moyens de mise en place d’une politique de qualité des données et présente des scénarios de mise en œuvre de cette politique.
Aujourd’hui, l’entreprise privée ou publique aujourd’hui est confrontée à un défi de flexibilité. D’un coté, elle doit s’adapter rapidement à un environnement changeant, dans lequel le temps et les distances diminuent, les opportunités doivent être saisies immédiatement, les réglementations s’accumulent. Dans ce contexte non stabilisé, l’entreprise est confrontée au défi de l’adaptation permanente : détecter les fenêtres d’opportunités afin de bénéficier d’un avantage concurrentiel, augmenter l’innovation pour différencier sa proposition de valeur par rapport à la concurrence, analyser son environnement afin de prendre les bonnes décisions au bon moment, rationaliser son organisation et ses processus internes pour améliorer sa productivité, intégrer les interactions avec ses partenaires et fournisseurs afin de réduire les délais et de faciliter les processus. De l’autre, cette nécessité de rapidité et de flexibilité doit reposer sur un environnement rigoureux. En effet, l’entreprise doit s’appuyer sur une gouvernance, un ensemble de règles de prises de décision, de transparence et de surveillance qui lui permettent de contrôler son fonctionnement. Le comité exécutif doit pouvoir prendre les décisions stratégiques en s’appuyant sur des éléments fiables. Il est important de minimiser la prise de risque en mettant en place des moyens effectifs de contrôle. Le pilotage de l’organisation nécessite la manipulation d’indicateurs fidèles et à jour de l’activité. Enfin, l’entreprise doit pouvoir justifier et garantir sa conformité aux réglementations, lois et régulations. Au cœur de ce système complexe, cette organisation aux multiples facettes, sont les données que l’entreprise récolte, génère, manipule, alimente et publie. Clients, produits, fournisseurs, transactions de vente : toutes ces entités doivent être décrites et suivies d’une manière ou d’une autre. C’est à partir de ces données que l’entreprise évalue les opportunités qui se présentent à elle. La direction générale base ses décisions sur leur analyse exhaustive. Tous les collaborateurs les manipulent dans le cadre de l’exécution de leurs tâches et activités. Les partenaires les synchronisent avec leurs données internes afin de coordonner les actions. Les clients les consultent pour interagir avec l’entreprise. Enfin, les observateurs les analysent pour évaluer la santé financière et économique de l’entreprise. Avec les technologies de l’information, la sophistication de l’usage des données par les entreprises et les gouvernements s’est développée de manière exponentielle. Les fournisseurs de solutions technologiques ont créé beaucoup de termes, de concepts, de produits pour répondre à ce besoin : système d’aide à la décision, entrepôt de données, gestion de la relation client, business intelligence, gestion des données de référence (MDM). Mais, en tout état de cause, le besoin reste fondamental, les organisations doivent optimiser l’usage de leur données pour augmenter leur efficacité d’aujourd’hui et améliorer la stratégie de demain. Pourtant, la qualité des données est rarement une priorité pour les organisations. Il est fréquent d’entendre des remarques telles que « Nos données sont de qualité suffisante » ou « On les nettoiera plus tard ».
Le coût de la non-qualité Les données contribuent au succès de l’activité de l’entreprise. Leur qualité représente donc un enjeu critique pour l’entreprise dans les trois étapes de leur cycle de vie : · lors de la saisie ·au cours des transformations et agrégations · l’analyse et la présentation des résultats pendant
Tokyo Stock Exchange Le deuxième groupe bancaire japonais, Mizuho, a perdu 286 millions d’euros . pour une faute de frappe. En décembre 2005, lors de l’introduction en bourse d’une petite société, J-Com, un courtier de cette banque avait placé 610 000 titres à 1 yen au lieu de vendre 1 titre à 610 000 yens. L’erreur n’avait pas pu être rattrapée à temps par les services informatiques de la bourse de Tokyo (TSE). Le patron de TSE, Takuo Tsurushima, démissionna un mois plus tard.
Exploiter des données de qualité Dans sa démarche de flexibilité, l’entreprise recherche l’efficacité opérationnelle. L’exploitation de données de qualité permet d’optimiser la participation et les interactions entre tous les collaborateurs au-delà des frontières administratives ou techniques. Pourtant, beaucoup d’entreprises négligent d’analyser la qualité de leurs données, ce qui les conduit à exploiter des données fausses ou erronées. Les silos applicatifs restent nombreux, rendant difficile le partage et l’intégration des données. Cela entraine de nombreux impacts sur le pilotage et la performance de l’entreprise. Les exemples sont nombreux dans tous les secteurs d’activité aussi bien au sein des entreprises privées que publiques. En 1999, la NASA3a perdu le satellite Mars Climate Orbiter à cause de données erronées. En effet, le satellite fut détruit pendant sa mise en orbite autour de Mars à une altitude de 50 km de la surface (l’altitude normalement prévue était de 150 km) par les turbulences et les frottements atmosphériques. L'enquête a mis en évidence que certains paramètres avaient été calculés en unités de mesure anglo-saxonnes et transmises telles quelles à l'équipe de navigation, qui attendait ces données en unités du système métrique. Cette « petite » erreur a coûté 125 millions de dollars aux contribuables américains. Plus près de nous, les difficultés de l’Airbus A380 concernant la phase d'industrialisation de l'avion ont porté essentiellement sur le câblage électrique d'une partie du fuselage, la conception ayant été menée avec des logiciels de versions différentes pour la partie française et la partie allemande4. Il est toujours possible de chiffrer le coût direct de la non-qualité des données. La Figure 2 fait le calcul du retour sur investissement d’une campagne marketing d’un opérateur téléphonique. H pothèses Nombres de brochures envo ées 50000 Coût total du programme 150 000 € Bénéfice moyen par vente 1 000 € Ratio de du lication1 1.04 Taux de ré onse 2 % 1.92 % Ratio de foyer1 1.11 Taux de conversion 20 % 18.02 % RésultatsNombre de ré onse 1000 962 Cout par réponse 150 € 156 € Nombre d'acheteurs 200 173 Bénéfice total de la campa ne 200 000 € 173 250 € Retour sur Investissement % 15.5033.33 % Figure 2 - Valeur de la qualité dans une campagne marketing
« Aujourd’hui, 16 % des entreprises ont mis en place un programme de qualité de données » Depuis de nombreuses années, les DSI reconnaissent l’importance de la qualité des données comme élément fondamental de leur stratégie de gestion de l’information. Toutefois, il leur est difficile de mettre en place les procédures et les programmes adéquats. Une étude récente6montre qu’à ce jour seulement 16 % des entreprises ont mis en place un programme de qualité de données. En revanche, dans une projection à trois ans, près de 80 % en auront un. Dans le chapitre précédent, nous avons vu que la non-qualité des données avait des impacts très importants sur la performance de l’entreprise. Ainsi interrogées7, les entreprises dans leur grande majorité identifient des problèmes de confiance limitée des utilisateurs, de mauvaise productivité, de prises de décision plus difficiles, et de coût de possession plus élevé, comme conséquences directes de la non-qualité de leurs données. Il est clair que la mise en place d’un programme d’amélioration de la qualité des données apportera des bénéfices importants pour les organisations. Il faut maintenant convaincre la direction générale et les directions métiers de l’utilité d’un tel programme. En effet, la qualité des données est rarement une priorité pour les directions métiers. Il est fréquent d’entendre des remarques telles que « Nos données sont de qualité suffisante » ou « On les nettoiera plus tard ». Cette différence d’appréciation de l’importance de la qualité des données vient peut-être de la différence de point de vue entre les directions métiers et l’informatique. Chacun a des priorités différentes et personne n’est responsable de la problématique globale. Un enjeu de l’informatique seulement ? L’entreprise a besoin de son système d’information pour supporter sa stratégie, ses processus et son développement. Parties intégrantes de l’organisation, les applications et systèmes devenus très complexes gèrent des volumes de données considérables difficiles à manipuler. Les données gérées sont dynamiques et changent souvent. L’intégration des sources de données extérieures émanant des partenaires n’a pas simplifié les opérations. Les nouveaux canaux Internet d’interaction avec les clients ont multiplié les risques potentiels de corruption. Le respect des lois, en particulier celles sur la protection des données personnelles, exige de mettre en place des mécanismes stricts de contrôle de l’intégrité des données. Il en résulte que, pour de nombreuses directions métiers, l’origine et la fiabilité des données ne sont plus toujours clairs. Du côté des métiers, le problème est essentiellement identifié comme « informatique ». On entend souvent des remarques telles que « Ces données viennent de l’application, elles doivent être correctes », « Les données sont erronées. Je vais demander au département informatique de les corriger » ou « Voilà une technologie qui va me garantir des données de qualité ». En revanche, la direction informatique n’est pas directement impactée par la mauvaise qualité des données. Les programmes et les procédures ne peuvent que gérer les données sans pouvoir garantir leur qualité. C’est le principe «Garbage In- Garbage Out», anglicisme pouvant se traduire par "déchet à l'entrée, déchet à la sortie", utilisé pour qualifier le fait que dans le domaine des données, de mauvaises données au départ de la chaîne ne peuvent générer que de mauvais résultats en fin de course. En effet, la DSI ne possède pas la connaissance et l’expertise des activités gérées par les directions métiers. Elle ne connaît pas les règles métiers associées aux données. La réponse technologique seule n’est en aucun cas suffisante pour garantir la qualité des données.
Pour exploiter au mieux son capital de données, l’entreprise doit lancer une initiative Qualité des Données. Stratégique pour l’entreprise, c’est un programme permanent et pas une mesure isolée dans le temps. Elle concerne de nombreuses fonctions métiers et informatiques dans l’entreprise. Elle nécessite de définir des processus formels de qualité des données appliqués par la direction informatique et les directions métiers. Cette initiative est supportée par des solutions technologiques qui permettent d’agir sur l’ensemble des projets : de la standardisation des données, au profilage, en passant par le nettoyage, jusqu’à l’enrichissement. Il faut définir les règles de gestion des données de l’entreprise. Elles sont édictées pour garantir la qualité de complétude, conformité, cohérence, exactitude, non-duplication et intégrité des données. C’est le programme de gouvernance des données. Pour garantir son efficacité, ce programme doit inclure un comité, un ensemble de procédures et leur plan d’exécution. Autour des données, le programme doit mettre en pratique les contrôles de qualité de données et diffuser les bonnes pratiques. Il est articulé autour de deux approches : ·proactive incluant les bonnes pratiques à appliquer quand de nouvelles données approche Une sont générées, de nouveaux projets affectant les données sont lancés ou des actions de qualité sont effectuées · approche réactive incluant les actions de correction de non qualité, les actions de mise en Une conformité suite à de nouveaux règlements, les actions d’intégration suite à la mise en œuvre des nouvelles architectures orientées-services (SOA). D’une manière générale, l’initiative Qualité des Données doit couvrir les aspects suivants : · Définitionles objectifs de qualité des données · Définition, mise en place et gestion des standards de qualité ·de qualité qui ont été définis de la conformité réglementaire avec les standards Vérification · des domaines d’amélioration de la qualité des données Identification · en place des indicateurs de qualité des données Mise ·et publication des rapports pour le management Mesures· Sensibilisation et formation des équipes sur la problématique de qualité des données
La méthode Il existe de nombreuses méthodes pour identifier, mesurer et résoudre les problèmes de qualité des données. Souvent, les entreprises ont développé de manière empirique des programmes d’amélioration de la qualité des données pour répondre à un problème critique à un moment donné. Les praticiens et les universitaires se sont penchés sur le problème de la qualité en général et des données en particulier et ont développé des méthodologies adéquates. On peut citer ici la méthodologie TIQM8d’InfoImpact ou le programme TDQM9développé et enseigné au Massachusetts Institute of Technology. Toutes les méthodes d’amélioration de la qualité de données comprennent un cycle de quatre étapes : · Définition Dans cette étape, l’entreprise définit comment mesurer la qualité des données afin de répondre aux besoins des utilisateurs. Elle décide des axes prioritaires de travail. .cfm 98bewygolodm/dq/tdu.eit.mmiapniofww.wethoiqmmom/tct.c
· Mesure Il faut maintenant mesurer la qualité des données dans les projets en ligne avec la stratégie de l’entreprise et suivant des critères et des mesures définis par les utilisateurs. · Analyse L’organisation évalue l’impact et les coûts de la non-qualité pour les directions métiers. Elle prépare aussi les plans d’amélioration de cette qualité. L’objectif est de présenter aux responsables concernés le business case du projet d’amélioration. · Amélioration Dans cette étape, l’entreprise exécute les projets d’amélioration et de correction. Elle met en place les outils de mesure. Elle vérifie les indicateurs de succès et restitue les résultats pour les décideurs.
Définir la qualité ? Dans une démarche de qualité, il est important de définir clairement les caractéristiques attendues ainsi que les critères d’évaluation de la qualité des données. Il est ensuite plus facile de mettre en œuvre les mesures de suivi et les plans d’actions d e correction. Données, informations et connaissances Commençons par définir les concepts de donnée, d’information et de connaissance. · uneest une description élémentaire, souvent codée, d'une chose, d'une transaction donnée d'affaire, d'un événement, etc. Les données peuvent être conservées et classées sous différentes formes : papier, numérique, alphabétique, images, sons, etc. · représente les données transformées sous une forme significative pour la personne L’information qui les reçoit : elle a une valeur pour ses décisions et ses actions ·la connaissance fasse encore débat parmi les philosophes, dans le que la définition de Bien monde de l’entreprise c’est le traitement des données et des informations qui permet de générer des connaissances : un moyen de compréhension ou d’apprentissage d’un problème ou d’une activité. L’idée générale est de gérer les données comme un actif de l’entreprise au même titre que ses produits, ses employés, ses clients. Il faut donc comprendre les besoins des clients (ici les utilisateurs), créer des familles de données, c’est-à-dire toutes les données associées (Figure 3) et les gérer dans leur cycle de vie complet. On doit nommer un steward de données ayant un rôle similaire à un chef de produit.