livre blanc Enterprise Content Management Ce livre blanc constitue une introduction à la gestion de contenu d’entreprise ou encore ECM (Enterprise Content Management). Son objectif est de présenter de façon générale la probléma- tique liée à cette gestion, compte tenu des natures multiples de contenu auxquelles les organisations actuelles sont confrontées. Des thèmes tels l’impact sur les processus d’entreprise, les préoccupations liées à la sécurité et les plates-formes technologiques y sont également abordés. Ce document ne prétend aucunement être exhaustif, ni aussi détaillé qu’un manuel technique ou un article scientifique sur le sujet. Le lecteur qui souhaite de plus amples informations peut se référer aux différentes bibliographies. www.aubay.comintérieur (56 pages) 13/12/05 17:20 Page 1 A PROPOS D’AUBAY Aubay est un groupe européen de conseil et d'ingénierie spécialisé dans les nouvelles technologies Internet et Télécoms et leur intégration dans le Système d’Information. A PROPOS DES AUTEURS Après un Doctorat en Informatique, obtenu en 1985 auprès de l’Université Libre de Bruxelles, Luc Bernard est entré dans le monde de l’entreprise en créant en 1986 un axe avancé de technologies et de services liés au “Software Engineering” et destinés aux grands comptes. Dès 1988, avec l’apparition de SGML et des technologies associées, il s’est très tôt intéressé à la problématique de la gestion de documents pour l’étendre ensuite à la gestion de contenu au sens large. ...
Ce livre blanc constitue une introduction à la gestion de contenu d’entreprise ou encore ECM (Enterprise Content Management). Son objectif est de présenter de façon générale la probléma-tique liée à cette gestion, compte tenu des natures multiples de contenu auxquelles les organisations actuelles sont confrontées. Des thèmes tels l’impact sur les processus d’entreprise, les préoccupations liées à la sécurité et les plates-formes technologiques y sont également abordés. Ce document ne prétend aucunement être exhaustif, ni aussi détaillé qu’un manuel technique ou un article scientifique sur le sujet. Le lecteur qui souhaite de plus amples informations peut se référer aux différentes bibliographies.
www.aubay.com
niétiruer5(6pages)13/12/0517:20Page1
A PROPOS D’AUBAY Aubay est un groupe européen de conseil et d'ingénierie spécialisé dans les nouvelles technologies Internet et Télécoms et leur intégration dans le Système d’Information.
TABLE DES MATIÈRES EXECUTIVE SUMMARY NATURES DE CONTENU Données structurées Données non structurées AUTRE TYPE DE CONTENU NON STRUCTURÉ CATÉGORISATION & TAXONOMIE SYNTHÉTISATION OBJECTIFS DE L A GESTION DE CONTENU Accès et récupération de contenu Réutilisation du contenu Gestion du cycle de vie (Information Lifecycle Management – ILM) Réduction de coûts Pertinence du contenu Facilité d’utilisation Intégration de contenus variés Edition/Publication Web PORTAIL DE SYNDICATION & PERSONNALISATION SÉCURITÉ ET RECORD MANAGEMENT LES ACTEURS DU MARCHÉ SOLUTIONS PACKAGÉES VS FRAMEWORKS LA CHECK-LIST DE L’ACHETEUR CONCLUSIONS ET PERSPECTIVES RÉFÉRENCES GLOSSAIRE
Livre Blanc Enterprise Content Management 3
intérieur(56pages)13/12/0517:20Page4
niétrieur(56pages)13/12/0517:20Page5
EXECUTIVE SUMMARY La gestion de contenu est un terme générique ciblant un large spectre de fonctionnalités couvrant des domaines tels que : la création, l’approbation, l’agrégation, la communication, la dissémination, la publication, la réutilisation, l’archivage d’informations structurées et non structurées ainsi que la collaboration, le workflow, le record management, etc. Comme nous le verrons par la suite, il est primordial pour un responsable d’entreprise de prendre les décisions les plus adaptées en matière de fonctionnalités et services attendus de la gestion de contenu et ce, au niveau global de l’organisation. L’Enterprise Content Mangement (ECM) est devenu une préoccupation stratégique d’investissement comme l’a été le PGI (Progiciel de Gestion Intégré ou encore ERP) dans le passé. Les investissements qu’elle nécessite sont justifiés par l’importance majeure accordée à la capitalisation de l’information dans l’entreprise. Dans un environnement compétitif, Butler Group est convaincu que “le manque de gestion de contenu est déjà en train de pénaliser la profitabilité de nombreuses organisations”. Les analystes les plus importants (Forrester, Meta Group, Gartner, etc…) prévoient, de la part des entreprises de pointe dans tous les secteurs, une augmentation considérable des dépenses en matière d’ECM, et ce en corrélation avec la mise à disposition de médias plus riches et la croissance du volume de contenu (des stratégies et techniques de gestion de contenu doivent être déployées pour être en mesure de prendre en compte ce taux de croissance critique). Dans une étude de prévisions de dépenses IT menée par Meta Group auprès de 400 CIO’s [22], l’ECM apparaît comme étant la priorité majeure pour 2004-2005. L’alliance des niveaux d’investissement consentis, de la valeur du contenu géré ainsi que de l’étendue du public visé, induit la nécessité de mettre en place des politiques rigoureuses en matière de gestion de profils et de droits d’accès à l’information (Right Management). Il s’ensuit que, même si sa définition peut sembler quelques fois floue ou considérée comme “une nouvelle mode” , il ne fait aucun doute aujourd’hui que l’ECM constitue un courant majeur pour bon nombre d’années. Dès lors, il n’y a aucune surprise à constater qu’il existe aujourd’hui des centaines de systèmes de gestion de contenu (CMS), y compris un certain nombre de solutions Open Source, et que de nombreuses consoli-dations d’éditeurs, par opérations de fusion/acquisition, voient le jour dans ce marché très dynamique. Le propos de ce livre blanc est de présenter quelques aspects dominants de l’ECM en matière d’objectifs, de fonctionnalités, d’architecture, de sécurité, de critères d’évaluation technologique, etc. Cependant il faut noter que, en raison de l’évolution permanente et rapide des acteurs du marché ECM et des technologies de CMS, il y a de faibles chances pour qu’un analyste ou un stratège IT reste informé de façon pointue de toutes les nouveautés qui voient le jour. Nous demandons donc au lect eurde nous excuser pour toute information publiée ici, qui serait obsolète ou imprécise concernant certains produits et/ou sociétés.
Livre Blanc Enterprise Content Management 5
niétrieur(56pages)13/12/0517:20Page6
NATURES DE CONTENU Nous nous sommes intentionnellement limités dans ce document au contenu digital, qu’il soit digital à la source ou digitalisé. Ce contenu peut prendre à ce jour différentes formes : données structurées, texte non structuré, formats audio ou vidéo, traces de transactions, etc. Nous proposons de passer en revue la plupart d’entre elles, en examinant l’impact quant à leur gestion. Données structurées De grandes quantités de données homogènes entrent dans cette catégorie qui se caractérise par une structure clairement définie et répétitive, un peu comme un catalogue. Les données structurées sont typiquement celles gérées par des programmes informatiques et/ou stockées dans des Systèmes de Gestion de Bases de Données (SGBD). Effectuer des recherches sur ces informations structurées est en fait du même niveau de complexité que de construire une requête SQL basée sur les attributs décrits dans le schéma de la base de données. En fait, l’information structurée englobe les données mais également le rôle que celles-ci jouent dans le système d’information. Si nous prenons un nombre par exemple, pour lui donner une définition sémantique, sa signification doit être clarifiée d’une façon ou d’une autre (“67” peut être l’âge, le poids ou le n° de chambre d’un patient). Pour atteindre cet objectif de clarification sémantique dans un document textuel, on peut utiliser des “langages de balisage (markup language)”. Un des langages les plus connus et utilisés actuellement est XML (Extended Markup Language), une forme simplifiée de SGML1(Standard Generalized Markup2 Language – défini par l’ISO 8879 en Octobre 1986)3en fait de considérer les documents. Il permet comme des bases de données. Comme présenté par le W3C (World Wide Web Consortium: http://www.w3.org), une application XML4est constituée de plusieurs parties: 1. La déclaration XML : spécifiant quels caractères et délimiteurs peuvent apparaître dans l’application. 2. L’optionnelle ‘Document Type Definition’ (DTD): définissant la syntaxe des balises (un genre de grammaire et de dictionnaire des données). 3. Une spécification qui décrit la sémantique devant être attribuée aux balises. Cette spécification permet également d’imposer des restrictions de syntaxe qui ne peuvent pas être exprimées au sein d’une DTD. 4. Les instances de documents intégrant données (contenu) et balises. Chaque instance peut contenir une référence à la DTD à utiliser pour l’interpréter.
1. En fait XML est le résultat d’une “simplification de SGML” pour le Web (initiative du WG8 du W3C), tout en maintenant la compatibilité totale avec SGML. 2. Un “markup language” est une construction utilisée pour définir des structures au sein d’un document. 3. Certains autres, comme HyTime pour exprimer des Hypermedia, sont moins connus. 4. Il faut noter qu’HTML est une application spécifique de SGML ; XHTML est l’application XML correspondante. Livre Blanc Enterprise Content Management 6
XML est le langage par excellence de description des données structurées.
nitérieur(56pages)13/12/0517:20Page7
Sans entrer dans un grand niveau de détail, considérons qu’une application XML définit des éléments essentiellement constitués de 3 parties : une balise de début, un contenu et une balise de fin. Une balise de début d’élément s’écrit <nom-élément>, oùnom-élémentest le nom de l’élément tandis que la balise de fin reprend un caractère slash avant ce nom : </nom-élément>. Un élément vide peut, quant à lui, être représenté à l’aide d’une syntaxe simplifiée : (<nom-élément/>). A ces éléments peuvent être associées des propriétés, appelées attributs, auxquels l’auteur assigne des valeurs. Les couples “attribut/valeur” apparaissent avant le symbole “>” de la balise de début d’élément. On peut ainsi y référencer une liste de couples “attributs/valeurs” séparés par des espaces. Dans cet exemple, une valeur est assignée à l’attribut ‘align’ de l’élément en-tête H1 <H1 align="justify "> Ce premier niveau d’entête sera justifié </H1> Ci–après quelques avantages clés de l’utilisation de documents XML : ■Ils peuvent être vérifiés par unparserpour s’assurer qu’ils sont ‘bien formés’ (ils respectent la syntaxe XML) et, si nécessaire, qu’ils sont également “valides” (ils respectent les contraintes de la DTD, quelque part comparable à la définition grammaticale BNF d’un langage de programmation). ■Ils sont transportables et réutilisables sans altération de la sémantique. ■séparation nette entre contenu et présentation (cette dernière étant prise en chargeIls assurent une par le traitement de feuilles de style [“style sheet processing”5également appelé “rules processing”]). Exemples de contrôles qui assurent qu’un document XML est “bien formé”: ■Le début et la fin des balises doivent correspondre ■Les éléments doivent être agencés de façon hiérarchique ■Il doit y avoir exactement un élément ‘racine’ ■Tous les attributs doivent être par défaut de type CDATA Tout ceci laisse l’utilisation d’XML assez ouverte : il peut être exploité en tant que format de documents (les balises étant utilisées pour capturer la sémantique du contenu et, éventuellement, la validité de la structure) ou être exploité comme format d’échange d’informations (les balises étant utilisées pour capturer la signification des données et assurer éventuellement leur complétude). Ce second usage peut avoir un sens dans le cas de traitements transactionnels.
5. Quelques exemples connus sont CSS (Cascading Style Sheet - http://www.w3.org/TR/REC-CSS1) ou DSSSL ou XSL-fo Livre Blanc Enterprise Content Management 7
intérieur(56pages)13/12/0517:20Page8
Considérons à présent un exemple plus étendu de fichier XML : <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE WP SYSTEM "wp.dtd"> <WP> <TITRE>Enterprise Content Management</TITRE> <EDITION>2004</EDITION> <AUTEUR> <PRENOM>Luc</PRENOM > <NOM>BERNARD</NOM> </AUTEUR> <STANZA> <LIGNE N="1">The purpose of this White Paper is to present ECM.</LIGNE> <LIGNE N="2">All organizations are concerned by ECM issues.</LIGNE> <LIGNE N="3">Information is a vital asset of any organization.</LIGNE> <LIGNE N="4">Different kind of information has to be managed.</LIGNE> </STANZA> <STANZA> <LIGNE N="5">Content may be structured or unstructured.</LIGNE> <LIGNE N="6">Querying methods depend on content’s nature.</LIGNE> </STANZA> </WP> Comme on peut le cons tater,XML offre la possibilité de bâtir une hiérarchie d’éléments (structure arborescente) : l’élément “auteur” par exemple contient les éléments “prénom” et “nom”. En raison du marquage très explicite des balises, il devient aisé d’exploiter la structure sémantique d’un document ; ce qui nous conduit à la notion decontenu structuré. Dans notre exemple, nous pouvons sans hésitation retrouver les livres blancs écrits par un auteur donné et pour une année d’édition donnée. La force de XML réside également dans les facilités d’Hypertexte qu’elle offre : les attributs ID/IDREF fournissent un moyen de référencer une partie de document à partir d’une autre partie et d’accomplir les fonctions de “navigation” (XREF). Les “Attributs d’entité” permettent également d’accéder à des “objets non textuels” tels des figures :
S =ueaf(x)dxu b
XML est sémantiquement neutre mais son utilisation facilite le développement d’applications qui gèrent des documents multilingues en permettant la synchronisation de différentes versions de langue sur les objets XML.
Livre Blanc Enterprise Content Management 8
nitérieur(56pages
XSL est un complément important de XML pour la mise en forme des données.
)13/12/0517:20Page9
En XML, la structure de documents “correctement formés” peut être gelée au moyen d’une DTD ; dans notre exemple, nous pourrions utiliser la DTD suivante (référencée dans l’exemple comme “wp.dtd”). <!ELEMENT WP (TITRE, EDITION, AUTEUR, STANZA*)> <!ELEMENT TITRE (#PCDATA)> <!ELEMENT EDITION (#PCDATA)> <!ELEMENT AUTEUR (PRENOM, NOM)> <!ELEMENT PRENOM (#PCDATA)> <!ELEMENT NOM (#PCDATA)> <!ELEMENT STANZA (LIGNE*)> <!ELEMENT LIGNE (#PCDATA)> La DTD est une fonctionnalité héritée de SGML. Ses deux inconvénients majeurs sont sa syntaxe spécifique et son manque de capacité de typologie. Deux importants standards associés, XML Namespace et XML Schema, viennent renforcer les fonctionnalités de base de XML : ■XML Namespaces permet la coexistence d’éléments en provenance de types de documents dif férents au sein d’un même document ; ■XML Schema augmente les possibilités de la DTD en mettant à disposition des définitions de types d’élément très complexes. La présentation d’un document XML peut être formatée en utilisant CSS; cependant, il existe une spécification de mise en forme par feuille de style plus extensible qui est XSL (Extensible Stylesheet Language). XSL est constitué de deux parties : ■XSLT : pour la transformation vers une structure XML différente, un texte ou un document HTML, ■XSL-FO : pour la spécification de mise en forme des objets du document. Xlink définit un mécanisme de liens XML : il permet de spécifier des “liens simples”, tels les hyperliens d’HTML, mais également des “liens étendus” qui associent un nombre quelconque de ressources (distantes et/ou locales). Les éléments de liaison associés peuvent être regroupés au sein d’un document spécifique, la “linkbase”, ce qui rend leur gestion plus aisée et indépendante du/des document(s) référencés. L’encryptage et la signature XML apportent des solutions aux besoins/exigences en matière de sécurité. La signature XML, gérée conjointement par des groupes de travail de IETF et W3C, peut être utilisée pour signer n’importe quelle donnée, qu’elle soit en XML ou en binaire. Elle permet également de signer sélectivement certaines parties de documents, d’adjoindre plusieurs signatures à un même document et de gérer la transformation de données signées. La signature XML peut être définie sous au moins 3 formes : ■La signature détachée (“detached signature”) qui concerne des données qui sont externes à l’élément de signature lui-même ; ■La signature enveloppante (“enveloping signature”) qui couvre des données à l’intérieur même de l’élément de signature ; ■La signature enveloppée (“enveloped signature”) qui est contenue au sein même de la donnée qui doit être signée.
Livre Blanc Enterprise Content Management 9
niétiruer5(6pages)13/12/0517:20Page10
Jetons un coup d’oeil à un extrait de fichier XML qui est utilisé pour acheminer via Internet les sources de don-nées météo6relatives aux aéroports identifiés par leur code ICAO (International Civil Aviation Organization) : <?xml version="1.0" encoding="UTF-8"?> <metar UTC-date="2001.03.10" UTC-time="0456" cycle="5" ICAO-location="KCAE"> <location ICAO-location="KCAE"> <political> <station>Columbia Metropolitan Airport</station> <city>Columbia</city> <state>SC</state> <country>United States</country> </political> <geographical> <longitude>33-56-31N</longitude> <latitude>081-07-05W</latitude> <altitude>73M</altitude> </geographical> </location> <local-date>Mar 09, 2003</local-date> <local-time>11:56 PM EST</local-time> <Wind direction="010">5 MPH (5 KT):0</Wind> <Visibility>10 mile(s):0</Visibility> <Sky-conditions>clear</Sky-conditions> <Temperature units="F">41.0</Temperature> <Dew-Point units="F">36.0</Dew-Point> <Relative-Humidity>82%</Relative-Humidity> <altimeter units="in. Hg">29.98</altimeter> <ob>KCAE 100456Z 01005KT 10SM CLR 05/02 A2998 RMK AO2 SLP152 T00500022 </ob> </metar> Comme on peut l’observer, un tel document XML “bien formé” peut facilement être interprété et intégré comme un contenu structuré de valeur exploitable par n’importe quel outil logiciel.